Ящик з вусами
Box plot — ще один надзвичайно поширений графік у статистиці, який використовується для візуалізації центральної тенденції, розкиду та потенційних викидів у даних через їх квартилі.
Квартилі
Квартилі поділяють дані (відсортовані у порядку зростання) на чотири рівні частини. Існує три квартилі:
- Перший квартиль (Q1) — це середнє значення між найменшим значенням вибірки та медіаною (25% даних знаходиться у цьому діапазоні);
- Другий квартиль (Q2) — це сама медіана (50% даних знаходиться нижче за медіану);
- Третій квартиль (Q3) — це середнє значення між медіаною вибірки та найбільшим значенням вибірки (75% даних знаходиться нижче за Q3).
Елементи box plot
- Права сторона червоного прямокутника позначає третій квартиль, а ліва сторона — перший квартиль;
- Q3 - Q1 називається міжквартильним розмахом (IQR), який зображено прямокутником, де жовта лінія — це медіана;
- Чорні лінії за межами прямокутника називаються вусами. Ліва позначає Q1−1.5⋅IR, а права — Q3+1.5⋅IR;
- Точки даних, що знаходяться за межами вусів, називаються викидами.
Наступний крок — побудова box plot за допомогою бібліотеки matplotlib:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Дані box plot
Функція boxplot() з модуля pyplot використовується з першим і єдиним обов'язковим параметром x, який представляє дані. Ці дані можуть бути об'єктом, подібним до масиву (наприклад, Series), двовимірним масивом (box plot будується для кожного стовпця) або послідовністю одномірних масивів (box plot будується для кожного масиву).
Додаткові параметри
Параметр tick_labels є винятком. Він особливо корисний не лише для підпису одного box plot, а й для підпису box plot, коли є декілька масивів:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
У цьому прикладі весь DataFrame з двома стовпцями було передано у boxplot(), у результаті чого для кожного стовпця створено окремий box plot з відповідними підписами, які призначаються автоматично.
Існує також чимало додаткових параметрів для налаштування box plot, з якими можна ознайомитися у документації boxplot(), хоча на практиці ви, ймовірно, рідко будете їх використовувати.
Swipe to start coding
Створіть два box plot, використовуючи дві вибірки зі стандартного нормального розподілу:
- Використайте відповідну функцію для побудови box plot.
- В якості даних використайте список
normal_sample_1таnormal_sample_2(у такому порядку зліва направо). - Позначте лівий box plot як
First sample, а правий — якSecond sample, використовуючиlist.
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain what the interquartile range (IQR) is used for?
How do I interpret outliers in a box plot?
Can you show how to customize the appearance of a box plot?
Awesome!
Completion rate improved to 3.85
Ящик з вусами
Свайпніть щоб показати меню
Box plot — ще один надзвичайно поширений графік у статистиці, який використовується для візуалізації центральної тенденції, розкиду та потенційних викидів у даних через їх квартилі.
Квартилі
Квартилі поділяють дані (відсортовані у порядку зростання) на чотири рівні частини. Існує три квартилі:
- Перший квартиль (Q1) — це середнє значення між найменшим значенням вибірки та медіаною (25% даних знаходиться у цьому діапазоні);
- Другий квартиль (Q2) — це сама медіана (50% даних знаходиться нижче за медіану);
- Третій квартиль (Q3) — це середнє значення між медіаною вибірки та найбільшим значенням вибірки (75% даних знаходиться нижче за Q3).
Елементи box plot
- Права сторона червоного прямокутника позначає третій квартиль, а ліва сторона — перший квартиль;
- Q3 - Q1 називається міжквартильним розмахом (IQR), який зображено прямокутником, де жовта лінія — це медіана;
- Чорні лінії за межами прямокутника називаються вусами. Ліва позначає Q1−1.5⋅IR, а права — Q3+1.5⋅IR;
- Точки даних, що знаходяться за межами вусів, називаються викидами.
Наступний крок — побудова box plot за допомогою бібліотеки matplotlib:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Дані box plot
Функція boxplot() з модуля pyplot використовується з першим і єдиним обов'язковим параметром x, який представляє дані. Ці дані можуть бути об'єктом, подібним до масиву (наприклад, Series), двовимірним масивом (box plot будується для кожного стовпця) або послідовністю одномірних масивів (box plot будується для кожного масиву).
Додаткові параметри
Параметр tick_labels є винятком. Він особливо корисний не лише для підпису одного box plot, а й для підпису box plot, коли є декілька масивів:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
У цьому прикладі весь DataFrame з двома стовпцями було передано у boxplot(), у результаті чого для кожного стовпця створено окремий box plot з відповідними підписами, які призначаються автоматично.
Існує також чимало додаткових параметрів для налаштування box plot, з якими можна ознайомитися у документації boxplot(), хоча на практиці ви, ймовірно, рідко будете їх використовувати.
Swipe to start coding
Створіть два box plot, використовуючи дві вибірки зі стандартного нормального розподілу:
- Використайте відповідну функцію для побудови box plot.
- В якості даних використайте список
normal_sample_1таnormal_sample_2(у такому порядку зліва направо). - Позначте лівий box plot як
First sample, а правий — якSecond sample, використовуючиlist.
Рішення
Дякуємо за ваш відгук!
single