Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ящик з вусами | Додаткові Статистичні Графіки
Універсальна Візуалізація з Python

bookЯщик з вусами

Note
Визначення

Box plot — ще один надзвичайно поширений графік у статистиці, який використовується для візуалізації центральної тенденції, розкиду та потенційних викидів у даних через їх квартилі.

Квартилі

quartiles

Квартилі поділяють дані (відсортовані у порядку зростання) на чотири рівні частини. Існує три квартилі:

  • Перший квартиль (Q1) — це середнє значення між найменшим значенням вибірки та медіаною (25% даних знаходиться у цьому діапазоні);
  • Другий квартиль (Q2) — це сама медіана (50% даних знаходиться нижче за медіану);
  • Третій квартиль (Q3) — це середнє значення між медіаною вибірки та найбільшим значенням вибірки (75% даних знаходиться нижче за Q3).

Елементи box plot

box_plot_explained
  • Права сторона червоного прямокутника позначає третій квартиль, а ліва сторонаперший квартиль;
  • Q3 - Q1 називається міжквартильним розмахом (IQR), який зображено прямокутником, де жовта лінія — це медіана;
  • Чорні лінії за межами прямокутника називаються вусами. Ліва позначає Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, а права — Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};
  • Точки даних, що знаходяться за межами вусів, називаються викидами.

Наступний крок — побудова box plot за допомогою бібліотеки matplotlib:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Дані box plot

Функція boxplot() з модуля pyplot використовується з першим і єдиним обов'язковим параметром x, який представляє дані. Ці дані можуть бути об'єктом, подібним до масиву (наприклад, Series), двовимірним масивом (box plot будується для кожного стовпця) або послідовністю одномірних масивів (box plot будується для кожного масиву).

Додаткові параметри

Параметр tick_labels є винятком. Він особливо корисний не лише для підпису одного box plot, а й для підпису box plot, коли є декілька масивів:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

У цьому прикладі весь DataFrame з двома стовпцями було передано у boxplot(), у результаті чого для кожного стовпця створено окремий box plot з відповідними підписами, які призначаються автоматично.

Note
Досліджуйте більше

Існує також чимало додаткових параметрів для налаштування box plot, з якими можна ознайомитися у документації boxplot(), хоча на практиці ви, ймовірно, рідко будете їх використовувати.

Завдання

Swipe to start coding

Створіть два box plot, використовуючи дві вибірки зі стандартного нормального розподілу:

  1. Використайте відповідну функцію для побудови box plot.
  2. В якості даних використайте список normal_sample_1 та normal_sample_2 (у такому порядку зліва направо).
  3. Позначте лівий box plot як First sample, а правий — як Second sample, використовуючи list.

Рішення

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 2
single

single

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain what the interquartile range (IQR) is used for?

How do I interpret outliers in a box plot?

Can you show how to customize the appearance of a box plot?

close

Awesome!

Completion rate improved to 3.85

bookЯщик з вусами

Свайпніть щоб показати меню

Note
Визначення

Box plot — ще один надзвичайно поширений графік у статистиці, який використовується для візуалізації центральної тенденції, розкиду та потенційних викидів у даних через їх квартилі.

Квартилі

quartiles

Квартилі поділяють дані (відсортовані у порядку зростання) на чотири рівні частини. Існує три квартилі:

  • Перший квартиль (Q1) — це середнє значення між найменшим значенням вибірки та медіаною (25% даних знаходиться у цьому діапазоні);
  • Другий квартиль (Q2) — це сама медіана (50% даних знаходиться нижче за медіану);
  • Третій квартиль (Q3) — це середнє значення між медіаною вибірки та найбільшим значенням вибірки (75% даних знаходиться нижче за Q3).

Елементи box plot

box_plot_explained
  • Права сторона червоного прямокутника позначає третій квартиль, а ліва сторонаперший квартиль;
  • Q3 - Q1 називається міжквартильним розмахом (IQR), який зображено прямокутником, де жовта лінія — це медіана;
  • Чорні лінії за межами прямокутника називаються вусами. Ліва позначає Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, а права — Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};
  • Точки даних, що знаходяться за межами вусів, називаються викидами.

Наступний крок — побудова box plot за допомогою бібліотеки matplotlib:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Дані box plot

Функція boxplot() з модуля pyplot використовується з першим і єдиним обов'язковим параметром x, який представляє дані. Ці дані можуть бути об'єктом, подібним до масиву (наприклад, Series), двовимірним масивом (box plot будується для кожного стовпця) або послідовністю одномірних масивів (box plot будується для кожного масиву).

Додаткові параметри

Параметр tick_labels є винятком. Він особливо корисний не лише для підпису одного box plot, а й для підпису box plot, коли є декілька масивів:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

У цьому прикладі весь DataFrame з двома стовпцями було передано у boxplot(), у результаті чого для кожного стовпця створено окремий box plot з відповідними підписами, які призначаються автоматично.

Note
Досліджуйте більше

Існує також чимало додаткових параметрів для налаштування box plot, з якими можна ознайомитися у документації boxplot(), хоча на практиці ви, ймовірно, рідко будете їх використовувати.

Завдання

Swipe to start coding

Створіть два box plot, використовуючи дві вибірки зі стандартного нормального розподілу:

  1. Використайте відповідну функцію для побудови box plot.
  2. В якості даних використайте список normal_sample_1 та normal_sample_2 (у такому порядку зліва направо).
  3. Позначте лівий box plot як First sample, а правий — як Second sample, використовуючи list.

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 2
single

single

some-alt