Box-Plot
Boxplot ist ein weiteres äußerst gebräuchliches Diagramm in der Statistik, das verwendet wird, um die zentrale Tendenz, Streuung und potenzielle Ausreißer innerhalb der Daten anhand ihrer Quartile zu visualisieren.
Quartile
Quartile teilen die (aufsteigend sortierten) Datenpunkte in vier gleich große Teile. Es gibt drei davon:
Das erste Quartil (Q1) ist die mittlere Zahl zwischen dem kleinsten Wert (Zahl) der Stichprobe und dem Median (25 % der Daten liegen in diesem Bereich);
Das zweite Quartil (Q2) ist der Median selbst (50 % der Daten liegen unterhalb des Medians);
Das dritte Quartil (Q3) ist die mittlere Zahl zwischen dem Median der Stichprobe und den höchsten Werten der Stichprobe (75 % der Daten liegen unterhalb von Q3).
Elemente des Boxplots
Die rechte Seite des roten Rechtecks stellt das dritte Quartil dar und die linke Seite das erste Quartil;
Q3 - Q1 wird als Interquartilsabstand (IQR) bezeichnet, der durch das Rechteck dargestellt wird, wobei die gelbe Linie den Median markiert;
Die schwarzen Linien außerhalb des Rechtecks werden als "Whisker" bezeichnet. Die linke Linie stellt dar, die rechte Linie ;
Die Datenpunkte außerhalb der Whisker werden als Ausreißer bezeichnet.
Im nächsten Schritt wird ein Boxplot mit der matplotlib
-Bibliothek erzeugt:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplot-Daten
Die Funktion boxplot()
aus dem Modul pyplot
wird mit dem ersten und einzigen erforderlichen Parameter x
verwendet, der die Daten repräsentiert. Diese Daten können ein array-ähnliches Objekt (z. B. eine Series
), ein 2D-Array (für jede Spalte wird ein Boxplot gezeichnet) oder eine Sequenz von 1D-Arrays sein (für jedes Array wird ein Boxplot gezeichnet).
Optionale Parameter
Der Parameter tick_labels
ist eine Ausnahme. Dieser ist besonders nützlich, um nicht nur einen einzelnen Boxplot zu beschriften, sondern auch die Boxplots zu beschriften, wenn es mehr als ein Array gibt:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
In diesem Beispiel wurde das gesamte DataFrame
mit zwei Spalten an boxplot()
übergeben, wodurch für jede Spalte separate Boxplots mit automatisch zugewiesenen, passenden Beschriftungen erstellt wurden.
Es gibt auch eine Vielzahl optionaler Parameter zur Anpassung des Boxplots, die Sie in der boxplot()
Dokumentation nachlesen können, die in der Praxis jedoch selten verwendet werden.
Swipe to start coding
Erstellen Sie zwei Boxplots mit zwei Stichproben aus der Standardnormalverteilung:
- Verwenden Sie die korrekte Funktion, um die Boxplots zu erstellen.
- Verwenden Sie die Listen
normal_sample_1
undnormal_sample_2
(in dieser Reihenfolge von links nach rechts) als Datenbasis. - Beschriften Sie den linken Boxplot mit
First sample
und den rechten mitSecond sample
mithilfe derlist
.
Lösung
Danke für Ihr Feedback!