Kursinhalt
Ultimative Visualisierung mit Python
Ultimative Visualisierung mit Python
Boxplot
Boxplot ist ein weiteres äußerst häufiges Diagramm in der Statistik, das verwendet wird, um die zentrale Tendenz, die Streuung und potenzielle Ausreißer innerhalb der Daten über ihre Quartile zu visualisieren.
Quartile
Quartile teilen die Datenpunkte (in aufsteigender Reihenfolge sortiert) in vier gleich große Teile. Es gibt drei davon:
- Das erste Quartil (Q1) ist die mittlere Zahl zwischen dem kleinsten Wert (Zahl) der Stichprobe und dem Median (25 % der Daten liegen in diesem Bereich);
- Das zweite Quartil (Q2) ist der Median selbst (50 % der Daten liegen unterhalb des Medians);
- Das dritte Quartil (Q3) ist die mittlere Zahl zwischen dem Median der Stichprobe und den höchsten Werten der Stichprobe (75 % der Daten liegen unterhalb von Q3).
Schauen wir uns ein Beispiel für ein Boxplot an:
Dieses Boxplot basiert auf den Daten des BIP pro Kopf in verschiedenen Ländern.
Elemente des Boxplots
- Die obere Seite des blauen Rechtecks repräsentiert das dritte (obere) Quartil und die untere Seite repräsentiert das erste Quartil;
- Q3- Q1 wird als Interquartilsabstand (IR) bezeichnet, der durch das Rechteck dargestellt wird, wobei die grüne Linie den Median darstellt;
- Die schwarzen Linien außerhalb des Rechtecks werden Whiskers genannt. Der untere repräsentiert Q1 -1.5* IR, und der obere repräsentiert Q3 +1.5* IR;
- Die Datenpunkte, die außerhalb der Whiskers liegen, werden als Ausreißer bezeichnet (in diesem Beispiel gibt es davon ziemlich viele).
Jetzt ist es an der Zeit, mit Hilfe von matplotlib
ein Boxplot zu erstellen:
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yealy temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplot-Daten
Wie Sie sehen können, ist hier alles ziemlich einfach. Sie müssen lediglich die Funktion boxplot()
aus dem pyplot
-Modul verwenden, wobei der erste (der einzige erforderliche) Parameter (genannt x
) Ihre Daten sind. Es kann entweder ein array-ähnliches Objekt (hier Series
), ein 2D-Array (ein Boxplot wird für jede Spalte gezeichnet) oder eine Sequenz von 1D-Arrays (ein Boxplot wird für jedes Array gezeichnet) sein.
Optionale Parameter
Es gibt auch eine ganze Reihe von optionalen Parametern zur Anpassung des Boxplots, die Sie hier erkunden können, doch in der Praxis werden Sie sie möglicherweise selten verwenden.
Der Parameter tick_labels
ist eine Ausnahme. Dieser ist besonders nützlich, um nicht nur einen einzelnen Boxplot zu beschriften, sondern auch die Boxplots zu beschriften, wenn es mehr als ein Array gibt:
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Hier haben wir unser Beispiel leicht modifiziert, indem wir das gesamte DataFrame
, das 2 Spalten hat, übergeben und jeden Boxplot entsprechend beschriften.
Swipe to start coding
Ihre Aufgabe ist es, zwei Boxplots mit zwei Stichproben aus der Standardnormalverteilung zu erstellen:
- Verwenden Sie die richtige Funktion, um die Boxplots zu erstellen.
- Verwenden Sie die Liste von
normal_sample_1
undnormal_sample_2
(in dieser Reihenfolge von links nach rechts) als Daten. - Beschriften Sie den linken Boxplot als
First sample
und den rechten alsSecond sample
mit derlist
.
Lösung
Danke für Ihr Feedback!
Boxplot
Boxplot ist ein weiteres äußerst häufiges Diagramm in der Statistik, das verwendet wird, um die zentrale Tendenz, die Streuung und potenzielle Ausreißer innerhalb der Daten über ihre Quartile zu visualisieren.
Quartile
Quartile teilen die Datenpunkte (in aufsteigender Reihenfolge sortiert) in vier gleich große Teile. Es gibt drei davon:
- Das erste Quartil (Q1) ist die mittlere Zahl zwischen dem kleinsten Wert (Zahl) der Stichprobe und dem Median (25 % der Daten liegen in diesem Bereich);
- Das zweite Quartil (Q2) ist der Median selbst (50 % der Daten liegen unterhalb des Medians);
- Das dritte Quartil (Q3) ist die mittlere Zahl zwischen dem Median der Stichprobe und den höchsten Werten der Stichprobe (75 % der Daten liegen unterhalb von Q3).
Schauen wir uns ein Beispiel für ein Boxplot an:
Dieses Boxplot basiert auf den Daten des BIP pro Kopf in verschiedenen Ländern.
Elemente des Boxplots
- Die obere Seite des blauen Rechtecks repräsentiert das dritte (obere) Quartil und die untere Seite repräsentiert das erste Quartil;
- Q3- Q1 wird als Interquartilsabstand (IR) bezeichnet, der durch das Rechteck dargestellt wird, wobei die grüne Linie den Median darstellt;
- Die schwarzen Linien außerhalb des Rechtecks werden Whiskers genannt. Der untere repräsentiert Q1 -1.5* IR, und der obere repräsentiert Q3 +1.5* IR;
- Die Datenpunkte, die außerhalb der Whiskers liegen, werden als Ausreißer bezeichnet (in diesem Beispiel gibt es davon ziemlich viele).
Jetzt ist es an der Zeit, mit Hilfe von matplotlib
ein Boxplot zu erstellen:
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yealy temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplot-Daten
Wie Sie sehen können, ist hier alles ziemlich einfach. Sie müssen lediglich die Funktion boxplot()
aus dem pyplot
-Modul verwenden, wobei der erste (der einzige erforderliche) Parameter (genannt x
) Ihre Daten sind. Es kann entweder ein array-ähnliches Objekt (hier Series
), ein 2D-Array (ein Boxplot wird für jede Spalte gezeichnet) oder eine Sequenz von 1D-Arrays (ein Boxplot wird für jedes Array gezeichnet) sein.
Optionale Parameter
Es gibt auch eine ganze Reihe von optionalen Parametern zur Anpassung des Boxplots, die Sie hier erkunden können, doch in der Praxis werden Sie sie möglicherweise selten verwenden.
Der Parameter tick_labels
ist eine Ausnahme. Dieser ist besonders nützlich, um nicht nur einen einzelnen Boxplot zu beschriften, sondern auch die Boxplots zu beschriften, wenn es mehr als ein Array gibt:
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Hier haben wir unser Beispiel leicht modifiziert, indem wir das gesamte DataFrame
, das 2 Spalten hat, übergeben und jeden Boxplot entsprechend beschriften.
Swipe to start coding
Ihre Aufgabe ist es, zwei Boxplots mit zwei Stichproben aus der Standardnormalverteilung zu erstellen:
- Verwenden Sie die richtige Funktion, um die Boxplots zu erstellen.
- Verwenden Sie die Liste von
normal_sample_1
undnormal_sample_2
(in dieser Reihenfolge von links nach rechts) als Daten. - Beschriften Sie den linken Boxplot als
First sample
und den rechten alsSecond sample
mit derlist
.
Lösung
Danke für Ihr Feedback!