Låddiagram
Lådagram är ett annat mycket vanligt diagram inom statistik som används för att visualisera central tendens, spridning och potentiella avvikare i data via deras kvartiler.
Kvartiler
Kvartiler delar datapunkterna (sorterade i stigande ordning) i fyra lika stora delar. Det finns tre av dem:
Första kvartilen (Q1) är det mittersta talet mellan det minsta värdet i urvalet och medianen (25% av datan ligger inom detta intervall);
Andra kvartilen (Q2) är själva medianen (50% av datan ligger under medianen);
Tredje kvartilen (Q3) är det mittersta talet mellan medianen och de högsta värdena i urvalet (75% av datan ligger under Q3).
Boxplot-element
Högra sidan av den röda rektangeln representerar tredje kvartilen och vänstra sidan representerar första kvartilen;
Q3 - Q1 kallas för interkvartilavstånd (IQR), vilket representeras av rektangeln där den gula linjen är medianen;
De svarta linjerna utanför rektangeln kallas visare. Den vänstra representerar , och den högra representerar ;
Datapunkterna som ligger utanför visarna kallas avvikare.
Nästa steg är att generera ett boxplot med hjälp av biblioteket matplotlib
:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplotdata
Funktionen boxplot()
från modulen pyplot
används med den första och enda obligatoriska parametern x
som representerar data. Dessa data kan vara ett array-liknande objekt (t.ex. en Series
), en 2D-array (ett boxplot ritas för varje kolumn), eller en sekvens av 1D-arrayer (ett boxplot ritas för varje array).
Valfria parametrar
Parametern tick_labels
är ett undantag. Denna är särskilt användbar inte bara för att märka ett enskilt boxplot, utan även för att märka boxplots när det finns flera arrayer:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
I det här exemplet skickades hela DataFrame
med två kolumner till boxplot()
, vilket resulterade i separata lådagram för varje kolumn med lämpliga etiketter automatiskt tilldelade.
Det finns också en hel del valfria parametrar för att anpassa lådagrammet, vilka du kan utforska i boxplot()
dokumentationen, men i praktiken använder du dem sällan.
Swipe to start coding
Skapa två lådagram med hjälp av två stickprov från standardnormalfördelningen:
- Använd rätt funktion för att skapa lådagrammen.
- Använd listorna
normal_sample_1
ochnormal_sample_2
(i denna ordning från vänster till höger) som data. - Märk det vänstra lådagrammet som
First sample
och det högra somSecond sample
med hjälp avlist
.
Lösning
Tack för dina kommentarer!