Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Låddiagram | Fler Statistiska Diagram
Ultimat Visualisering med Python

Svep för att visa menyn

book
Låddiagram

Note
Definition

Lådagram är ett annat mycket vanligt diagram inom statistik som används för att visualisera central tendens, spridning och potentiella avvikare i data via deras kvartiler.

Kvartiler

Kvartiler delar datapunkterna (sorterade i stigande ordning) i fyra lika stora delar. Det finns tre av dem:

  • Första kvartilen (Q1) är det mittersta talet mellan det minsta värdet i urvalet och medianen (25% av datan ligger inom detta intervall);

  • Andra kvartilen (Q2) är själva medianen (50% av datan ligger under medianen);

  • Tredje kvartilen (Q3) är det mittersta talet mellan medianen och de högsta värdena i urvalet (75% av datan ligger under Q3).

Boxplot-element

  • Högra sidan av den röda rektangeln representerar tredje kvartilen och vänstra sidan representerar första kvartilen;

  • Q3 - Q1 kallas för interkvartilavstånd (IQR), vilket representeras av rektangeln där den gula linjen är medianen;

  • De svarta linjerna utanför rektangeln kallas visare. Den vänstra representerar Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, och den högra representerar Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Datapunkterna som ligger utanför visarna kallas avvikare.

Nästa steg är att generera ett boxplot med hjälp av biblioteket matplotlib:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Boxplotdata

Funktionen boxplot() från modulen pyplot används med den första och enda obligatoriska parametern x som representerar data. Dessa data kan vara ett array-liknande objekt (t.ex. en Series), en 2D-array (ett boxplot ritas för varje kolumn), eller en sekvens av 1D-arrayer (ett boxplot ritas för varje array).

Valfria parametrar

Parametern tick_labels är ett undantag. Denna är särskilt användbar inte bara för att märka ett enskilt boxplot, utan även för att märka boxplots när det finns flera arrayer:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

I det här exemplet skickades hela DataFrame med två kolumner till boxplot(), vilket resulterade i separata lådagram för varje kolumn med lämpliga etiketter automatiskt tilldelade.

Note
Läs vidare

Det finns också en hel del valfria parametrar för att anpassa lådagrammet, vilka du kan utforska i boxplot() dokumentationen, men i praktiken använder du dem sällan.

Uppgift

Swipe to start coding

Skapa två lådagram med hjälp av två stickprov från standardnormalfördelningen:

  1. Använd rätt funktion för att skapa lådagrammen.
  2. Använd listorna normal_sample_1 och normal_sample_2 (i denna ordning från vänster till höger) som data.
  3. Märk det vänstra lådagrammet som First sample och det högra som Second sample med hjälp av list.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 2
Vi beklagar att något gick fel. Vad hände?

Fråga AI

expand
ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

book
Låddiagram

Note
Definition

Lådagram är ett annat mycket vanligt diagram inom statistik som används för att visualisera central tendens, spridning och potentiella avvikare i data via deras kvartiler.

Kvartiler

Kvartiler delar datapunkterna (sorterade i stigande ordning) i fyra lika stora delar. Det finns tre av dem:

  • Första kvartilen (Q1) är det mittersta talet mellan det minsta värdet i urvalet och medianen (25% av datan ligger inom detta intervall);

  • Andra kvartilen (Q2) är själva medianen (50% av datan ligger under medianen);

  • Tredje kvartilen (Q3) är det mittersta talet mellan medianen och de högsta värdena i urvalet (75% av datan ligger under Q3).

Boxplot-element

  • Högra sidan av den röda rektangeln representerar tredje kvartilen och vänstra sidan representerar första kvartilen;

  • Q3 - Q1 kallas för interkvartilavstånd (IQR), vilket representeras av rektangeln där den gula linjen är medianen;

  • De svarta linjerna utanför rektangeln kallas visare. Den vänstra representerar Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, och den högra representerar Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Datapunkterna som ligger utanför visarna kallas avvikare.

Nästa steg är att generera ett boxplot med hjälp av biblioteket matplotlib:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Boxplotdata

Funktionen boxplot() från modulen pyplot används med den första och enda obligatoriska parametern x som representerar data. Dessa data kan vara ett array-liknande objekt (t.ex. en Series), en 2D-array (ett boxplot ritas för varje kolumn), eller en sekvens av 1D-arrayer (ett boxplot ritas för varje array).

Valfria parametrar

Parametern tick_labels är ett undantag. Denna är särskilt användbar inte bara för att märka ett enskilt boxplot, utan även för att märka boxplots när det finns flera arrayer:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

I det här exemplet skickades hela DataFrame med två kolumner till boxplot(), vilket resulterade i separata lådagram för varje kolumn med lämpliga etiketter automatiskt tilldelade.

Note
Läs vidare

Det finns också en hel del valfria parametrar för att anpassa lådagrammet, vilka du kan utforska i boxplot() dokumentationen, men i praktiken använder du dem sällan.

Uppgift

Swipe to start coding

Skapa två lådagram med hjälp av två stickprov från standardnormalfördelningen:

  1. Använd rätt funktion för att skapa lådagrammen.
  2. Använd listorna normal_sample_1 och normal_sample_2 (i denna ordning från vänster till höger) som data.
  3. Märk det vänstra lådagrammet som First sample och det högra som Second sample med hjälp av list.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 2
Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Vi beklagar att något gick fel. Vad hände?
some-alt