Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Boksplot | Flere Statistiske Diagrammer
Ultimativ Visualisering med Python

Stryg for at vise menuen

book
Boksplot

Note
Definition

Box plot er en anden yderst almindelig graf i statistik, der bruges til at visualisere den centrale tendens, spredning og potentielle outliers i dataene via deres kvartiler.

Kvartiler

Kvartiler opdeler datapunkterne (sorteret i stigende rækkefølge) i fire lige store dele. Der er tre af dem:

  • Første kvartil (Q1) er tallet midt imellem den mindste værdi (tal) i stikprøven og medianen (25% af dataene ligger i dette interval);

  • Anden kvartil (Q2) er selve medianen (50% af dataene ligger under medianen);

  • Tredje kvartil (Q3) er tallet midt imellem medianen af stikprøven og de højeste værdier i stikprøven (75% af dataene ligger under Q3).

Elementer i boksplot

  • Højre side af den røde rektangel repræsenterer tredje kvartil, og venstre side repræsenterer første kvartil;

  • Q3 - Q1 kaldes interkvartilområdet (IQR), som er repræsenteret af rektanglet, hvor den gule linje er medianen;

  • De sorte linjer uden for rektanglet kaldes whiskers. Den venstre repræsenterer Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, og den højre repræsenterer Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Datapunkterne uden for whiskers kaldes outliers.

Næste trin er at generere et boksplot ved hjælp af matplotlib-biblioteket:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Box Plot Data

Funktionen boxplot() fra modulet pyplot anvendes med den første og eneste påkrævede parameter x, som repræsenterer dataene. Disse data kan være et array-lignende objekt (f.eks. en Series), et 2D-array (et box plot tegnes for hver kolonne), eller en sekvens af 1D-arrays (et box plot tegnes for hvert array).

Valgfrie parametre

Parameteren tick_labels er en undtagelse. Denne er især nyttig ikke kun til at navngive et enkelt box plot, men også til at navngive box plots, når der er mere end ét array:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

I dette eksempel blev hele DataFrame med to kolonner givet til boxplot(), hvilket resulterede i separate boksplot for hver kolonne med passende etiketter automatisk tildelt.

Note
Læs Mere

Der findes også en del valgfrie parametre til at tilpasse boksplottet, som du kan udforske i boxplot() dokumentationen, men i praksis vil du sjældent bruge dem.

Opgave

Swipe to start coding

Opret to boksplot ved hjælp af to stikprøver fra standard normalfordelingen:

  1. Brug den korrekte funktion til at oprette boksplottene.
  2. Brug listen normal_sample_1 og normal_sample_2 (i denne rækkefølge fra venstre mod højre) som data.
  3. Mærk det venstre boksplot som First sample og det højre som Second sample ved hjælp af list.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 2

Spørg AI

expand
ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

book
Boksplot

Note
Definition

Box plot er en anden yderst almindelig graf i statistik, der bruges til at visualisere den centrale tendens, spredning og potentielle outliers i dataene via deres kvartiler.

Kvartiler

Kvartiler opdeler datapunkterne (sorteret i stigende rækkefølge) i fire lige store dele. Der er tre af dem:

  • Første kvartil (Q1) er tallet midt imellem den mindste værdi (tal) i stikprøven og medianen (25% af dataene ligger i dette interval);

  • Anden kvartil (Q2) er selve medianen (50% af dataene ligger under medianen);

  • Tredje kvartil (Q3) er tallet midt imellem medianen af stikprøven og de højeste værdier i stikprøven (75% af dataene ligger under Q3).

Elementer i boksplot

  • Højre side af den røde rektangel repræsenterer tredje kvartil, og venstre side repræsenterer første kvartil;

  • Q3 - Q1 kaldes interkvartilområdet (IQR), som er repræsenteret af rektanglet, hvor den gule linje er medianen;

  • De sorte linjer uden for rektanglet kaldes whiskers. Den venstre repræsenterer Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, og den højre repræsenterer Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Datapunkterne uden for whiskers kaldes outliers.

Næste trin er at generere et boksplot ved hjælp af matplotlib-biblioteket:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Box Plot Data

Funktionen boxplot() fra modulet pyplot anvendes med den første og eneste påkrævede parameter x, som repræsenterer dataene. Disse data kan være et array-lignende objekt (f.eks. en Series), et 2D-array (et box plot tegnes for hver kolonne), eller en sekvens af 1D-arrays (et box plot tegnes for hvert array).

Valgfrie parametre

Parameteren tick_labels er en undtagelse. Denne er især nyttig ikke kun til at navngive et enkelt box plot, men også til at navngive box plots, når der er mere end ét array:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

I dette eksempel blev hele DataFrame med to kolonner givet til boxplot(), hvilket resulterede i separate boksplot for hver kolonne med passende etiketter automatisk tildelt.

Note
Læs Mere

Der findes også en del valgfrie parametre til at tilpasse boksplottet, som du kan udforske i boxplot() dokumentationen, men i praksis vil du sjældent bruge dem.

Opgave

Swipe to start coding

Opret to boksplot ved hjælp af to stikprøver fra standard normalfordelingen:

  1. Brug den korrekte funktion til at oprette boksplottene.
  2. Brug listen normal_sample_1 og normal_sample_2 (i denne rækkefølge fra venstre mod højre) som data.
  3. Mærk det venstre boksplot som First sample og det højre som Second sample ved hjælp af list.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 2
Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Vi beklager, at noget gik galt. Hvad skete der?
some-alt