Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Laatikkojanakaavio | Lisää Tilastollisia Kuvaajia
Huipputason Visualisointi Pythonilla

Pyyhkäise näyttääksesi valikon

book
Laatikkojanakaavio

Note
Määritelmä

Box plot on toinen erittäin yleinen tilastollinen kuvaaja, jota käytetään havainnollistamaan aineiston keskilukua, hajontaa ja mahdollisia poikkeavia arvoja kvartiilien avulla.

Kvartiilit

Kvartiilit jakavat järjestetyn aineiston neljään yhtä suureen osaan. Niitä on kolme:

  • Ensimmäinen kvartiili (Q1) on pienimmän arvon ja mediaanin välinen keskimmäinen luku (25 % havainnoista on tässä osassa);

  • Toinen kvartiili (Q2) on mediaani itse (50 % havainnoista on mediaanin alapuolella);

  • Kolmas kvartiili (Q3) on mediaanin ja suurimman arvon välinen keskimmäinen luku (75 % havainnoista on Q3:n alapuolella).

Boxplotin osat

  • Punaisen suorakulmion oikea reuna kuvaa kolmatta kvartiilia ja vasen reuna kuvaa ensimmäistä kvartiilia;

  • Q3 - Q1 on nimeltään kvartiiliväli (IQR), joka esitetään suorakulmiona, jossa keltainen viiva on mediaani;

  • Suorakulmion ulkopuolella olevat mustat viivat ovat viikset. Vasen viiksi kuvaa Q11.5IR\text{Q1} - 1.5 \cdot \text{IR} ja oikea viiksi kuvaa Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Viiksien ulkopuolella olevia havaintoja kutsutaan poikkeaviksi arvoiksi.

Seuraavaksi luodaan boxplot käyttämällä matplotlib-kirjastoa:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Box-plotin data

boxplot()-moduulin pyplot-funktiota käytetään, ja sen ensimmäinen ja ainoa pakollinen parametri x edustaa dataa. Tämä data voi olla taulukkomuotoinen objekti (esim. Series), kaksiulotteinen taulukko (jokaiselle sarakkeelle piirretään oma box-plot) tai joukko yksiulotteisia taulukoita (jokaiselle taulukolle piirretään oma box-plot).

Valinnaiset parametrit

tick_labels-parametri on poikkeus. Tämä parametri on erityisen hyödyllinen, ei ainoastaan yksittäisen box-plotin nimeämiseen, vaan myös silloin, kun box-plotteja on useampi kuin yksi taulukko:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Tässä esimerkissä koko DataFrame, jossa on kaksi saraketta, välitettiin boxplot()-funktiolle, mikä johti erillisiin laatikkokaavioihin kummallekin sarakkeelle, ja sopivat nimilaput asetettiin automaattisesti.

Note
Lisätietoa

Laatikkokaavion mukauttamiseen on myös melko paljon valinnaisia parametreja, joihin voit tutustua boxplot()-dokumentaatiossa, mutta käytännössä saatat harvoin tarvita niitä.

Tehtävä

Swipe to start coding

Luo kaksi laatikkokaaviota käyttäen kahta otosta normaalijakaumasta:

  1. Käytä oikeaa funktiota laatikkokaavioiden luomiseen.
  2. Käytä listaa normal_sample_1 ja normal_sample_2 (tässä järjestyksessä vasemmalta oikealle) datana.
  3. Nimeä vasemmanpuoleinen laatikkokaavio First sample ja oikeanpuoleinen Second sample käyttäen list-parametria.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2
Pahoittelemme, että jotain meni pieleen. Mitä tapahtui?

Kysy tekoälyä

expand
ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

book
Laatikkojanakaavio

Note
Määritelmä

Box plot on toinen erittäin yleinen tilastollinen kuvaaja, jota käytetään havainnollistamaan aineiston keskilukua, hajontaa ja mahdollisia poikkeavia arvoja kvartiilien avulla.

Kvartiilit

Kvartiilit jakavat järjestetyn aineiston neljään yhtä suureen osaan. Niitä on kolme:

  • Ensimmäinen kvartiili (Q1) on pienimmän arvon ja mediaanin välinen keskimmäinen luku (25 % havainnoista on tässä osassa);

  • Toinen kvartiili (Q2) on mediaani itse (50 % havainnoista on mediaanin alapuolella);

  • Kolmas kvartiili (Q3) on mediaanin ja suurimman arvon välinen keskimmäinen luku (75 % havainnoista on Q3:n alapuolella).

Boxplotin osat

  • Punaisen suorakulmion oikea reuna kuvaa kolmatta kvartiilia ja vasen reuna kuvaa ensimmäistä kvartiilia;

  • Q3 - Q1 on nimeltään kvartiiliväli (IQR), joka esitetään suorakulmiona, jossa keltainen viiva on mediaani;

  • Suorakulmion ulkopuolella olevat mustat viivat ovat viikset. Vasen viiksi kuvaa Q11.5IR\text{Q1} - 1.5 \cdot \text{IR} ja oikea viiksi kuvaa Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Viiksien ulkopuolella olevia havaintoja kutsutaan poikkeaviksi arvoiksi.

Seuraavaksi luodaan boxplot käyttämällä matplotlib-kirjastoa:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Box-plotin data

boxplot()-moduulin pyplot-funktiota käytetään, ja sen ensimmäinen ja ainoa pakollinen parametri x edustaa dataa. Tämä data voi olla taulukkomuotoinen objekti (esim. Series), kaksiulotteinen taulukko (jokaiselle sarakkeelle piirretään oma box-plot) tai joukko yksiulotteisia taulukoita (jokaiselle taulukolle piirretään oma box-plot).

Valinnaiset parametrit

tick_labels-parametri on poikkeus. Tämä parametri on erityisen hyödyllinen, ei ainoastaan yksittäisen box-plotin nimeämiseen, vaan myös silloin, kun box-plotteja on useampi kuin yksi taulukko:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Tässä esimerkissä koko DataFrame, jossa on kaksi saraketta, välitettiin boxplot()-funktiolle, mikä johti erillisiin laatikkokaavioihin kummallekin sarakkeelle, ja sopivat nimilaput asetettiin automaattisesti.

Note
Lisätietoa

Laatikkokaavion mukauttamiseen on myös melko paljon valinnaisia parametreja, joihin voit tutustua boxplot()-dokumentaatiossa, mutta käytännössä saatat harvoin tarvita niitä.

Tehtävä

Swipe to start coding

Luo kaksi laatikkokaaviota käyttäen kahta otosta normaalijakaumasta:

  1. Käytä oikeaa funktiota laatikkokaavioiden luomiseen.
  2. Käytä listaa normal_sample_1 ja normal_sample_2 (tässä järjestyksessä vasemmalta oikealle) datana.
  3. Nimeä vasemmanpuoleinen laatikkokaavio First sample ja oikeanpuoleinen Second sample käyttäen list-parametria.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2
Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Pahoittelemme, että jotain meni pieleen. Mitä tapahtui?
some-alt