Laatikkojanakaavio
Box plot on toinen erittäin yleinen tilastollinen kuvaaja, jota käytetään havainnollistamaan aineiston keskilukua, hajontaa ja mahdollisia poikkeavia arvoja kvartiilien avulla.
Kvartiilit
Kvartiilit jakavat järjestetyn aineiston neljään yhtä suureen osaan. Niitä on kolme:
Ensimmäinen kvartiili (Q1) on pienimmän arvon ja mediaanin välinen keskimmäinen luku (25 % havainnoista on tässä osassa);
Toinen kvartiili (Q2) on mediaani itse (50 % havainnoista on mediaanin alapuolella);
Kolmas kvartiili (Q3) on mediaanin ja suurimman arvon välinen keskimmäinen luku (75 % havainnoista on Q3:n alapuolella).
Boxplotin osat
Punaisen suorakulmion oikea reuna kuvaa kolmatta kvartiilia ja vasen reuna kuvaa ensimmäistä kvartiilia;
Q3 - Q1 on nimeltään kvartiiliväli (IQR), joka esitetään suorakulmiona, jossa keltainen viiva on mediaani;
Suorakulmion ulkopuolella olevat mustat viivat ovat viikset. Vasen viiksi kuvaa ja oikea viiksi kuvaa ;
Viiksien ulkopuolella olevia havaintoja kutsutaan poikkeaviksi arvoiksi.
Seuraavaksi luodaan boxplot käyttämällä matplotlib
-kirjastoa:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Box-plotin data
boxplot()
-moduulin pyplot
-funktiota käytetään, ja sen ensimmäinen ja ainoa pakollinen parametri x
edustaa dataa. Tämä data voi olla taulukkomuotoinen objekti (esim. Series
), kaksiulotteinen taulukko (jokaiselle sarakkeelle piirretään oma box-plot) tai joukko yksiulotteisia taulukoita (jokaiselle taulukolle piirretään oma box-plot).
Valinnaiset parametrit
tick_labels
-parametri on poikkeus. Tämä parametri on erityisen hyödyllinen, ei ainoastaan yksittäisen box-plotin nimeämiseen, vaan myös silloin, kun box-plotteja on useampi kuin yksi taulukko:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Tässä esimerkissä koko DataFrame
, jossa on kaksi saraketta, välitettiin boxplot()
-funktiolle, mikä johti erillisiin laatikkokaavioihin kummallekin sarakkeelle, ja sopivat nimilaput asetettiin automaattisesti.
Laatikkokaavion mukauttamiseen on myös melko paljon valinnaisia parametreja, joihin voit tutustua boxplot()
-dokumentaatiossa, mutta käytännössä saatat harvoin tarvita niitä.
Swipe to start coding
Luo kaksi laatikkokaaviota käyttäen kahta otosta normaalijakaumasta:
- Käytä oikeaa funktiota laatikkokaavioiden luomiseen.
- Käytä listaa
normal_sample_1
janormal_sample_2
(tässä järjestyksessä vasemmalta oikealle) datana. - Nimeä vasemmanpuoleinen laatikkokaavio
First sample
ja oikeanpuoleinenSecond sample
käyttäenlist
-parametria.
Ratkaisu
Kiitos palautteestasi!