Pariplotti
Pair plot eli pariplotti kuvaa numeeristen muuttujien välisiä pariutuvia suhteita aineistossa. Se muistuttaa joint plot -kuvaajaa, mutta ei rajoitu vain kahteen muuttujaan. Pariplotti muodostaa itse asiassa NxN
-ruudukon Axes
-olioita (useita alikuvia), missä N
on numeeristen muuttujien määrä (DataFrame
-taulukon numeeriset sarakkeet).
Pariplotin kuvaus
Pariplotissa jokainen sarake jakaa saman x-akselin muuttujan ja jokainen rivi saman y-akselin muuttujan. Diagonaalilla esitetään yksittäisten muuttujien histogrammit, kun taas muut kuviot näyttävät hajontakuvioita.
Pariplotin luominen
Pariplotin luominen seaborn
-kirjastolla tapahtuu kutsumalla sen pairplot()
-funktiota. Tärkein ja ainoa pakollinen parametri on data
, jonka tulee olla DataFrame
-olio.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
DataFrame iris_df
välitetään pairplot()
-funktiolle. Parametrit height
ja aspect
määrittävät korkeuden ja leveyden (lasketaan korkeus kerrottuna aspect-arvolla) jokaiselle facetille tuumina.
Hue
Toinen huomionarvoinen parametri on hue
, joka määrittää muuttujan (sarakkeen nimen) data
:ssa, jonka perusteella piirrosaspekteja voidaan yhdistää eri väreihin tai jopa luoda erilliset kuviot (yhdelle Axes
:lle) jokaiselle sen arvolle.
import seaborn as sns import matplotlib.pyplot as plt # Ignoring warnings import warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
Tässä ero näkyy selvästi. Jokaisen hajontakuvion datapisteet on väritetty niiden lajin mukaan käyttäen species-sarakkeen arvoja. Diagonaaliset kuviot ovat nyt KDE-kuvioita jokaiselle lajille histogrammien sijaan.
Luokitteluongelmissa on usein järkevää luoda pair plot, jossa hue
-parametri asetetaan kohdemuuttujaksi, eli kategoriselle muuttujalle, jota halutaan ennustaa.
Ero on selkeä. Jokaisen hajontakuvion datapisteet on väritetty niiden lajin mukaan, perustuen species-sarakkeen arvoihin. Diagonaaliset kuviot on korvattu KDE-kuvioilla jokaiselle lajille histogrammien sijaan.
Luokittelutehtävissä pair plotin luominen siten, että hue
-parametri asetetaan kohdemuuttujaksi — kategorinen muuttuja, jota ennustetaan — on usein hyödyllistä.
Kuvion tyypin muuttaminen
Voit muuttaa käytettyjen kuvioiden tyyppiä oletusarvoisten hajontakuvioiden sijaan sekä diagonaalilla näytettäviä kuvioita. kind
-parametri ohjaa pääkuvioita ja oletuksena käyttää hajontakuvioita, kun taas diag_kind
-parametri ohjaa diagonaalilla olevia kuvioita ja valitaan automaattisesti sen mukaan, onko hue
-parametri asetettu.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
'scatter'
, 'kde'
, 'hist'
, 'reg'
ovat mahdollisia arvoja kind
-parametrille.
diag_kind
voidaan asettaa johonkin seuraavista arvoista:
'auto'
;'hist'
;'kde'
;None
.
Kaikki on tältä osin samanlaista kuin jointplot()
-funktiossa.
Tutustu lisää pairplot()
dokumentaatioon.
Swipe to start coding
- Käytä oikeaa funktiota pariplotin luomiseen.
- Aseta piirrettävän datan arvoksi
penguins_df
ensimmäisenä argumenttina. - Aseta sarake
'sex'
määrittämään, miten eri värit liitetään kuvaajan eri osiin toisen argumentin avulla. - Aseta ei-diagonaalisille kuvaajille regressiosuora (
'reg'
) määrittämällä kolmas argumentti. - Aseta
height
arvoksi2
. - Aseta
aspect
arvoksi0.8
.
Ratkaisu
Kiitos palautteestasi!