Haaste: Puuttuvien Arvojen Imputointi
SimpleImputer
-luokka on suunniteltu käsittelemään puuttuvia tietoja korvaamalla ne automaattisesti.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Luokan alustusta voidaan mukauttaa asettamalla sen parametreja:
missing_value
: määrittää puuttuvien arvojen paikkamerkin. Oletuksena tämä onnp.nan
;strategy
: strategia, jolla puuttuvat arvot täytetään. Oletusarvo on'mean'
;fill_value
: määrittää arvon, jolla puuttuvat arvot täytetään, kunstrategy
on'constant'
. Oletuksena tämä onNone
.
Koska kyseessä on muunnin (transformer), sillä on seuraavat metodit:
On myös tarpeen päättää, mitä arvoja käytetään imputointiin.
Yleinen tapa on korvata puuttuvat numeeriset arvot keskiarvolla ja puuttuvat kategoriset arvot moodilla (yleisin arvo), koska tämä vääristää aineiston jakaumaa mahdollisimman vähän.
Valintaa ohjataan strategy
-parametrilla:
strategy='mean'
: imputoi kunkin sarakkeen keskiarvolla;strategy='median'
: imputoi kunkin sarakkeen mediaanilla;strategy='most_frequent'
: imputoi kunkin sarakkeen moodilla;strategy='constant'
: imputoi vakiolla, joka määritetäänfill_value
-parametrissa.
missing_values
-parametri määrittää, mitkä arvot tulkitaan puuttuviksi. Oletuksena tämä on NaN
, mutta joissakin aineistoissa se voi olla tyhjä merkkijono ''
tai muu paikkamerkki.
SimpleImputer
ja monet muut muuntimet toimivat vain DataFramejen kanssa, eivät pandas Series -olioiden kanssa. Yhden sarakkeen valitseminen DataFramesta df['column']
palauttaa Series-olion. Tämän välttämiseksi voit käyttää kaksois-sulkuja df[['column']]
, jolloin palautetaan DataFrame:
imputer.fit_transform(df[['column']])
Kun .fit_transform()
-luokan SimpleImputer
-metodia käytetään, se palauttaa 2D-taulukon. Yhden sarakkeen arvojen asettaminen pandas DataFrameen vaatii 1D-taulukon (tai Seriesin).
df['column'] = ... # Requires 1D array or Series
imputer.fit_transform(df[['column']]) # Produces 2D array
.ravel()
-metodia voidaan käyttää taulukon litistämiseen 1D-muotoon ennen sijoitusta:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Tämä varmistaa, että imputoidut arvot ovat oikeassa muodossa ja tallennetaan DataFrame-sarakkeeseen.
Swipe to start coding
Täydennä puuttuvat arvot 'sex'
-sarakkeessa käyttäen SimpleImputer
-luokkaa. Koska kyseessä on kategorinen sarake, korvaa NaN
-arvot yleisimmällä arvolla.
- Tuo
SimpleImputer
-luokka. - Luo
SimpleImputer
-olio halutullastrategy
-parametrilla. - Täydennä
'sex'
-sarakkeen puuttuvat arvot käyttäenimputer
-oliota.
Ratkaisu
Hienoa! Käsittelimme puuttuvien arvojen ongelman aineistossamme. Poistimme rivit, joissa oli useampi kuin yksi puuttuva arvo, ja imputoimme 'sex'
-sarakkeen yleisimmällä arvolla – MALE
.
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Haaste: Puuttuvien Arvojen Imputointi
Pyyhkäise näyttääksesi valikon
SimpleImputer
-luokka on suunniteltu käsittelemään puuttuvia tietoja korvaamalla ne automaattisesti.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Luokan alustusta voidaan mukauttaa asettamalla sen parametreja:
missing_value
: määrittää puuttuvien arvojen paikkamerkin. Oletuksena tämä onnp.nan
;strategy
: strategia, jolla puuttuvat arvot täytetään. Oletusarvo on'mean'
;fill_value
: määrittää arvon, jolla puuttuvat arvot täytetään, kunstrategy
on'constant'
. Oletuksena tämä onNone
.
Koska kyseessä on muunnin (transformer), sillä on seuraavat metodit:
On myös tarpeen päättää, mitä arvoja käytetään imputointiin.
Yleinen tapa on korvata puuttuvat numeeriset arvot keskiarvolla ja puuttuvat kategoriset arvot moodilla (yleisin arvo), koska tämä vääristää aineiston jakaumaa mahdollisimman vähän.
Valintaa ohjataan strategy
-parametrilla:
strategy='mean'
: imputoi kunkin sarakkeen keskiarvolla;strategy='median'
: imputoi kunkin sarakkeen mediaanilla;strategy='most_frequent'
: imputoi kunkin sarakkeen moodilla;strategy='constant'
: imputoi vakiolla, joka määritetäänfill_value
-parametrissa.
missing_values
-parametri määrittää, mitkä arvot tulkitaan puuttuviksi. Oletuksena tämä on NaN
, mutta joissakin aineistoissa se voi olla tyhjä merkkijono ''
tai muu paikkamerkki.
SimpleImputer
ja monet muut muuntimet toimivat vain DataFramejen kanssa, eivät pandas Series -olioiden kanssa. Yhden sarakkeen valitseminen DataFramesta df['column']
palauttaa Series-olion. Tämän välttämiseksi voit käyttää kaksois-sulkuja df[['column']]
, jolloin palautetaan DataFrame:
imputer.fit_transform(df[['column']])
Kun .fit_transform()
-luokan SimpleImputer
-metodia käytetään, se palauttaa 2D-taulukon. Yhden sarakkeen arvojen asettaminen pandas DataFrameen vaatii 1D-taulukon (tai Seriesin).
df['column'] = ... # Requires 1D array or Series
imputer.fit_transform(df[['column']]) # Produces 2D array
.ravel()
-metodia voidaan käyttää taulukon litistämiseen 1D-muotoon ennen sijoitusta:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Tämä varmistaa, että imputoidut arvot ovat oikeassa muodossa ja tallennetaan DataFrame-sarakkeeseen.
Swipe to start coding
Täydennä puuttuvat arvot 'sex'
-sarakkeessa käyttäen SimpleImputer
-luokkaa. Koska kyseessä on kategorinen sarake, korvaa NaN
-arvot yleisimmällä arvolla.
- Tuo
SimpleImputer
-luokka. - Luo
SimpleImputer
-olio halutullastrategy
-parametrilla. - Täydennä
'sex'
-sarakkeen puuttuvat arvot käyttäenimputer
-oliota.
Ratkaisu
Hienoa! Käsittelimme puuttuvien arvojen ongelman aineistossamme. Poistimme rivit, joissa oli useampi kuin yksi puuttuva arvo, ja imputoimme 'sex'
-sarakkeen yleisimmällä arvolla – MALE
.
Kiitos palautteestasi!
single