Oppiskele Puuttuvien Arvojen Käsittely | Datan Esikäsittely Scikit-learnilla

Pyyhkäise näyttääksesi valikon

Vain rajallinen määrä koneoppimismalleja pystyy käsittelemään puuttuvia arvoja, joten aineisto on tarkistettava, jotta varmistetaan, ettei aukkoja jää. Jos puuttuvia arvoja löytyy, ne voidaan käsitellä kahdella tavalla:

Poistamalla rivit, jotka sisältävät puuttuvia arvoja;
Täyttämällä tyhjät solut korvaavilla arvoilla, prosessi tunnetaan nimellä imputointi.

Puuttuvien arvojen tunnistaminen

Yleistä tietoa aineistosta ja puuttuvien arvojen tarkistamista varten voidaan käyttää DataFrame-olion .info()-metodia.


              12345
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.info())

Aineistossa on 344 havaintoa, mutta sarakkeissa 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex' on vähemmän kuin 344 ei-tyhjää arvoa, mikä osoittaa puuttuvien tietojen olemassaolon.

Huomio

Null on toinen nimitys puuttuville arvoille.

Puuttuvien arvojen määrän tunnistamiseksi kussakin sarakkeessa käytetään .isna()-metodia ja sen jälkeen .sum()-metodia.


              12345
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.isna().sum())

Rivit, jotka sisältävät puuttuvia arvoja, voidaan näyttää seuraavasti: df[df.isna().any(axis=1)]


              12345
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df[df.isna().any(axis=1)])

Rivien poistaminen

Ensimmäinen ja viimeinen rivi sisältävät vain targetin ('species') ja 'island'-arvot, tarjoten liian vähän tietoa ollakseen hyödyllisiä. Nämä rivit voidaan poistaa pitämällä vain ne rivit, joissa on alle kaksi NaN-arvoa, ja tallentamalla ne uudelleen muuttujaan df.


              123456
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

df = df[df.isna().sum(axis=1) < 2]
print(df.head(8))

Sen sijaan jäljelle jäävissä riveissä on hyödyllistä tietoa, ja NaN-arvoja esiintyy vain 'sex'-sarakkeessa. Näiden rivien poistamisen sijaan puuttuvat arvot voidaan imputoida. Yleinen tapa on käyttää SimpleImputer-muunninta, jota käsitellään seuraavassa luvussa.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 3

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 2. Luku 3