Miksi Tietojen Skaalaus On Tärkeää?
Kun puuttuvat arvot on käsitelty ja kategoriset ominaisuudet on koodattu, tietoaineistossa ei ole enää ongelmia, jotka aiheuttaisivat virheitä mallissa. Kuitenkin yksi haaste on vielä jäljellä: ominaisuuksien eri mittakaavat.
Tämä ongelma ei aiheuta virheitä, jos syötät nykytilan tiedot mallille, mutta se voi huomattavasti heikentää joidenkin koneoppimismallien suorituskykyä.
Tarkastellaan esimerkkiä, jossa yksi ominaisuus on 'age'
, jonka arvot vaihtelevat 18:sta 50:een, ja toinen ominaisuus on 'income'
, jonka arvot vaihtelevat $25,000:sta $500,000:een. On selvää, että kymmenen vuoden ero iässä on merkittävämpi kuin kymmenen dollarin ero tuloissa.
Jotkin mallit, kuten k-NN (jota käytämme tässä kurssissa), saattavat kuitenkin käsitellä näitä eroja yhtä merkittävinä. Tämän seurauksena 'income'
-sarake vaikuttaa malliin huomattavasti enemmän. Siksi on tärkeää, että ominaisuuksilla on suunnilleen sama vaihteluväli, jotta k-NN toimii tehokkaasti.
Vaikka muut mallit eivät välttämättä ole yhtä herkkiä eri mittakaavoille, skaalaaminen voi merkittävästi nopeuttaa käsittelyä. Tämän vuoksi tietojen skaalaus sisällytetään usein esikäsittelyn viimeiseksi vaiheeksi.
Kuten aiemmin mainittiin, datan skaalaus on yleensä viimeinen vaihe esikäsittelyssä. Tämä johtuu siitä, että skaalaamisen jälkeen tehtävät muutokset ominaisuuksiin voivat johtaa siihen, että data ei enää ole skaalattua.
Seuraavassa luvussa käsitellään kolmea yleisimmin käytettyä skaalaustransformeria: StandardScaler
, MinMaxScaler
ja MaxAbsScaler
.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Miksi Tietojen Skaalaus On Tärkeää?
Pyyhkäise näyttääksesi valikon
Kun puuttuvat arvot on käsitelty ja kategoriset ominaisuudet on koodattu, tietoaineistossa ei ole enää ongelmia, jotka aiheuttaisivat virheitä mallissa. Kuitenkin yksi haaste on vielä jäljellä: ominaisuuksien eri mittakaavat.
Tämä ongelma ei aiheuta virheitä, jos syötät nykytilan tiedot mallille, mutta se voi huomattavasti heikentää joidenkin koneoppimismallien suorituskykyä.
Tarkastellaan esimerkkiä, jossa yksi ominaisuus on 'age'
, jonka arvot vaihtelevat 18:sta 50:een, ja toinen ominaisuus on 'income'
, jonka arvot vaihtelevat $25,000:sta $500,000:een. On selvää, että kymmenen vuoden ero iässä on merkittävämpi kuin kymmenen dollarin ero tuloissa.
Jotkin mallit, kuten k-NN (jota käytämme tässä kurssissa), saattavat kuitenkin käsitellä näitä eroja yhtä merkittävinä. Tämän seurauksena 'income'
-sarake vaikuttaa malliin huomattavasti enemmän. Siksi on tärkeää, että ominaisuuksilla on suunnilleen sama vaihteluväli, jotta k-NN toimii tehokkaasti.
Vaikka muut mallit eivät välttämättä ole yhtä herkkiä eri mittakaavoille, skaalaaminen voi merkittävästi nopeuttaa käsittelyä. Tämän vuoksi tietojen skaalaus sisällytetään usein esikäsittelyn viimeiseksi vaiheeksi.
Kuten aiemmin mainittiin, datan skaalaus on yleensä viimeinen vaihe esikäsittelyssä. Tämä johtuu siitä, että skaalaamisen jälkeen tehtävät muutokset ominaisuuksiin voivat johtaa siihen, että data ei enää ole skaalattua.
Seuraavassa luvussa käsitellään kolmea yleisimmin käytettyä skaalaustransformeria: StandardScaler
, MinMaxScaler
ja MaxAbsScaler
.
Kiitos palautteestasi!