Waarom de Data Schalen?
Na het behandelen van ontbrekende waarden en het coderen van categorische kenmerken, is de dataset vrij van problemen die fouten in het model zouden veroorzaken. Er blijft echter een andere uitdaging over: verschillende schalen van kenmerken.
Dit probleem veroorzaakt geen fouten wanneer je de huidige data aan het model aanbiedt, maar het kan de prestaties van sommige ML-modellen aanzienlijk verslechteren.
Beschouw een voorbeeld waarbij één kenmerk 'age'
is, variërend van 18 tot 50, en het tweede kenmerk 'income'
, variërend van $25,000 tot $500,000. Het is duidelijk dat een verschil van tien jaar in leeftijd belangrijker is dan een verschil van tien dollar in inkomen.
Sommige modellen, zoals k-NN (die we in deze cursus zullen gebruiken), kunnen deze verschillen echter als even belangrijk beschouwen. Hierdoor zal de kolom 'income'
een veel grotere invloed op het model hebben. Het is daarom essentieel dat kenmerken ongeveer hetzelfde bereik hebben voor een effectieve werking van k-NN.
Hoewel andere modellen mogelijk minder gevoelig zijn voor verschillende schalen, kan het schalen van data de verwerkingssnelheid aanzienlijk verhogen. Daarom wordt dataschaling vaak als laatste stap in de preprocessing opgenomen.
Zoals hierboven vermeld, is het schalen van data meestal de laatste stap van de preprocessingsfase. Dit komt doordat aanpassingen aan kenmerken die na het schalen worden gedaan, de data weer ongeschaald kunnen maken.
Het volgende hoofdstuk behandelt de drie meest gebruikte transformators voor het schalen van data. Dit zijn StandardScaler
, MinMaxScaler
en MaxAbsScaler
.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Waarom de Data Schalen?
Veeg om het menu te tonen
Na het behandelen van ontbrekende waarden en het coderen van categorische kenmerken, is de dataset vrij van problemen die fouten in het model zouden veroorzaken. Er blijft echter een andere uitdaging over: verschillende schalen van kenmerken.
Dit probleem veroorzaakt geen fouten wanneer je de huidige data aan het model aanbiedt, maar het kan de prestaties van sommige ML-modellen aanzienlijk verslechteren.
Beschouw een voorbeeld waarbij één kenmerk 'age'
is, variërend van 18 tot 50, en het tweede kenmerk 'income'
, variërend van $25,000 tot $500,000. Het is duidelijk dat een verschil van tien jaar in leeftijd belangrijker is dan een verschil van tien dollar in inkomen.
Sommige modellen, zoals k-NN (die we in deze cursus zullen gebruiken), kunnen deze verschillen echter als even belangrijk beschouwen. Hierdoor zal de kolom 'income'
een veel grotere invloed op het model hebben. Het is daarom essentieel dat kenmerken ongeveer hetzelfde bereik hebben voor een effectieve werking van k-NN.
Hoewel andere modellen mogelijk minder gevoelig zijn voor verschillende schalen, kan het schalen van data de verwerkingssnelheid aanzienlijk verhogen. Daarom wordt dataschaling vaak als laatste stap in de preprocessing opgenomen.
Zoals hierboven vermeld, is het schalen van data meestal de laatste stap van de preprocessingsfase. Dit komt doordat aanpassingen aan kenmerken die na het schalen worden gedaan, de data weer ongeschaald kunnen maken.
Het volgende hoofdstuk behandelt de drie meest gebruikte transformators voor het schalen van data. Dit zijn StandardScaler
, MinMaxScaler
en MaxAbsScaler
.
Bedankt voor je feedback!