Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvorfor Skalere Data? | Forbehandling av Data med Scikit-learn
ML-Introduksjon med Scikit-learn

bookHvorfor Skalere Data?

Etter å ha håndtert manglende verdier og kodet kategoriske variabler, er datasettet fritt for problemer som kan forårsake feil i modellen. Likevel gjenstår en utfordring: forskjellige skalaer på variablene.

Dette problemet vil ikke føre til feil hvis du mater dataene i nåværende tilstand inn i modellen, men det kan vesentlig forverre enkelte ML-modeller.

Tenk deg et eksempel der én variabel er 'age', med verdier fra 18 til 50, og en annen variabel er 'income', med verdier fra $25,000 til $500,000. Det er åpenbart at en forskjell på ti år i alder er mer betydningsfull enn en forskjell på ti dollar i inntekt.

Noen modeller, som k-NN (som vi skal bruke i dette kurset), kan imidlertid behandle disse forskjellene som like viktige. Dermed vil 'income'-kolonnen få mye større innvirkning på modellen. Derfor er det avgjørende at variablene har omtrent samme verdiområde for at k-NN skal fungere effektivt.

Selv om andre modeller kan være mindre påvirket av ulike skalaer, kan skalering av data betydelig øke prosesseringshastigheten. Derfor er datascaling ofte inkludert som et siste steg i forhåndsbehandlingen.

Note
Merk

Som nevnt ovenfor, er datascaling vanligvis det siste steget i forhåndsbehandlingsfasen. Dette er fordi endringer i funksjoner som gjøres etter skalering kan gjøre at dataene ikke lenger er skalert.

Neste kapittel vil ta for seg de tre mest brukte transformatorene for datascaling. Disse er StandardScaler, MinMaxScaler og MaxAbsScaler.

question mark

Hvorfor er det viktig å skalere funksjoner i maskinlæringsmodeller som k-nærmeste naboer (KNN)?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 9

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?

Why does k-NN require features to be on the same scale?

Can you explain how scaling improves processing speed in machine learning models?

Awesome!

Completion rate improved to 3.13

bookHvorfor Skalere Data?

Sveip for å vise menyen

Etter å ha håndtert manglende verdier og kodet kategoriske variabler, er datasettet fritt for problemer som kan forårsake feil i modellen. Likevel gjenstår en utfordring: forskjellige skalaer på variablene.

Dette problemet vil ikke føre til feil hvis du mater dataene i nåværende tilstand inn i modellen, men det kan vesentlig forverre enkelte ML-modeller.

Tenk deg et eksempel der én variabel er 'age', med verdier fra 18 til 50, og en annen variabel er 'income', med verdier fra $25,000 til $500,000. Det er åpenbart at en forskjell på ti år i alder er mer betydningsfull enn en forskjell på ti dollar i inntekt.

Noen modeller, som k-NN (som vi skal bruke i dette kurset), kan imidlertid behandle disse forskjellene som like viktige. Dermed vil 'income'-kolonnen få mye større innvirkning på modellen. Derfor er det avgjørende at variablene har omtrent samme verdiområde for at k-NN skal fungere effektivt.

Selv om andre modeller kan være mindre påvirket av ulike skalaer, kan skalering av data betydelig øke prosesseringshastigheten. Derfor er datascaling ofte inkludert som et siste steg i forhåndsbehandlingen.

Note
Merk

Som nevnt ovenfor, er datascaling vanligvis det siste steget i forhåndsbehandlingsfasen. Dette er fordi endringer i funksjoner som gjøres etter skalering kan gjøre at dataene ikke lenger er skalert.

Neste kapittel vil ta for seg de tre mest brukte transformatorene for datascaling. Disse er StandardScaler, MinMaxScaler og MaxAbsScaler.

question mark

Hvorfor er det viktig å skalere funksjoner i maskinlæringsmodeller som k-nærmeste naboer (KNN)?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 9
some-alt