Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Varför Skala Data? | Förbehandling av Data med Scikit-learn
ML-introduktion Med Scikit-learn

bookVarför Skala Data?

Efter att ha hanterat saknade värden och kodat kategoriska variabler är datasettet fritt från problem som skulle orsaka fel i modellen. Dock återstår en annan utmaning: olika skalor på variablerna.

Detta problem kommer inte att orsaka fel om du matar in data i dess nuvarande skick till modellen, men det kan avsevärt försämra vissa ML-modeller.

Tänk på ett exempel där en variabel är 'age', med värden från 18 till 50, och en annan variabel är 'income', med värden från $25,000 till $500,000. Det är tydligt att en skillnad på tio år i ålder är mer betydelsefull än en skillnad på tio dollar i inkomst.

Vissa modeller, såsom k-NN (som vi kommer att använda i denna kurs), kan dock behandla dessa skillnader som lika viktiga. Därför kommer kolumnen 'income' att ha mycket större påverkan på modellen. Det är därför avgörande att variablerna har ungefär samma intervall för att k-NN ska fungera effektivt.

Även om andra modeller kan påverkas mindre av olika skalor, kan skalning av data avsevärt förbättra bearbetningshastigheten. Därför ingår dataskalning ofta som ett sista steg i förbehandlingen.

Note
Notering

Som nämnts ovan är skalning av data vanligtvis det sista steget i förbehandlingsfasen. Detta beror på att förändringar av funktioner som görs efter skalning kan göra att datan inte längre är skalad.

Nästa kapitel kommer att behandla de tre mest använda transformatorerna för datasaklning. Dessa är StandardScaler, MinMaxScaler och MaxAbsScaler.

question mark

Varför är det viktigt att skala funktioner i maskininlärningsmodeller som k-närmaste grannar (KNN)?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 9

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.13

bookVarför Skala Data?

Svep för att visa menyn

Efter att ha hanterat saknade värden och kodat kategoriska variabler är datasettet fritt från problem som skulle orsaka fel i modellen. Dock återstår en annan utmaning: olika skalor på variablerna.

Detta problem kommer inte att orsaka fel om du matar in data i dess nuvarande skick till modellen, men det kan avsevärt försämra vissa ML-modeller.

Tänk på ett exempel där en variabel är 'age', med värden från 18 till 50, och en annan variabel är 'income', med värden från $25,000 till $500,000. Det är tydligt att en skillnad på tio år i ålder är mer betydelsefull än en skillnad på tio dollar i inkomst.

Vissa modeller, såsom k-NN (som vi kommer att använda i denna kurs), kan dock behandla dessa skillnader som lika viktiga. Därför kommer kolumnen 'income' att ha mycket större påverkan på modellen. Det är därför avgörande att variablerna har ungefär samma intervall för att k-NN ska fungera effektivt.

Även om andra modeller kan påverkas mindre av olika skalor, kan skalning av data avsevärt förbättra bearbetningshastigheten. Därför ingår dataskalning ofta som ett sista steg i förbehandlingen.

Note
Notering

Som nämnts ovan är skalning av data vanligtvis det sista steget i förbehandlingsfasen. Detta beror på att förändringar av funktioner som görs efter skalning kan göra att datan inte längre är skalad.

Nästa kapitel kommer att behandla de tre mest använda transformatorerna för datasaklning. Dessa är StandardScaler, MinMaxScaler och MaxAbsScaler.

question mark

Varför är det viktigt att skala funktioner i maskininlärningsmodeller som k-närmaste grannar (KNN)?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 9
some-alt