Svep för att visa menyn

Efter att ha hanterat saknade värden och kodat kategoriska variabler är datasettet fritt från problem som skulle orsaka fel i modellen. Dock återstår en annan utmaning: olika skalor på variablerna.

Detta problem kommer inte att orsaka fel om du matar in data i nuvarande skick till modellen, men det kan avsevärt försämra vissa ML-modeller.

Tänk på ett exempel där en egenskap är 'age', med värden från 18 till 50, och den andra egenskapen är 'income', med värden från $25,000 till $500,000. Det är tydligt att en skillnad på tio år i ålder är mer betydelsefull än en skillnad på tio dollar i inkomst.

Vissa modeller, såsom k-NN (som vi kommer att använda i denna kurs), kan dock behandla dessa skillnader som lika viktiga. Därför kommer kolumnen 'income' att ha en mycket större inverkan på modellen. Det är därför viktigt att egenskaper har ungefär samma intervall för att k-NN ska fungera effektivt.

Även om andra modeller kan påverkas mindre av olika skalor, kan skalning av data avsevärt förbättra bearbetningshastigheten. Därför ingår datascalning ofta som ett sista steg i förbehandlingen.

Notering

Som nämnts ovan är datascalning vanligtvis det sista steget i förbehandlingsfasen. Det beror på att förändringar av egenskaper efter skalning kan göra att datan inte längre är skalad.

Nästa kapitel kommer att behandla de tre mest använda transformatorerna för datascalning. Dessa är StandardScaler, MinMaxScaler och MaxAbsScaler.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 9

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal