Varför Skala Data?
Efter att ha hanterat saknade värden och kodat kategoriska variabler är datasettet fritt från problem som skulle orsaka fel i modellen. Dock återstår en annan utmaning: olika skalor på variablerna.
Detta problem kommer inte att orsaka fel om du matar in data i dess nuvarande skick till modellen, men det kan avsevärt försämra vissa ML-modeller.
Tänk på ett exempel där en variabel är 'age'
, med värden från 18 till 50, och en annan variabel är 'income'
, med värden från $25,000 till $500,000. Det är tydligt att en skillnad på tio år i ålder är mer betydelsefull än en skillnad på tio dollar i inkomst.
Vissa modeller, såsom k-NN (som vi kommer att använda i denna kurs), kan dock behandla dessa skillnader som lika viktiga. Därför kommer kolumnen 'income'
att ha mycket större påverkan på modellen. Det är därför avgörande att variablerna har ungefär samma intervall för att k-NN ska fungera effektivt.
Även om andra modeller kan påverkas mindre av olika skalor, kan skalning av data avsevärt förbättra bearbetningshastigheten. Därför ingår dataskalning ofta som ett sista steg i förbehandlingen.
Som nämnts ovan är skalning av data vanligtvis det sista steget i förbehandlingsfasen. Detta beror på att förändringar av funktioner som görs efter skalning kan göra att datan inte längre är skalad.
Nästa kapitel kommer att behandla de tre mest använda transformatorerna för datasaklning. Dessa är StandardScaler
, MinMaxScaler
och MaxAbsScaler
.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 3.13
Varför Skala Data?
Svep för att visa menyn
Efter att ha hanterat saknade värden och kodat kategoriska variabler är datasettet fritt från problem som skulle orsaka fel i modellen. Dock återstår en annan utmaning: olika skalor på variablerna.
Detta problem kommer inte att orsaka fel om du matar in data i dess nuvarande skick till modellen, men det kan avsevärt försämra vissa ML-modeller.
Tänk på ett exempel där en variabel är 'age'
, med värden från 18 till 50, och en annan variabel är 'income'
, med värden från $25,000 till $500,000. Det är tydligt att en skillnad på tio år i ålder är mer betydelsefull än en skillnad på tio dollar i inkomst.
Vissa modeller, såsom k-NN (som vi kommer att använda i denna kurs), kan dock behandla dessa skillnader som lika viktiga. Därför kommer kolumnen 'income'
att ha mycket större påverkan på modellen. Det är därför avgörande att variablerna har ungefär samma intervall för att k-NN ska fungera effektivt.
Även om andra modeller kan påverkas mindre av olika skalor, kan skalning av data avsevärt förbättra bearbetningshastigheten. Därför ingår dataskalning ofta som ett sista steg i förbehandlingen.
Som nämnts ovan är skalning av data vanligtvis det sista steget i förbehandlingsfasen. Detta beror på att förändringar av funktioner som görs efter skalning kan göra att datan inte längre är skalad.
Nästa kapitel kommer att behandla de tre mest använda transformatorerna för datasaklning. Dessa är StandardScaler
, MinMaxScaler
och MaxAbsScaler
.
Tack för dina kommentarer!