Perché Scalare i Dati?
Dopo aver gestito i valori mancanti e codificato le caratteristiche categoriche, il dataset è privo di problemi che potrebbero causare errori nel modello. Tuttavia, rimane un'altra sfida: scale diverse delle caratteristiche.
Questo problema non causerà errori se si forniscono i dati nello stato attuale al modello, ma può peggiorare sostanzialmente alcuni modelli di ML.
Si consideri un esempio in cui una caratteristica è 'age'
, con valori compresi tra 18 e 50, e la seconda caratteristica è 'income'
, con valori compresi tra $25,000 e $500,000. È evidente che una differenza di dieci anni nell'età è più significativa di una differenza di dieci dollari nel reddito.
Tuttavia, alcuni modelli, come k-NN (che utilizzeremo in questo corso), possono trattare queste differenze come ugualmente importanti. Di conseguenza, la colonna 'income'
avrà un impatto molto più significativo sul modello. Pertanto, è fondamentale che le caratteristiche abbiano all'incirca lo stesso intervallo affinché k-NN funzioni in modo efficace.
Sebbene altri modelli possano essere meno influenzati da scale diverse, la normalizzazione dei dati può aumentare significativamente la velocità di elaborazione. Per questo motivo, la normalizzazione dei dati viene comunemente inclusa come fase finale nel preprocessing.
Come menzionato sopra, la scalatura dei dati è solitamente l'ultimo passaggio della fase di pre-elaborazione. Questo perché le modifiche alle feature apportate dopo la scalatura possono rendere nuovamente i dati non scalati.
Il prossimo capitolo tratterà i tre trasformatori più utilizzati per la scalatura dei dati: StandardScaler
, MinMaxScaler
e MaxAbsScaler
.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 3.13
Perché Scalare i Dati?
Scorri per mostrare il menu
Dopo aver gestito i valori mancanti e codificato le caratteristiche categoriche, il dataset è privo di problemi che potrebbero causare errori nel modello. Tuttavia, rimane un'altra sfida: scale diverse delle caratteristiche.
Questo problema non causerà errori se si forniscono i dati nello stato attuale al modello, ma può peggiorare sostanzialmente alcuni modelli di ML.
Si consideri un esempio in cui una caratteristica è 'age'
, con valori compresi tra 18 e 50, e la seconda caratteristica è 'income'
, con valori compresi tra $25,000 e $500,000. È evidente che una differenza di dieci anni nell'età è più significativa di una differenza di dieci dollari nel reddito.
Tuttavia, alcuni modelli, come k-NN (che utilizzeremo in questo corso), possono trattare queste differenze come ugualmente importanti. Di conseguenza, la colonna 'income'
avrà un impatto molto più significativo sul modello. Pertanto, è fondamentale che le caratteristiche abbiano all'incirca lo stesso intervallo affinché k-NN funzioni in modo efficace.
Sebbene altri modelli possano essere meno influenzati da scale diverse, la normalizzazione dei dati può aumentare significativamente la velocità di elaborazione. Per questo motivo, la normalizzazione dei dati viene comunemente inclusa come fase finale nel preprocessing.
Come menzionato sopra, la scalatura dei dati è solitamente l'ultimo passaggio della fase di pre-elaborazione. Questo perché le modifiche alle feature apportate dopo la scalatura possono rendere nuovamente i dati non scalati.
Il prossimo capitolo tratterà i tre trasformatori più utilizzati per la scalatura dei dati: StandardScaler
, MinMaxScaler
e MaxAbsScaler
.
Grazie per i tuoi commenti!