Impara Perché scalare i dati? | Preprocessing Dei Dati con Scikit-Learn

Scorri per mostrare il menu

Dopo aver gestito i valori mancanti e codificato le caratteristiche categoriche, il dataset è privo di problemi che potrebbero causare errori nel modello. Tuttavia, rimane un'altra sfida: scale diverse delle caratteristiche.

Questo problema non causerà errori se si forniscono i dati nello stato attuale al modello, ma può peggiorare sostanzialmente alcuni modelli di ML.

Considera un esempio in cui una caratteristica è 'age', con valori compresi tra 18 e 50, e la seconda caratteristica è 'income', con valori compresi tra $25,000 e $500,000. È evidente che una differenza di dieci anni nell'età è più significativa rispetto a una differenza di dieci dollari nel reddito.

Tuttavia, alcuni modelli, come k-NN (che utilizzeremo in questo corso), possono trattare queste differenze come ugualmente importanti. Di conseguenza, la colonna 'income' avrà un impatto molto più significativo sul modello. Pertanto, è fondamentale che le caratteristiche abbiano all'incirca lo stesso intervallo affinché k-NN funzioni in modo efficace.

Anche se altri modelli possono essere meno influenzati da scale diverse, la normalizzazione dei dati può aumentare notevolmente la velocità di elaborazione. Per questo motivo, la normalizzazione dei dati è comunemente inclusa come fase finale del preprocessing.

Nota

Come menzionato sopra, la normalizzazione dei dati è solitamente l'ultimo passaggio della fase di preprocessing. Questo perché eventuali modifiche alle caratteristiche effettuate dopo la normalizzazione possono rendere i dati nuovamente non normalizzati.

Il prossimo capitolo tratterà i tre trasformatori più utilizzati per la normalizzazione dei dati: StandardScaler, MinMaxScaler e MaxAbsScaler.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 9

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 2. Capitolo 9