Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Perché Scalare i Dati? | Preprocessing Dei Dati con Scikit-learn
Introduzione al ML con Scikit-Learn

bookPerché Scalare i Dati?

Dopo aver gestito i valori mancanti e codificato le caratteristiche categoriche, il dataset è privo di problemi che potrebbero causare errori nel modello. Tuttavia, rimane un'altra sfida: scale diverse delle caratteristiche.

Questo problema non causerà errori se si forniscono i dati nello stato attuale al modello, ma può peggiorare sostanzialmente alcuni modelli di ML.

Si consideri un esempio in cui una caratteristica è 'age', con valori compresi tra 18 e 50, e la seconda caratteristica è 'income', con valori compresi tra $25,000 e $500,000. È evidente che una differenza di dieci anni nell'età è più significativa di una differenza di dieci dollari nel reddito.

Tuttavia, alcuni modelli, come k-NN (che utilizzeremo in questo corso), possono trattare queste differenze come ugualmente importanti. Di conseguenza, la colonna 'income' avrà un impatto molto più significativo sul modello. Pertanto, è fondamentale che le caratteristiche abbiano all'incirca lo stesso intervallo affinché k-NN funzioni in modo efficace.

Sebbene altri modelli possano essere meno influenzati da scale diverse, la normalizzazione dei dati può aumentare significativamente la velocità di elaborazione. Per questo motivo, la normalizzazione dei dati viene comunemente inclusa come fase finale nel preprocessing.

Note
Nota

Come menzionato sopra, la scalatura dei dati è solitamente l'ultimo passaggio della fase di pre-elaborazione. Questo perché le modifiche alle feature apportate dopo la scalatura possono rendere nuovamente i dati non scalati.

Il prossimo capitolo tratterà i tre trasformatori più utilizzati per la scalatura dei dati: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Perché è importante scalare le feature nei modelli di machine learning come k-nearest neighbors (KNN)?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 9

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 3.13

bookPerché Scalare i Dati?

Scorri per mostrare il menu

Dopo aver gestito i valori mancanti e codificato le caratteristiche categoriche, il dataset è privo di problemi che potrebbero causare errori nel modello. Tuttavia, rimane un'altra sfida: scale diverse delle caratteristiche.

Questo problema non causerà errori se si forniscono i dati nello stato attuale al modello, ma può peggiorare sostanzialmente alcuni modelli di ML.

Si consideri un esempio in cui una caratteristica è 'age', con valori compresi tra 18 e 50, e la seconda caratteristica è 'income', con valori compresi tra $25,000 e $500,000. È evidente che una differenza di dieci anni nell'età è più significativa di una differenza di dieci dollari nel reddito.

Tuttavia, alcuni modelli, come k-NN (che utilizzeremo in questo corso), possono trattare queste differenze come ugualmente importanti. Di conseguenza, la colonna 'income' avrà un impatto molto più significativo sul modello. Pertanto, è fondamentale che le caratteristiche abbiano all'incirca lo stesso intervallo affinché k-NN funzioni in modo efficace.

Sebbene altri modelli possano essere meno influenzati da scale diverse, la normalizzazione dei dati può aumentare significativamente la velocità di elaborazione. Per questo motivo, la normalizzazione dei dati viene comunemente inclusa come fase finale nel preprocessing.

Note
Nota

Come menzionato sopra, la scalatura dei dati è solitamente l'ultimo passaggio della fase di pre-elaborazione. Questo perché le modifiche alle feature apportate dopo la scalatura possono rendere nuovamente i dati non scalati.

Il prossimo capitolo tratterà i tre trasformatori più utilizzati per la scalatura dei dati: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Perché è importante scalare le feature nei modelli di machine learning come k-nearest neighbors (KNN)?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 9
some-alt