Apprendre Pourquoi Mettre à l'Échelle les Données ? | Prétraitement des Données avec Scikit-learn

Glissez pour afficher le menu

Après avoir traité les valeurs manquantes et encodé les variables catégorielles, l'ensemble de données ne présente plus de problèmes susceptibles de provoquer des erreurs dans le modèle. Cependant, un autre défi subsiste : des échelles de caractéristiques différentes.

Ce problème ne provoquera pas d'erreurs si vous fournissez les données dans leur état actuel au modèle, mais il peut détériorer considérablement certains modèles d'apprentissage automatique.

Considérons un exemple où une caractéristique est 'age', allant de 18 à 50, et la seconde caractéristique est 'income', allant de $25,000 à $500,000. Il est évident qu'une différence de dix ans d'âge est plus significative qu'une différence de dix dollars de revenu.

Cependant, certains modèles, comme k-NN (que nous utiliserons dans ce cours), peuvent considérer ces différences comme tout aussi importantes. Par conséquent, la colonne 'income' aura un impact beaucoup plus important sur le modèle. Il est donc essentiel que les caractéristiques aient à peu près la même plage de valeurs pour que k-NN fonctionne efficacement.

Bien que d'autres modèles puissent être moins affectés par des échelles différentes, la mise à l'échelle des données peut considérablement accélérer la vitesse de traitement. Ainsi, la mise à l'échelle des données est généralement incluse comme étape finale du prétraitement.

Remarque

Comme mentionné ci-dessus, la mise à l'échelle des données est généralement la dernière étape de la phase de prétraitement. En effet, toute modification des caractéristiques après la mise à l'échelle peut rendre les données à nouveau non normalisées.

Le prochain chapitre présentera les trois transformateurs les plus utilisés pour la mise à l'échelle des données. Il s'agit de StandardScaler, MinMaxScaler et MaxAbsScaler.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 9

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 2. Chapitre 9