Pourquoi Mettre à l'Échelle les Données ?
Après avoir traité les valeurs manquantes et encodé les variables catégorielles, l'ensemble de données ne présente plus de problèmes susceptibles de provoquer des erreurs dans le modèle. Cependant, un autre défi subsiste : des échelles de caractéristiques différentes.
Ce problème ne provoquera pas d'erreurs si vous fournissez les données dans leur état actuel au modèle, mais il peut détériorer considérablement certains modèles de ML.
Considérons un exemple où une caractéristique est 'age'
, variant de 18 à 50, et une seconde caractéristique est 'income'
, variant de $25,000 à $500,000. Il est évident qu'une différence de dix ans d'âge est plus significative qu'une différence de dix dollars de revenu.
Cependant, certains modèles, tels que k-NN (que nous utiliserons dans ce cours), peuvent considérer ces différences comme d'importance équivalente. Par conséquent, la colonne 'income'
aura un impact bien plus important sur le modèle. Il est donc essentiel que les caractéristiques aient à peu près la même plage de valeurs pour que k-NN fonctionne efficacement.
Bien que d'autres modèles soient moins sensibles aux différences d'échelle, la mise à l'échelle des données peut accélérer considérablement le traitement. Ainsi, la normalisation des données est généralement incluse comme étape finale du prétraitement.
Comme mentionné ci-dessus, la mise à l’échelle des données constitue généralement la dernière étape de la phase de prétraitement. Cela s’explique par le fait que toute modification des caractéristiques après la mise à l’échelle peut rendre les données à nouveau non normalisées.
Le prochain chapitre abordera les trois transformateurs les plus utilisés pour la mise à l’échelle des données : StandardScaler
, MinMaxScaler
et MaxAbsScaler
.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Pourquoi Mettre à l'Échelle les Données ?
Glissez pour afficher le menu
Après avoir traité les valeurs manquantes et encodé les variables catégorielles, l'ensemble de données ne présente plus de problèmes susceptibles de provoquer des erreurs dans le modèle. Cependant, un autre défi subsiste : des échelles de caractéristiques différentes.
Ce problème ne provoquera pas d'erreurs si vous fournissez les données dans leur état actuel au modèle, mais il peut détériorer considérablement certains modèles de ML.
Considérons un exemple où une caractéristique est 'age'
, variant de 18 à 50, et une seconde caractéristique est 'income'
, variant de $25,000 à $500,000. Il est évident qu'une différence de dix ans d'âge est plus significative qu'une différence de dix dollars de revenu.
Cependant, certains modèles, tels que k-NN (que nous utiliserons dans ce cours), peuvent considérer ces différences comme d'importance équivalente. Par conséquent, la colonne 'income'
aura un impact bien plus important sur le modèle. Il est donc essentiel que les caractéristiques aient à peu près la même plage de valeurs pour que k-NN fonctionne efficacement.
Bien que d'autres modèles soient moins sensibles aux différences d'échelle, la mise à l'échelle des données peut accélérer considérablement le traitement. Ainsi, la normalisation des données est généralement incluse comme étape finale du prétraitement.
Comme mentionné ci-dessus, la mise à l’échelle des données constitue généralement la dernière étape de la phase de prétraitement. Cela s’explique par le fait que toute modification des caractéristiques après la mise à l’échelle peut rendre les données à nouveau non normalisées.
Le prochain chapitre abordera les trois transformateurs les plus utilisés pour la mise à l’échelle des données : StandardScaler
, MinMaxScaler
et MaxAbsScaler
.
Merci pour vos commentaires !