Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Mise à l'échelle et Normalisation | Techniques de Transformation des Données
Prétraitement des Données et Ingénierie des Variables

bookMise à l'échelle et Normalisation

Les variables numériques de vos données présentent souvent des échelles très différentes, ce qui peut nuire aux performances des algorithmes d'apprentissage automatique—en particulier ceux utilisant des calculs de distance ou supposant des distributions normales. La mise à l'échelle garantit que toutes les variables contribuent de manière égale à l'entraînement du modèle.

Les deux principales techniques de mise à l'échelle sont :

  • Normalisation : redimensionne les variables dans un intervalle fixe, généralement entre 0 et 1 ;
  • Standardisation : transforme les variables pour qu'elles aient une moyenne de 0 et un écart type de 1.

Chaque méthode modifie l'intervalle de vos données d'une manière différente et convient à des scénarios spécifiques.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Quand utiliser chaque méthode de mise à l'échelle

La standardisation est préférable lorsque vos données suivent une distribution gaussienne (normale), ou lorsque les algorithmes attendent des données centrées, comme la linear regression, la logistic regression ou le k-means clustering.

La normalisation est recommandée lorsque vous souhaitez que toutes les variables aient la même échelle, en particulier pour les algorithmes utilisant des mesures de distance, comme les k-nearest neighbors ou les neural networks.

question mark

Quelle méthode de mise à l'échelle devez-vous choisir si vos caractéristiques ont des plages très différentes et que vous utilisez un classificateur des k plus proches voisins ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 8.33

bookMise à l'échelle et Normalisation

Glissez pour afficher le menu

Les variables numériques de vos données présentent souvent des échelles très différentes, ce qui peut nuire aux performances des algorithmes d'apprentissage automatique—en particulier ceux utilisant des calculs de distance ou supposant des distributions normales. La mise à l'échelle garantit que toutes les variables contribuent de manière égale à l'entraînement du modèle.

Les deux principales techniques de mise à l'échelle sont :

  • Normalisation : redimensionne les variables dans un intervalle fixe, généralement entre 0 et 1 ;
  • Standardisation : transforme les variables pour qu'elles aient une moyenne de 0 et un écart type de 1.

Chaque méthode modifie l'intervalle de vos données d'une manière différente et convient à des scénarios spécifiques.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Quand utiliser chaque méthode de mise à l'échelle

La standardisation est préférable lorsque vos données suivent une distribution gaussienne (normale), ou lorsque les algorithmes attendent des données centrées, comme la linear regression, la logistic regression ou le k-means clustering.

La normalisation est recommandée lorsque vous souhaitez que toutes les variables aient la même échelle, en particulier pour les algorithmes utilisant des mesures de distance, comme les k-nearest neighbors ou les neural networks.

question mark

Quelle méthode de mise à l'échelle devez-vous choisir si vos caractéristiques ont des plages très différentes et que vous utilisez un classificateur des k plus proches voisins ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1
some-alt