Mise à l'échelle et Normalisation
Les variables numériques de vos données présentent souvent des échelles très différentes, ce qui peut nuire aux performances des algorithmes d'apprentissage automatique—en particulier ceux utilisant des calculs de distance ou supposant des distributions normales. La mise à l'échelle garantit que toutes les variables contribuent de manière égale à l'entraînement du modèle.
Les deux principales techniques de mise à l'échelle sont :
- Normalisation : redimensionne les variables dans un intervalle fixe, généralement entre
0et1; - Standardisation : transforme les variables pour qu'elles aient une moyenne de
0et un écart type de1.
Chaque méthode modifie l'intervalle de vos données d'une manière différente et convient à des scénarios spécifiques.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
La standardisation est préférable lorsque vos données suivent une distribution gaussienne (normale), ou lorsque les algorithmes attendent des données centrées, comme la linear regression, la logistic regression ou le k-means clustering.
La normalisation est recommandée lorsque vous souhaitez que toutes les variables aient la même échelle, en particulier pour les algorithmes utilisant des mesures de distance, comme les k-nearest neighbors ou les neural networks.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 8.33
Mise à l'échelle et Normalisation
Glissez pour afficher le menu
Les variables numériques de vos données présentent souvent des échelles très différentes, ce qui peut nuire aux performances des algorithmes d'apprentissage automatique—en particulier ceux utilisant des calculs de distance ou supposant des distributions normales. La mise à l'échelle garantit que toutes les variables contribuent de manière égale à l'entraînement du modèle.
Les deux principales techniques de mise à l'échelle sont :
- Normalisation : redimensionne les variables dans un intervalle fixe, généralement entre
0et1; - Standardisation : transforme les variables pour qu'elles aient une moyenne de
0et un écart type de1.
Chaque méthode modifie l'intervalle de vos données d'une manière différente et convient à des scénarios spécifiques.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
La standardisation est préférable lorsque vos données suivent une distribution gaussienne (normale), ou lorsque les algorithmes attendent des données centrées, comme la linear regression, la logistic regression ou le k-means clustering.
La normalisation est recommandée lorsque vous souhaitez que toutes les variables aient la même échelle, en particulier pour les algorithmes utilisant des mesures de distance, comme les k-nearest neighbors ou les neural networks.
Merci pour vos commentaires !