Apprendre Mise à l'échelle et Normalisation | Techniques de Transformation des Données

Les variables numériques de vos données présentent souvent des échelles très différentes, ce qui peut nuire aux performances des algorithmes d'apprentissage automatique—en particulier ceux utilisant des calculs de distance ou supposant des distributions normales. La mise à l'échelle garantit que toutes les variables contribuent de manière égale à l'entraînement du modèle.

Les deux principales techniques de mise à l'échelle sont :

Normalisation : redimensionne les variables dans un intervalle fixe, généralement entre 0 et 1 ;
Standardisation : transforme les variables pour qu'elles aient une moyenne de 0 et un écart type de 1.

Chaque méthode modifie l'intervalle de vos données d'une manière différente et convient à des scénarios spécifiques.


              1234567891011121314151617181920212223242526272829
            
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Load Titanic dataset from seaborn
import seaborn as sns
titanic = sns.load_dataset('titanic')

# Select numerical features for scaling
features = ['age', 'fare', 'sibsp', 'parch']
df = titanic[features].dropna()

# Standardization
scaler_standard = StandardScaler()
df_standardized = pd.DataFrame(
    scaler_standard.fit_transform(df),
    columns=df.columns
)

# Normalization
scaler_minmax = MinMaxScaler()
df_normalized = pd.DataFrame(
    scaler_minmax.fit_transform(df),
    columns=df.columns
)

print("Standardized Data (first 5 rows):")
print(df_standardized.head())
print("\nNormalized Data (first 5 rows):")
print(df_normalized.head())

Quand utiliser chaque méthode de mise à l'échelle

La standardisation est préférable lorsque vos données suivent une distribution gaussienne (normale), ou lorsque les algorithmes attendent des données centrées, comme la linear regression, la logistic regression ou le k-means clustering.

La normalisation est recommandée lorsque vous souhaitez que toutes les variables aient la même échelle, en particulier pour les algorithmes utilisant des mesures de distance, comme les k-nearest neighbors ou les neural networks.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 8.33

Glissez pour afficher le menu