Skalierung und Normalisierung
Numerische Merkmale in Ihren Daten weisen häufig sehr unterschiedliche Skalen auf, was die Leistung von Machine-Learning-Algorithmen beeinträchtigen kann – insbesondere bei Algorithmen, die Distanzberechnungen verwenden oder Normalverteilungen annehmen. Skalierung stellt sicher, dass alle Merkmale gleichermaßen zum Modelltraining beitragen.
Die beiden wichtigsten Skalierungstechniken sind:
- Normalisierung: skaliert Merkmale auf einen festen Bereich, üblicherweise zwischen
0und1; - Standardisierung: transformiert Merkmale so, dass sie einen Mittelwert von
0und eine Standardabweichung von1haben.
Jede Methode verändert den Wertebereich Ihrer Daten auf unterschiedliche Weise und eignet sich am besten für bestimmte Anwendungsfälle.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standardisierung ist am besten geeignet, wenn Ihre Daten einer Gaußschen (normalen) Verteilung folgen oder wenn Algorithmen zentrierte Daten erwarten, wie etwa bei linear regression, logistic regression oder k-means clustering.
Normalisierung wird bevorzugt, wenn alle Merkmale die gleiche Skala haben sollen, insbesondere bei Algorithmen, die Distanzmetriken verwenden, wie k-nearest neighbors oder neural networks.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 8.33
Skalierung und Normalisierung
Swipe um das Menü anzuzeigen
Numerische Merkmale in Ihren Daten weisen häufig sehr unterschiedliche Skalen auf, was die Leistung von Machine-Learning-Algorithmen beeinträchtigen kann – insbesondere bei Algorithmen, die Distanzberechnungen verwenden oder Normalverteilungen annehmen. Skalierung stellt sicher, dass alle Merkmale gleichermaßen zum Modelltraining beitragen.
Die beiden wichtigsten Skalierungstechniken sind:
- Normalisierung: skaliert Merkmale auf einen festen Bereich, üblicherweise zwischen
0und1; - Standardisierung: transformiert Merkmale so, dass sie einen Mittelwert von
0und eine Standardabweichung von1haben.
Jede Methode verändert den Wertebereich Ihrer Daten auf unterschiedliche Weise und eignet sich am besten für bestimmte Anwendungsfälle.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standardisierung ist am besten geeignet, wenn Ihre Daten einer Gaußschen (normalen) Verteilung folgen oder wenn Algorithmen zentrierte Daten erwarten, wie etwa bei linear regression, logistic regression oder k-means clustering.
Normalisierung wird bevorzugt, wenn alle Merkmale die gleiche Skala haben sollen, insbesondere bei Algorithmen, die Distanzmetriken verwenden, wie k-nearest neighbors oder neural networks.
Danke für Ihr Feedback!