Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Skalierung und Normalisierung | Datenumwandlungstechniken
Datenvorverarbeitung und Feature Engineering

bookSkalierung und Normalisierung

Numerische Merkmale in Ihren Daten weisen häufig sehr unterschiedliche Skalen auf, was die Leistung von Machine-Learning-Algorithmen beeinträchtigen kann – insbesondere bei Algorithmen, die Distanzberechnungen verwenden oder Normalverteilungen annehmen. Skalierung stellt sicher, dass alle Merkmale gleichermaßen zum Modelltraining beitragen.

Die beiden wichtigsten Skalierungstechniken sind:

  • Normalisierung: skaliert Merkmale auf einen festen Bereich, üblicherweise zwischen 0 und 1;
  • Standardisierung: transformiert Merkmale so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben.

Jede Methode verändert den Wertebereich Ihrer Daten auf unterschiedliche Weise und eignet sich am besten für bestimmte Anwendungsfälle.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Wann welche Skalierungsmethode verwenden

Standardisierung ist am besten geeignet, wenn Ihre Daten einer Gaußschen (normalen) Verteilung folgen oder wenn Algorithmen zentrierte Daten erwarten, wie etwa bei linear regression, logistic regression oder k-means clustering.

Normalisierung wird bevorzugt, wenn alle Merkmale die gleiche Skala haben sollen, insbesondere bei Algorithmen, die Distanzmetriken verwenden, wie k-nearest neighbors oder neural networks.

question mark

Welche Skalierungsmethode sollten Sie wählen, wenn Ihre Merkmale sehr unterschiedliche Wertebereiche aufweisen und Sie einen k-nächste Nachbarn-Klassifikator verwenden?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 8.33

bookSkalierung und Normalisierung

Swipe um das Menü anzuzeigen

Numerische Merkmale in Ihren Daten weisen häufig sehr unterschiedliche Skalen auf, was die Leistung von Machine-Learning-Algorithmen beeinträchtigen kann – insbesondere bei Algorithmen, die Distanzberechnungen verwenden oder Normalverteilungen annehmen. Skalierung stellt sicher, dass alle Merkmale gleichermaßen zum Modelltraining beitragen.

Die beiden wichtigsten Skalierungstechniken sind:

  • Normalisierung: skaliert Merkmale auf einen festen Bereich, üblicherweise zwischen 0 und 1;
  • Standardisierung: transformiert Merkmale so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben.

Jede Methode verändert den Wertebereich Ihrer Daten auf unterschiedliche Weise und eignet sich am besten für bestimmte Anwendungsfälle.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Wann welche Skalierungsmethode verwenden

Standardisierung ist am besten geeignet, wenn Ihre Daten einer Gaußschen (normalen) Verteilung folgen oder wenn Algorithmen zentrierte Daten erwarten, wie etwa bei linear regression, logistic regression oder k-means clustering.

Normalisierung wird bevorzugt, wenn alle Merkmale die gleiche Skala haben sollen, insbesondere bei Algorithmen, die Distanzmetriken verwenden, wie k-nearest neighbors oder neural networks.

question mark

Welche Skalierungsmethode sollten Sie wählen, wenn Ihre Merkmale sehr unterschiedliche Wertebereiche aufweisen und Sie einen k-nächste Nachbarn-Klassifikator verwenden?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1
some-alt