Lernen Skalierung und Normalisierung | Datenumwandlungstechniken

Numerische Merkmale in Ihren Daten weisen häufig sehr unterschiedliche Skalen auf, was die Leistung von Machine-Learning-Algorithmen beeinträchtigen kann – insbesondere bei Algorithmen, die Distanzberechnungen verwenden oder Normalverteilungen annehmen. Skalierung stellt sicher, dass alle Merkmale gleichermaßen zum Modelltraining beitragen.

Die beiden wichtigsten Skalierungstechniken sind:

Normalisierung: skaliert Merkmale auf einen festen Bereich, üblicherweise zwischen 0 und 1;
Standardisierung: transformiert Merkmale so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben.

Jede Methode verändert den Wertebereich Ihrer Daten auf unterschiedliche Weise und eignet sich am besten für bestimmte Anwendungsfälle.


              1234567891011121314151617181920212223242526272829
            
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Load Titanic dataset from seaborn
import seaborn as sns
titanic = sns.load_dataset('titanic')

# Select numerical features for scaling
features = ['age', 'fare', 'sibsp', 'parch']
df = titanic[features].dropna()

# Standardization
scaler_standard = StandardScaler()
df_standardized = pd.DataFrame(
    scaler_standard.fit_transform(df),
    columns=df.columns
)

# Normalization
scaler_minmax = MinMaxScaler()
df_normalized = pd.DataFrame(
    scaler_minmax.fit_transform(df),
    columns=df.columns
)

print("Standardized Data (first 5 rows):")
print(df_standardized.head())
print("\nNormalized Data (first 5 rows):")
print(df_normalized.head())

Wann welche Skalierungsmethode verwenden

Standardisierung ist am besten geeignet, wenn Ihre Daten einer Gaußschen (normalen) Verteilung folgen oder wenn Algorithmen zentrierte Daten erwarten, wie etwa bei linear regression, logistic regression oder k-means clustering.

Normalisierung wird bevorzugt, wenn alle Merkmale die gleiche Skala haben sollen, insbesondere bei Algorithmen, die Distanzmetriken verwenden, wie k-nearest neighbors oder neural networks.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 8.33

Swipe um das Menü anzuzeigen