Lære Skalering og Normalisering | Datatransformationsteknikker

Numeriske funktioner i dine data har ofte meget forskellige skalaer, hvilket kan forringe ydeevnen for maskinlæringsalgoritmer—særligt dem, der anvender afstandsberegninger eller antager normale fordelinger. Skalering sikrer, at alle funktioner bidrager lige meget til modellens træning.

De to vigtigste skaleringsmetoder er:

Normalisering: omformer funktioner til et fast interval, typisk mellem 0 og 1;
Standardisering: transformerer funktioner, så de har et gennemsnit på 0 og en standardafvigelse på 1.

Hver metode ændrer dataenes interval på forskellig vis og egner sig bedst til specifikke scenarier.


              1234567891011121314151617181920212223242526272829
            
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Load Titanic dataset from seaborn
import seaborn as sns
titanic = sns.load_dataset('titanic')

# Select numerical features for scaling
features = ['age', 'fare', 'sibsp', 'parch']
df = titanic[features].dropna()

# Standardization
scaler_standard = StandardScaler()
df_standardized = pd.DataFrame(
    scaler_standard.fit_transform(df),
    columns=df.columns
)

# Normalization
scaler_minmax = MinMaxScaler()
df_normalized = pd.DataFrame(
    scaler_minmax.fit_transform(df),
    columns=df.columns
)

print("Standardized Data (first 5 rows):")
print(df_standardized.head())
print("\nNormalized Data (first 5 rows):")
print(df_normalized.head())

Hvornår skal hver skaleringsmetode anvendes

Standardisering er bedst, når dine data følger en Gaussisk (normal) fordeling, eller når algoritmer forventer centrerede data, såsom linear regression, logistic regression eller k-means clustering.

Normalisering foretrækkes, når alle funktioner skal have samme skala, især for algoritmer, der anvender afstandsmål, som k-nearest neighbors eller neural networks.

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 8.33

Stryg for at vise menuen