Leer Schalen en Normaliseren | Technieken voor Datatransformatie

Veeg om het menu te tonen

Numerieke kenmerken in uw gegevens hebben vaak zeer verschillende schalen, wat de prestaties van machine learning-algoritmen kan schaden—vooral die algoritmen die afstandsberekeningen gebruiken of uitgaan van normale verdelingen. Schalen zorgt ervoor dat alle kenmerken gelijk bijdragen aan het trainen van het model.

De twee belangrijkste schalingstechnieken zijn:

Normalisatie: herschaalt kenmerken naar een vast bereik, meestal tussen 0 en 1;
Standaardisatie: transformeert kenmerken zodat ze een gemiddelde van 0 en een standaardafwijking van 1 hebben.

Elke methode verandert het bereik van uw gegevens op een andere manier en is het meest geschikt voor specifieke scenario's.


              1234567891011121314151617181920212223242526272829
            
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Load Titanic dataset from seaborn
import seaborn as sns
titanic = sns.load_dataset('titanic')

# Select numerical features for scaling
features = ['age', 'fare', 'sibsp', 'parch']
df = titanic[features].dropna()

# Standardization
scaler_standard = StandardScaler()
df_standardized = pd.DataFrame(
    scaler_standard.fit_transform(df),
    columns=df.columns
)

# Normalization
scaler_minmax = MinMaxScaler()
df_normalized = pd.DataFrame(
    scaler_minmax.fit_transform(df),
    columns=df.columns
)

print("Standardized Data (first 5 rows):")
print(df_standardized.head())
print("\nNormalized Data (first 5 rows):")
print(df_normalized.head())

Wanneer welke schalingsmethode gebruiken

Standaardisatie is het meest geschikt wanneer uw gegevens een Gaussische (normale) verdeling volgen, of wanneer algoritmen gecentreerde gegevens verwachten, zoals linear regression, logistic regression of k-means clustering.

Normalisatie heeft de voorkeur wanneer u wilt dat alle kenmerken dezelfde schaal hebben, vooral voor algoritmen die afstandsmetingen gebruiken, zoals k-nearest neighbors of neural networks.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 2. Hoofdstuk 1