Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Schalen en Normaliseren | Technieken voor Datatransformatie
Data Preprocessing en Feature Engineering

bookSchalen en Normaliseren

Numerieke kenmerken in uw gegevens hebben vaak zeer verschillende schalen, wat de prestaties van machine learning-algoritmen kan schaden—vooral die algoritmen die afstandsberekeningen gebruiken of uitgaan van normale verdelingen. Schalen zorgt ervoor dat alle kenmerken gelijk bijdragen aan het trainen van het model.

De twee belangrijkste schalingstechnieken zijn:

  • Normalisatie: herschaalt kenmerken naar een vast bereik, meestal tussen 0 en 1;
  • Standaardisatie: transformeert kenmerken zodat ze een gemiddelde van 0 en een standaardafwijking van 1 hebben.

Elke methode verandert het bereik van uw gegevens op een andere manier en is het meest geschikt voor specifieke scenario's.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Wanneer welke schalingsmethode gebruiken

Standaardisatie is het meest geschikt wanneer uw gegevens een Gaussische (normale) verdeling volgen, of wanneer algoritmen gecentreerde gegevens verwachten, zoals linear regression, logistic regression of k-means clustering.

Normalisatie heeft de voorkeur wanneer u wilt dat alle kenmerken dezelfde schaal hebben, vooral voor algoritmen die afstandsmetingen gebruiken, zoals k-nearest neighbors of neural networks.

question mark

Welke schaalmethode moet je kiezen als je kenmerken zeer verschillende bereiken hebben en je een k-nearest neighbors-classificatie gebruikt

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 8.33

bookSchalen en Normaliseren

Veeg om het menu te tonen

Numerieke kenmerken in uw gegevens hebben vaak zeer verschillende schalen, wat de prestaties van machine learning-algoritmen kan schaden—vooral die algoritmen die afstandsberekeningen gebruiken of uitgaan van normale verdelingen. Schalen zorgt ervoor dat alle kenmerken gelijk bijdragen aan het trainen van het model.

De twee belangrijkste schalingstechnieken zijn:

  • Normalisatie: herschaalt kenmerken naar een vast bereik, meestal tussen 0 en 1;
  • Standaardisatie: transformeert kenmerken zodat ze een gemiddelde van 0 en een standaardafwijking van 1 hebben.

Elke methode verandert het bereik van uw gegevens op een andere manier en is het meest geschikt voor specifieke scenario's.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Wanneer welke schalingsmethode gebruiken

Standaardisatie is het meest geschikt wanneer uw gegevens een Gaussische (normale) verdeling volgen, of wanneer algoritmen gecentreerde gegevens verwachten, zoals linear regression, logistic regression of k-means clustering.

Normalisatie heeft de voorkeur wanneer u wilt dat alle kenmerken dezelfde schaal hebben, vooral voor algoritmen die afstandsmetingen gebruiken, zoals k-nearest neighbors of neural networks.

question mark

Welke schaalmethode moet je kiezen als je kenmerken zeer verschillende bereiken hebben en je een k-nearest neighbors-classificatie gebruikt

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1
some-alt