Schalen en Normaliseren
Numerieke kenmerken in uw gegevens hebben vaak zeer verschillende schalen, wat de prestaties van machine learning-algoritmen kan schaden—vooral die algoritmen die afstandsberekeningen gebruiken of uitgaan van normale verdelingen. Schalen zorgt ervoor dat alle kenmerken gelijk bijdragen aan het trainen van het model.
De twee belangrijkste schalingstechnieken zijn:
- Normalisatie: herschaalt kenmerken naar een vast bereik, meestal tussen
0en1; - Standaardisatie: transformeert kenmerken zodat ze een gemiddelde van
0en een standaardafwijking van1hebben.
Elke methode verandert het bereik van uw gegevens op een andere manier en is het meest geschikt voor specifieke scenario's.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standaardisatie is het meest geschikt wanneer uw gegevens een Gaussische (normale) verdeling volgen, of wanneer algoritmen gecentreerde gegevens verwachten, zoals linear regression, logistic regression of k-means clustering.
Normalisatie heeft de voorkeur wanneer u wilt dat alle kenmerken dezelfde schaal hebben, vooral voor algoritmen die afstandsmetingen gebruiken, zoals k-nearest neighbors of neural networks.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 8.33
Schalen en Normaliseren
Veeg om het menu te tonen
Numerieke kenmerken in uw gegevens hebben vaak zeer verschillende schalen, wat de prestaties van machine learning-algoritmen kan schaden—vooral die algoritmen die afstandsberekeningen gebruiken of uitgaan van normale verdelingen. Schalen zorgt ervoor dat alle kenmerken gelijk bijdragen aan het trainen van het model.
De twee belangrijkste schalingstechnieken zijn:
- Normalisatie: herschaalt kenmerken naar een vast bereik, meestal tussen
0en1; - Standaardisatie: transformeert kenmerken zodat ze een gemiddelde van
0en een standaardafwijking van1hebben.
Elke methode verandert het bereik van uw gegevens op een andere manier en is het meest geschikt voor specifieke scenario's.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standaardisatie is het meest geschikt wanneer uw gegevens een Gaussische (normale) verdeling volgen, of wanneer algoritmen gecentreerde gegevens verwachten, zoals linear regression, logistic regression of k-means clustering.
Normalisatie heeft de voorkeur wanneer u wilt dat alle kenmerken dezelfde schaal hebben, vooral voor algoritmen die afstandsmetingen gebruiken, zoals k-nearest neighbors of neural networks.
Bedankt voor je feedback!