Skalering og Normalisering
Numeriske funktioner i dine data har ofte meget forskellige skalaer, hvilket kan forringe ydeevnen for maskinlæringsalgoritmer—særligt dem, der anvender afstandsberegninger eller antager normale fordelinger. Skalering sikrer, at alle funktioner bidrager lige meget til modellens træning.
De to vigtigste skaleringsmetoder er:
- Normalisering: omformer funktioner til et fast interval, typisk mellem
0og1; - Standardisering: transformerer funktioner, så de har et gennemsnit på
0og en standardafvigelse på1.
Hver metode ændrer dataenes interval på forskellig vis og egner sig bedst til specifikke scenarier.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standardisering er bedst, når dine data følger en Gaussisk (normal) fordeling, eller når algoritmer forventer centrerede data, såsom linear regression, logistic regression eller k-means clustering.
Normalisering foretrækkes, når alle funktioner skal have samme skala, især for algoritmer, der anvender afstandsmål, som k-nearest neighbors eller neural networks.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 8.33
Skalering og Normalisering
Stryg for at vise menuen
Numeriske funktioner i dine data har ofte meget forskellige skalaer, hvilket kan forringe ydeevnen for maskinlæringsalgoritmer—særligt dem, der anvender afstandsberegninger eller antager normale fordelinger. Skalering sikrer, at alle funktioner bidrager lige meget til modellens træning.
De to vigtigste skaleringsmetoder er:
- Normalisering: omformer funktioner til et fast interval, typisk mellem
0og1; - Standardisering: transformerer funktioner, så de har et gennemsnit på
0og en standardafvigelse på1.
Hver metode ændrer dataenes interval på forskellig vis og egner sig bedst til specifikke scenarier.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standardisering er bedst, når dine data følger en Gaussisk (normal) fordeling, eller når algoritmer forventer centrerede data, såsom linear regression, logistic regression eller k-means clustering.
Normalisering foretrækkes, når alle funktioner skal have samme skala, især for algoritmer, der anvender afstandsmål, som k-nearest neighbors eller neural networks.
Tak for dine kommentarer!