Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Skalering og Normalisering | Datatransformationsteknikker
Datapræprocessering og Feature Engineering

bookSkalering og Normalisering

Numeriske funktioner i dine data har ofte meget forskellige skalaer, hvilket kan forringe ydeevnen for maskinlæringsalgoritmer—særligt dem, der anvender afstandsberegninger eller antager normale fordelinger. Skalering sikrer, at alle funktioner bidrager lige meget til modellens træning.

De to vigtigste skaleringsmetoder er:

  • Normalisering: omformer funktioner til et fast interval, typisk mellem 0 og 1;
  • Standardisering: transformerer funktioner, så de har et gennemsnit på 0 og en standardafvigelse på 1.

Hver metode ændrer dataenes interval på forskellig vis og egner sig bedst til specifikke scenarier.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Hvornår skal hver skaleringsmetode anvendes

Standardisering er bedst, når dine data følger en Gaussisk (normal) fordeling, eller når algoritmer forventer centrerede data, såsom linear regression, logistic regression eller k-means clustering.

Normalisering foretrækkes, når alle funktioner skal have samme skala, især for algoritmer, der anvender afstandsmål, som k-nearest neighbors eller neural networks.

question mark

Hvilken skaleringsmetode bør du vælge, hvis dine funktioner har meget forskellige intervaller, og du bruger en k-nærmeste naboer klassifikator

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 8.33

bookSkalering og Normalisering

Stryg for at vise menuen

Numeriske funktioner i dine data har ofte meget forskellige skalaer, hvilket kan forringe ydeevnen for maskinlæringsalgoritmer—særligt dem, der anvender afstandsberegninger eller antager normale fordelinger. Skalering sikrer, at alle funktioner bidrager lige meget til modellens træning.

De to vigtigste skaleringsmetoder er:

  • Normalisering: omformer funktioner til et fast interval, typisk mellem 0 og 1;
  • Standardisering: transformerer funktioner, så de har et gennemsnit på 0 og en standardafvigelse på 1.

Hver metode ændrer dataenes interval på forskellig vis og egner sig bedst til specifikke scenarier.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Hvornår skal hver skaleringsmetode anvendes

Standardisering er bedst, når dine data følger en Gaussisk (normal) fordeling, eller når algoritmer forventer centrerede data, såsom linear regression, logistic regression eller k-means clustering.

Normalisering foretrækkes, når alle funktioner skal have samme skala, især for algoritmer, der anvender afstandsmål, som k-nearest neighbors eller neural networks.

question mark

Hvilken skaleringsmetode bør du vælge, hvis dine funktioner har meget forskellige intervaller, og du bruger en k-nærmeste naboer klassifikator

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1
some-alt