Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Skalaendring og Normalisering | Datatransformasjonsteknikker
Dataprosessering og Feature Engineering

bookSkalaendring og Normalisering

Numeriske egenskaper i datasettet har ofte svært ulike skalaer, noe som kan redusere ytelsen til maskinlæringsalgoritmer—spesielt de som benytter avstandsberegninger eller forutsetter normalfordeling. Skalering sikrer at alle egenskaper bidrar likt til modelltreningen.

De to viktigste skaleringsmetodene er:

  • Normalisering: omformer egenskaper til et fast intervall, vanligvis mellom 0 og 1;
  • Standardisering: omformer egenskaper slik at de får et gjennomsnitt på 0 og et standardavvik på 1.

Hver metode endrer datasettet på ulike måter og passer best til spesifikke situasjoner.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Når bruke hver skaleringsmetode

Standardisering er best når datasettet følger en Gaussisk (normal) fordeling, eller når algoritmer forventer sentrerte data, som linear regression, logistic regression eller k-means clustering.

Normalisering foretrekkes når alle egenskaper skal ha samme skala, spesielt for algoritmer som benytter avstandsmål, som k-nearest neighbors eller neural networks.

question mark

Hvilken skaleringsmetode bør velges hvis egenskapene dine har svært ulike intervaller og du bruker en k-nærmeste nabo-klassifiserer?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 8.33

bookSkalaendring og Normalisering

Sveip for å vise menyen

Numeriske egenskaper i datasettet har ofte svært ulike skalaer, noe som kan redusere ytelsen til maskinlæringsalgoritmer—spesielt de som benytter avstandsberegninger eller forutsetter normalfordeling. Skalering sikrer at alle egenskaper bidrar likt til modelltreningen.

De to viktigste skaleringsmetodene er:

  • Normalisering: omformer egenskaper til et fast intervall, vanligvis mellom 0 og 1;
  • Standardisering: omformer egenskaper slik at de får et gjennomsnitt på 0 og et standardavvik på 1.

Hver metode endrer datasettet på ulike måter og passer best til spesifikke situasjoner.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Når bruke hver skaleringsmetode

Standardisering er best når datasettet følger en Gaussisk (normal) fordeling, eller når algoritmer forventer sentrerte data, som linear regression, logistic regression eller k-means clustering.

Normalisering foretrekkes når alle egenskaper skal ha samme skala, spesielt for algoritmer som benytter avstandsmål, som k-nearest neighbors eller neural networks.

question mark

Hvilken skaleringsmetode bør velges hvis egenskapene dine har svært ulike intervaller og du bruker en k-nærmeste nabo-klassifiserer?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1
some-alt