Lære Skalaendring og Normalisering | Datatransformasjonsteknikker

Numeriske egenskaper i datasettet har ofte svært ulike skalaer, noe som kan redusere ytelsen til maskinlæringsalgoritmer—spesielt de som benytter avstandsberegninger eller forutsetter normalfordeling. Skalering sikrer at alle egenskaper bidrar likt til modelltreningen.

De to viktigste skaleringsmetodene er:

Normalisering: omformer egenskaper til et fast intervall, vanligvis mellom 0 og 1;
Standardisering: omformer egenskaper slik at de får et gjennomsnitt på 0 og et standardavvik på 1.

Hver metode endrer datasettet på ulike måter og passer best til spesifikke situasjoner.


              1234567891011121314151617181920212223242526272829
            
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Load Titanic dataset from seaborn
import seaborn as sns
titanic = sns.load_dataset('titanic')

# Select numerical features for scaling
features = ['age', 'fare', 'sibsp', 'parch']
df = titanic[features].dropna()

# Standardization
scaler_standard = StandardScaler()
df_standardized = pd.DataFrame(
    scaler_standard.fit_transform(df),
    columns=df.columns
)

# Normalization
scaler_minmax = MinMaxScaler()
df_normalized = pd.DataFrame(
    scaler_minmax.fit_transform(df),
    columns=df.columns
)

print("Standardized Data (first 5 rows):")
print(df_standardized.head())
print("\nNormalized Data (first 5 rows):")
print(df_normalized.head())

Når bruke hver skaleringsmetode

Standardisering er best når datasettet følger en Gaussisk (normal) fordeling, eller når algoritmer forventer sentrerte data, som linear regression, logistic regression eller k-means clustering.

Normalisering foretrekkes når alle egenskaper skal ha samme skala, spesielt for algoritmer som benytter avstandsmål, som k-nearest neighbors eller neural networks.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 8.33

Sveip for å vise menyen