Skalaendring og Normalisering
Numeriske egenskaper i datasettet har ofte svært ulike skalaer, noe som kan redusere ytelsen til maskinlæringsalgoritmer—spesielt de som benytter avstandsberegninger eller forutsetter normalfordeling. Skalering sikrer at alle egenskaper bidrar likt til modelltreningen.
De to viktigste skaleringsmetodene er:
- Normalisering: omformer egenskaper til et fast intervall, vanligvis mellom
0og1; - Standardisering: omformer egenskaper slik at de får et gjennomsnitt på
0og et standardavvik på1.
Hver metode endrer datasettet på ulike måter og passer best til spesifikke situasjoner.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standardisering er best når datasettet følger en Gaussisk (normal) fordeling, eller når algoritmer forventer sentrerte data, som linear regression, logistic regression eller k-means clustering.
Normalisering foretrekkes når alle egenskaper skal ha samme skala, spesielt for algoritmer som benytter avstandsmål, som k-nearest neighbors eller neural networks.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 8.33
Skalaendring og Normalisering
Sveip for å vise menyen
Numeriske egenskaper i datasettet har ofte svært ulike skalaer, noe som kan redusere ytelsen til maskinlæringsalgoritmer—spesielt de som benytter avstandsberegninger eller forutsetter normalfordeling. Skalering sikrer at alle egenskaper bidrar likt til modelltreningen.
De to viktigste skaleringsmetodene er:
- Normalisering: omformer egenskaper til et fast intervall, vanligvis mellom
0og1; - Standardisering: omformer egenskaper slik at de får et gjennomsnitt på
0og et standardavvik på1.
Hver metode endrer datasettet på ulike måter og passer best til spesifikke situasjoner.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Standardisering er best når datasettet følger en Gaussisk (normal) fordeling, eller når algoritmer forventer sentrerte data, som linear regression, logistic regression eller k-means clustering.
Normalisering foretrekkes når alle egenskaper skal ha samme skala, spesielt for algoritmer som benytter avstandsmål, som k-nearest neighbors eller neural networks.
Takk for tilbakemeldingene dine!