Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Basisprincipes van Featureselectie | Feature Engineering voor Machine Learning
Data Preprocessing en Feature Engineering

bookBasisprincipes van Featureselectie

Kenmerkselectie verbetert de modelprestaties door alleen de meest relevante kenmerken te behouden, de complexiteit te verminderen en overfitting te helpen voorkomen die wordt veroorzaakt door irrelevante of redundante gegevens.

Note
Definitie

Kenmerkselectie is het proces waarbij een subset van invoervariabelen (features) uit uw gegevens wordt gekozen die het meest relevant zijn voor het voorspellende modelleerprobleem.

Methoden voor kenmerkselectie omvatten handmatige beoordeling en geautomatiseerde technieken. Gebruik bij classificatietaken statistische toetsen om kenmerken te scoren en selecteer die welke het sterkst gerelateerd zijn aan de doelvariabele.

De meest populaire methoden voor kenmerkselectie vallen in drie categorieën:

  • Filtermethoden: Selecteren kenmerken op basis van statistische maten, zoals correlatiecoëfficiënten of univariate toetsen, onafhankelijk van enig machine learning-model;
  • Wrappermethoden: Gebruiken een voorspellend model om verschillende combinaties van kenmerken te evalueren, zoals met recursive feature elimination (RFE), en selecteren de subset die de beste modelprestaties oplevert;
  • Embedded methoden: Voeren kenmerkselectie uit als onderdeel van het modelleerproces, zoals Lasso-regularisatie, die automatisch minder belangrijke kenmerken verwijdert door hun coëfficiënten naar nul te verkleinen.

Elke methode balanceert afwegingen tussen rekensnelheid, interpretatie en voorspellend vermogen.

1234567891011121314151617181920212223242526
import pandas as pd import seaborn as sns from sklearn.feature_selection import SelectKBest, f_classif from sklearn.preprocessing import LabelEncoder # Load Titanic dataset train = sns.load_dataset('titanic') # Select numeric and categorical columns (excluding target) features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked'] X = train[features].copy() y = train['survived'] # Encode categorical features X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str)) X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str)) # Handle missing values by filling with median (for simplicity) X = X.fillna(X.median(numeric_only=True)) # Select top 5 features based on ANOVA F-value selector = SelectKBest(score_func=f_classif, k=5) X_new = selector.fit_transform(X, y) selected_features = X.columns[selector.get_support()] print("Selected features:", list(selected_features))
copy

In dit voorbeeld wordt SelectKBest uit scikit-learn gebruikt met de f_classif scoringsfunctie om de vijf meest relevante kenmerken—pclass, sex, parch, fare en embarked—uit de Titanic-dataset te selecteren. Deze methode evalueert elk kenmerk afzonderlijk met behulp van ANOVA F-waarden en selecteert die met de hoogste scores. Dit is effectief voor classificatietaken omdat het zich richt op kenmerken die de doelklassen het beste onderscheiden.

Note
Opmerking

Het selecteren van te veel kenmerken, vooral irrelevante, kan leiden tot overfitting, waarbij het model goed presteert op trainingsdata maar slecht op nieuwe, ongeziene data. Zorgvuldige kenmerkselectie helpt dit risico te verkleinen en leidt tot robuustere modellen.

Kenmerkselectie draait niet alleen om het verbeteren van de nauwkeurigheid—het maakt je modellen ook sneller en makkelijker te interpreteren. Door je te richten op alleen de belangrijkste kenmerken, vereenvoudig je je modellen en verklein je de kans dat er ruis uit de data wordt geleerd.

question mark

Welke van de volgende uitspraken over kenmerkselectie is waar?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 8.33

bookBasisprincipes van Featureselectie

Veeg om het menu te tonen

Kenmerkselectie verbetert de modelprestaties door alleen de meest relevante kenmerken te behouden, de complexiteit te verminderen en overfitting te helpen voorkomen die wordt veroorzaakt door irrelevante of redundante gegevens.

Note
Definitie

Kenmerkselectie is het proces waarbij een subset van invoervariabelen (features) uit uw gegevens wordt gekozen die het meest relevant zijn voor het voorspellende modelleerprobleem.

Methoden voor kenmerkselectie omvatten handmatige beoordeling en geautomatiseerde technieken. Gebruik bij classificatietaken statistische toetsen om kenmerken te scoren en selecteer die welke het sterkst gerelateerd zijn aan de doelvariabele.

De meest populaire methoden voor kenmerkselectie vallen in drie categorieën:

  • Filtermethoden: Selecteren kenmerken op basis van statistische maten, zoals correlatiecoëfficiënten of univariate toetsen, onafhankelijk van enig machine learning-model;
  • Wrappermethoden: Gebruiken een voorspellend model om verschillende combinaties van kenmerken te evalueren, zoals met recursive feature elimination (RFE), en selecteren de subset die de beste modelprestaties oplevert;
  • Embedded methoden: Voeren kenmerkselectie uit als onderdeel van het modelleerproces, zoals Lasso-regularisatie, die automatisch minder belangrijke kenmerken verwijdert door hun coëfficiënten naar nul te verkleinen.

Elke methode balanceert afwegingen tussen rekensnelheid, interpretatie en voorspellend vermogen.

1234567891011121314151617181920212223242526
import pandas as pd import seaborn as sns from sklearn.feature_selection import SelectKBest, f_classif from sklearn.preprocessing import LabelEncoder # Load Titanic dataset train = sns.load_dataset('titanic') # Select numeric and categorical columns (excluding target) features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked'] X = train[features].copy() y = train['survived'] # Encode categorical features X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str)) X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str)) # Handle missing values by filling with median (for simplicity) X = X.fillna(X.median(numeric_only=True)) # Select top 5 features based on ANOVA F-value selector = SelectKBest(score_func=f_classif, k=5) X_new = selector.fit_transform(X, y) selected_features = X.columns[selector.get_support()] print("Selected features:", list(selected_features))
copy

In dit voorbeeld wordt SelectKBest uit scikit-learn gebruikt met de f_classif scoringsfunctie om de vijf meest relevante kenmerken—pclass, sex, parch, fare en embarked—uit de Titanic-dataset te selecteren. Deze methode evalueert elk kenmerk afzonderlijk met behulp van ANOVA F-waarden en selecteert die met de hoogste scores. Dit is effectief voor classificatietaken omdat het zich richt op kenmerken die de doelklassen het beste onderscheiden.

Note
Opmerking

Het selecteren van te veel kenmerken, vooral irrelevante, kan leiden tot overfitting, waarbij het model goed presteert op trainingsdata maar slecht op nieuwe, ongeziene data. Zorgvuldige kenmerkselectie helpt dit risico te verkleinen en leidt tot robuustere modellen.

Kenmerkselectie draait niet alleen om het verbeteren van de nauwkeurigheid—het maakt je modellen ook sneller en makkelijker te interpreteren. Door je te richten op alleen de belangrijkste kenmerken, vereenvoudig je je modellen en verklein je de kans dat er ruis uit de data wordt geleerd.

question mark

Welke van de volgende uitspraken over kenmerkselectie is waar?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1
some-alt