Leer Basisprincipes van Featureselectie | Feature Engineering voor Machine Learning

Kenmerkselectie verbetert de modelprestaties door alleen de meest relevante kenmerken te behouden, de complexiteit te verminderen en overfitting te helpen voorkomen die wordt veroorzaakt door irrelevante of redundante gegevens.

Definitie

Kenmerkselectie is het proces waarbij een subset van invoervariabelen (features) uit uw gegevens wordt gekozen die het meest relevant zijn voor het voorspellende modelleerprobleem.

Methoden voor kenmerkselectie omvatten handmatige beoordeling en geautomatiseerde technieken. Gebruik bij classificatietaken statistische toetsen om kenmerken te scoren en selecteer die welke het sterkst gerelateerd zijn aan de doelvariabele.

De meest populaire methoden voor kenmerkselectie vallen in drie categorieën:

Filtermethoden: Selecteren kenmerken op basis van statistische maten, zoals correlatiecoëfficiënten of univariate toetsen, onafhankelijk van enig machine learning-model;
Wrappermethoden: Gebruiken een voorspellend model om verschillende combinaties van kenmerken te evalueren, zoals met recursive feature elimination (RFE), en selecteren de subset die de beste modelprestaties oplevert;
Embedded methoden: Voeren kenmerkselectie uit als onderdeel van het modelleerproces, zoals Lasso-regularisatie, die automatisch minder belangrijke kenmerken verwijdert door hun coëfficiënten naar nul te verkleinen.

Elke methode balanceert afwegingen tussen rekensnelheid, interpretatie en voorspellend vermogen.


              1234567891011121314151617181920212223242526
            
import pandas as pd
import seaborn as sns
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.preprocessing import LabelEncoder

# Load Titanic dataset
train = sns.load_dataset('titanic')

# Select numeric and categorical columns (excluding target)
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']
X = train[features].copy()
y = train['survived']

# Encode categorical features
X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str))
X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str))

# Handle missing values by filling with median (for simplicity)
X = X.fillna(X.median(numeric_only=True))

# Select top 5 features based on ANOVA F-value
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)
selected_features = X.columns[selector.get_support()]

print("Selected features:", list(selected_features))

In dit voorbeeld wordt SelectKBest uit scikit-learn gebruikt met de f_classif scoringsfunctie om de vijf meest relevante kenmerken—pclass, sex, parch, fare en embarked—uit de Titanic-dataset te selecteren. Deze methode evalueert elk kenmerk afzonderlijk met behulp van ANOVA F-waarden en selecteert die met de hoogste scores. Dit is effectief voor classificatietaken omdat het zich richt op kenmerken die de doelklassen het beste onderscheiden.

Opmerking

Het selecteren van te veel kenmerken, vooral irrelevante, kan leiden tot overfitting, waarbij het model goed presteert op trainingsdata maar slecht op nieuwe, ongeziene data. Zorgvuldige kenmerkselectie helpt dit risico te verkleinen en leidt tot robuustere modellen.

Kenmerkselectie draait niet alleen om het verbeteren van de nauwkeurigheid—het maakt je modellen ook sneller en makkelijker te interpreteren. Door je te richten op alleen de belangrijkste kenmerken, vereenvoudig je je modellen en verklein je de kans dat er ruis uit de data wordt geleerd.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 8.33

Veeg om het menu te tonen