Lernen Grundlagen der Merkmalsauswahl | Feature Engineering für Machine Learning

Die Merkmalsauswahl verbessert die Modellleistung, indem nur die relevantesten Merkmale beibehalten werden, die Komplexität reduziert wird und einer Überanpassung durch irrelevante oder redundante Daten vorgebeugt wird.

Definition

Merkmalsauswahl ist der Prozess der Auswahl einer Teilmenge von Eingabevariablen (features) aus den Daten, die für das prädiktive Modellierungsproblem am relevantesten sind.

Methoden der Merkmalsauswahl umfassen manuelle Überprüfung und automatisierte Techniken. Bei Klassifikationsaufgaben werden statistische Tests verwendet, um Merkmale zu bewerten und diejenigen auszuwählen, die am stärksten mit der Zielvariable zusammenhängen.

Die beliebtesten Methoden zur Merkmalsauswahl lassen sich in drei Kategorien einteilen:

Filter-Methoden: Auswahl von Merkmalen basierend auf statistischen Kennzahlen, wie Korrelationskoeffizienten oder univariaten Tests, unabhängig von einem Machine-Learning-Modell;
Wrapper-Methoden: Verwendung eines prädiktiven Modells zur Bewertung verschiedener Merkmalskombinationen, beispielsweise mit rekursiver Merkmalseliminierung (RFE), und Auswahl der Teilmenge, die die beste Modellleistung erzielt;
Eingebettete Methoden: Durchführung der Merkmalsauswahl als Teil des Modelltrainings, wie bei der Lasso-Regularisierung, die weniger wichtige Merkmale automatisch entfernt, indem deren Koeffizienten auf null gesetzt werden.

Jede Methode balanciert Kompromisse zwischen Rechenaufwand, Interpretierbarkeit und Vorhersagekraft.


              1234567891011121314151617181920212223242526
            
import pandas as pd
import seaborn as sns
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.preprocessing import LabelEncoder

# Load Titanic dataset
train = sns.load_dataset('titanic')

# Select numeric and categorical columns (excluding target)
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']
X = train[features].copy()
y = train['survived']

# Encode categorical features
X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str))
X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str))

# Handle missing values by filling with median (for simplicity)
X = X.fillna(X.median(numeric_only=True))

# Select top 5 features based on ANOVA F-value
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)
selected_features = X.columns[selector.get_support()]

print("Selected features:", list(selected_features))

In diesem Beispiel wird SelectKBest aus scikit-learn mit der Bewertungsfunktion f_classif verwendet, um die fünf relevantesten Merkmale—pclass, sex, parch, fare und embarked—aus dem Titanic-Datensatz auszuwählen. Diese Methode bewertet jedes Merkmal einzeln anhand von ANOVA-F-Werten und wählt diejenigen mit den höchsten Werten aus. Sie ist für Klassifikationsaufgaben effektiv, da sie sich auf Merkmale konzentriert, die die Zielklassen am besten unterscheiden.

Hinweis

Die Auswahl zu vieler Merkmale, insbesondere irrelevanter, kann zu Overfitting führen, wobei das Modell auf den Trainingsdaten gute Ergebnisse erzielt, aber bei neuen, unbekannten Daten schlecht abschneidet. Eine sorgfältige Merkmalsauswahl hilft, dieses Risiko zu verringern und führt zu robusteren Modellen.

Merkmalsauswahl dient nicht nur der Verbesserung der Genauigkeit—sie macht Modelle auch schneller und leichter interpretierbar. Durch die Konzentration auf die wichtigsten Merkmale werden Modelle vereinfacht und das Risiko verringert, Störgeräusche aus den Daten zu erlernen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 8.33

Swipe um das Menü anzuzeigen