Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Grundlagen der Merkmalsauswahl | Feature Engineering für Machine Learning
Datenvorverarbeitung und Feature Engineering

bookGrundlagen der Merkmalsauswahl

Die Merkmalsauswahl verbessert die Modellleistung, indem nur die relevantesten Merkmale beibehalten werden, die Komplexität reduziert wird und einer Überanpassung durch irrelevante oder redundante Daten vorgebeugt wird.

Note
Definition

Merkmalsauswahl ist der Prozess der Auswahl einer Teilmenge von Eingabevariablen (features) aus den Daten, die für das prädiktive Modellierungsproblem am relevantesten sind.

Methoden der Merkmalsauswahl umfassen manuelle Überprüfung und automatisierte Techniken. Bei Klassifikationsaufgaben werden statistische Tests verwendet, um Merkmale zu bewerten und diejenigen auszuwählen, die am stärksten mit der Zielvariable zusammenhängen.

Die beliebtesten Methoden zur Merkmalsauswahl lassen sich in drei Kategorien einteilen:

  • Filter-Methoden: Auswahl von Merkmalen basierend auf statistischen Kennzahlen, wie Korrelationskoeffizienten oder univariaten Tests, unabhängig von einem Machine-Learning-Modell;
  • Wrapper-Methoden: Verwendung eines prädiktiven Modells zur Bewertung verschiedener Merkmalskombinationen, beispielsweise mit rekursiver Merkmalseliminierung (RFE), und Auswahl der Teilmenge, die die beste Modellleistung erzielt;
  • Eingebettete Methoden: Durchführung der Merkmalsauswahl als Teil des Modelltrainings, wie bei der Lasso-Regularisierung, die weniger wichtige Merkmale automatisch entfernt, indem deren Koeffizienten auf null gesetzt werden.

Jede Methode balanciert Kompromisse zwischen Rechenaufwand, Interpretierbarkeit und Vorhersagekraft.

1234567891011121314151617181920212223242526
import pandas as pd import seaborn as sns from sklearn.feature_selection import SelectKBest, f_classif from sklearn.preprocessing import LabelEncoder # Load Titanic dataset train = sns.load_dataset('titanic') # Select numeric and categorical columns (excluding target) features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked'] X = train[features].copy() y = train['survived'] # Encode categorical features X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str)) X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str)) # Handle missing values by filling with median (for simplicity) X = X.fillna(X.median(numeric_only=True)) # Select top 5 features based on ANOVA F-value selector = SelectKBest(score_func=f_classif, k=5) X_new = selector.fit_transform(X, y) selected_features = X.columns[selector.get_support()] print("Selected features:", list(selected_features))
copy

In diesem Beispiel wird SelectKBest aus scikit-learn mit der Bewertungsfunktion f_classif verwendet, um die fünf relevantesten Merkmale—pclass, sex, parch, fare und embarked—aus dem Titanic-Datensatz auszuwählen. Diese Methode bewertet jedes Merkmal einzeln anhand von ANOVA-F-Werten und wählt diejenigen mit den höchsten Werten aus. Sie ist für Klassifikationsaufgaben effektiv, da sie sich auf Merkmale konzentriert, die die Zielklassen am besten unterscheiden.

Note
Hinweis

Die Auswahl zu vieler Merkmale, insbesondere irrelevanter, kann zu Overfitting führen, wobei das Modell auf den Trainingsdaten gute Ergebnisse erzielt, aber bei neuen, unbekannten Daten schlecht abschneidet. Eine sorgfältige Merkmalsauswahl hilft, dieses Risiko zu verringern und führt zu robusteren Modellen.

Merkmalsauswahl dient nicht nur der Verbesserung der Genauigkeit—sie macht Modelle auch schneller und leichter interpretierbar. Durch die Konzentration auf die wichtigsten Merkmale werden Modelle vereinfacht und das Risiko verringert, Störgeräusche aus den Daten zu erlernen.

question mark

Welche der folgenden Aussagen zur Merkmalsauswahl ist wahr?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 8.33

bookGrundlagen der Merkmalsauswahl

Swipe um das Menü anzuzeigen

Die Merkmalsauswahl verbessert die Modellleistung, indem nur die relevantesten Merkmale beibehalten werden, die Komplexität reduziert wird und einer Überanpassung durch irrelevante oder redundante Daten vorgebeugt wird.

Note
Definition

Merkmalsauswahl ist der Prozess der Auswahl einer Teilmenge von Eingabevariablen (features) aus den Daten, die für das prädiktive Modellierungsproblem am relevantesten sind.

Methoden der Merkmalsauswahl umfassen manuelle Überprüfung und automatisierte Techniken. Bei Klassifikationsaufgaben werden statistische Tests verwendet, um Merkmale zu bewerten und diejenigen auszuwählen, die am stärksten mit der Zielvariable zusammenhängen.

Die beliebtesten Methoden zur Merkmalsauswahl lassen sich in drei Kategorien einteilen:

  • Filter-Methoden: Auswahl von Merkmalen basierend auf statistischen Kennzahlen, wie Korrelationskoeffizienten oder univariaten Tests, unabhängig von einem Machine-Learning-Modell;
  • Wrapper-Methoden: Verwendung eines prädiktiven Modells zur Bewertung verschiedener Merkmalskombinationen, beispielsweise mit rekursiver Merkmalseliminierung (RFE), und Auswahl der Teilmenge, die die beste Modellleistung erzielt;
  • Eingebettete Methoden: Durchführung der Merkmalsauswahl als Teil des Modelltrainings, wie bei der Lasso-Regularisierung, die weniger wichtige Merkmale automatisch entfernt, indem deren Koeffizienten auf null gesetzt werden.

Jede Methode balanciert Kompromisse zwischen Rechenaufwand, Interpretierbarkeit und Vorhersagekraft.

1234567891011121314151617181920212223242526
import pandas as pd import seaborn as sns from sklearn.feature_selection import SelectKBest, f_classif from sklearn.preprocessing import LabelEncoder # Load Titanic dataset train = sns.load_dataset('titanic') # Select numeric and categorical columns (excluding target) features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked'] X = train[features].copy() y = train['survived'] # Encode categorical features X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str)) X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str)) # Handle missing values by filling with median (for simplicity) X = X.fillna(X.median(numeric_only=True)) # Select top 5 features based on ANOVA F-value selector = SelectKBest(score_func=f_classif, k=5) X_new = selector.fit_transform(X, y) selected_features = X.columns[selector.get_support()] print("Selected features:", list(selected_features))
copy

In diesem Beispiel wird SelectKBest aus scikit-learn mit der Bewertungsfunktion f_classif verwendet, um die fünf relevantesten Merkmale—pclass, sex, parch, fare und embarked—aus dem Titanic-Datensatz auszuwählen. Diese Methode bewertet jedes Merkmal einzeln anhand von ANOVA-F-Werten und wählt diejenigen mit den höchsten Werten aus. Sie ist für Klassifikationsaufgaben effektiv, da sie sich auf Merkmale konzentriert, die die Zielklassen am besten unterscheiden.

Note
Hinweis

Die Auswahl zu vieler Merkmale, insbesondere irrelevanter, kann zu Overfitting führen, wobei das Modell auf den Trainingsdaten gute Ergebnisse erzielt, aber bei neuen, unbekannten Daten schlecht abschneidet. Eine sorgfältige Merkmalsauswahl hilft, dieses Risiko zu verringern und führt zu robusteren Modellen.

Merkmalsauswahl dient nicht nur der Verbesserung der Genauigkeit—sie macht Modelle auch schneller und leichter interpretierbar. Durch die Konzentration auf die wichtigsten Merkmale werden Modelle vereinfacht und das Risiko verringert, Störgeräusche aus den Daten zu erlernen.

question mark

Welche der folgenden Aussagen zur Merkmalsauswahl ist wahr?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1
some-alt