Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Principes de Base de la Sélection de Caractéristiques | Ingénierie des Caractéristiques pour l'Apprentissage Automatique
Prétraitement des Données et Ingénierie des Variables

bookPrincipes de Base de la Sélection de Caractéristiques

La sélection de caractéristiques améliore les performances du modèle en conservant uniquement les caractéristiques les plus pertinentes, en réduisant la complexité et en aidant à prévenir le surapprentissage causé par des données non pertinentes ou redondantes.

Note
Définition

Sélection de caractéristiques : processus consistant à choisir un sous-ensemble de variables d'entrée (features) issues de vos données, les plus pertinentes pour le problème de modélisation prédictive.

Les méthodes de sélection de caractéristiques incluent la revue manuelle et des techniques automatisées. Pour les tâches de classification, utiliser des tests statistiques pour évaluer les caractéristiques et sélectionner celles qui sont le plus fortement liées à la variable cible.

Les méthodes de sélection de caractéristiques les plus populaires se répartissent en trois catégories :

  • Méthodes filtres : sélection des caractéristiques sur la base de mesures statistiques, telles que les coefficients de corrélation ou les tests univariés, indépendamment de tout modèle d'apprentissage automatique ;
  • Méthodes wrappers : utilisation d'un modèle prédictif pour évaluer différentes combinaisons de caractéristiques, comme avec l'élimination récursive de caractéristiques (RFE), et sélection du sous-ensemble offrant les meilleures performances du modèle ;
  • Méthodes intégrées : réalisation de la sélection de caractéristiques au cours du processus d'entraînement du modèle, comme la régularisation Lasso, qui supprime automatiquement les caractéristiques les moins importantes en réduisant leurs coefficients à zéro.

Chaque méthode équilibre les compromis entre coût computationnel, interprétabilité et pouvoir prédictif.

1234567891011121314151617181920212223242526
import pandas as pd import seaborn as sns from sklearn.feature_selection import SelectKBest, f_classif from sklearn.preprocessing import LabelEncoder # Load Titanic dataset train = sns.load_dataset('titanic') # Select numeric and categorical columns (excluding target) features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked'] X = train[features].copy() y = train['survived'] # Encode categorical features X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str)) X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str)) # Handle missing values by filling with median (for simplicity) X = X.fillna(X.median(numeric_only=True)) # Select top 5 features based on ANOVA F-value selector = SelectKBest(score_func=f_classif, k=5) X_new = selector.fit_transform(X, y) selected_features = X.columns[selector.get_support()] print("Selected features:", list(selected_features))
copy

Dans cet exemple, SelectKBest de scikit-learn est utilisé avec la fonction de score f_classif pour sélectionner les cinq caractéristiques les plus pertinentes—pclass, sex, parch, fare et embarked—à partir du jeu de données Titanic. Cette méthode évalue chaque caractéristique individuellement à l'aide des valeurs F de l'ANOVA et sélectionne celles ayant les scores les plus élevés. Elle est efficace pour les tâches de classification car elle met l'accent sur les caractéristiques qui séparent le mieux les classes cibles.

Note
Remarque

La sélection d'un trop grand nombre de caractéristiques, en particulier celles qui sont non pertinentes, peut entraîner un surapprentissage, où le modèle fonctionne bien sur les données d'entraînement mais mal sur de nouvelles données non vues. Une sélection rigoureuse des caractéristiques permet de réduire ce risque et conduit à des modèles plus robustes.

La sélection de caractéristiques ne vise pas uniquement à améliorer la précision—elle rend également vos modèles plus rapides et plus faciles à interpréter. En se concentrant uniquement sur les caractéristiques les plus importantes, vous simplifiez vos modèles et réduisez le risque d'apprendre le bruit présent dans les données.

question mark

Laquelle des affirmations suivantes concernant la sélection de caractéristiques est vraie ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 8.33

bookPrincipes de Base de la Sélection de Caractéristiques

Glissez pour afficher le menu

La sélection de caractéristiques améliore les performances du modèle en conservant uniquement les caractéristiques les plus pertinentes, en réduisant la complexité et en aidant à prévenir le surapprentissage causé par des données non pertinentes ou redondantes.

Note
Définition

Sélection de caractéristiques : processus consistant à choisir un sous-ensemble de variables d'entrée (features) issues de vos données, les plus pertinentes pour le problème de modélisation prédictive.

Les méthodes de sélection de caractéristiques incluent la revue manuelle et des techniques automatisées. Pour les tâches de classification, utiliser des tests statistiques pour évaluer les caractéristiques et sélectionner celles qui sont le plus fortement liées à la variable cible.

Les méthodes de sélection de caractéristiques les plus populaires se répartissent en trois catégories :

  • Méthodes filtres : sélection des caractéristiques sur la base de mesures statistiques, telles que les coefficients de corrélation ou les tests univariés, indépendamment de tout modèle d'apprentissage automatique ;
  • Méthodes wrappers : utilisation d'un modèle prédictif pour évaluer différentes combinaisons de caractéristiques, comme avec l'élimination récursive de caractéristiques (RFE), et sélection du sous-ensemble offrant les meilleures performances du modèle ;
  • Méthodes intégrées : réalisation de la sélection de caractéristiques au cours du processus d'entraînement du modèle, comme la régularisation Lasso, qui supprime automatiquement les caractéristiques les moins importantes en réduisant leurs coefficients à zéro.

Chaque méthode équilibre les compromis entre coût computationnel, interprétabilité et pouvoir prédictif.

1234567891011121314151617181920212223242526
import pandas as pd import seaborn as sns from sklearn.feature_selection import SelectKBest, f_classif from sklearn.preprocessing import LabelEncoder # Load Titanic dataset train = sns.load_dataset('titanic') # Select numeric and categorical columns (excluding target) features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked'] X = train[features].copy() y = train['survived'] # Encode categorical features X['sex'] = LabelEncoder().fit_transform(X['sex'].astype(str)) X['embarked'] = LabelEncoder().fit_transform(X['embarked'].astype(str)) # Handle missing values by filling with median (for simplicity) X = X.fillna(X.median(numeric_only=True)) # Select top 5 features based on ANOVA F-value selector = SelectKBest(score_func=f_classif, k=5) X_new = selector.fit_transform(X, y) selected_features = X.columns[selector.get_support()] print("Selected features:", list(selected_features))
copy

Dans cet exemple, SelectKBest de scikit-learn est utilisé avec la fonction de score f_classif pour sélectionner les cinq caractéristiques les plus pertinentes—pclass, sex, parch, fare et embarked—à partir du jeu de données Titanic. Cette méthode évalue chaque caractéristique individuellement à l'aide des valeurs F de l'ANOVA et sélectionne celles ayant les scores les plus élevés. Elle est efficace pour les tâches de classification car elle met l'accent sur les caractéristiques qui séparent le mieux les classes cibles.

Note
Remarque

La sélection d'un trop grand nombre de caractéristiques, en particulier celles qui sont non pertinentes, peut entraîner un surapprentissage, où le modèle fonctionne bien sur les données d'entraînement mais mal sur de nouvelles données non vues. Une sélection rigoureuse des caractéristiques permet de réduire ce risque et conduit à des modèles plus robustes.

La sélection de caractéristiques ne vise pas uniquement à améliorer la précision—elle rend également vos modèles plus rapides et plus faciles à interpréter. En se concentrant uniquement sur les caractéristiques les plus importantes, vous simplifiez vos modèles et réduisez le risque d'apprendre le bruit présent dans les données.

question mark

Laquelle des affirmations suivantes concernant la sélection de caractéristiques est vraie ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1
some-alt