Défi : Imputation des Valeurs Manquantes
La classe SimpleImputer remplace automatiquement les valeurs manquantes.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Ses paramètres principaux :
missing_value: valeur considérée comme manquante (par défautnp.nan) ;strategy: méthode de remplissage des lacunes ('mean'par défaut) ;fill_value: utilisé lorsquestrategy='constant'.
En tant que transformateur, il fournit des méthodes telles que .fit(), .transform() et .fit_transform().
Le choix de la méthode de remplissage des données manquantes est essentiel. Une approche courante :
- variables numériques → moyenne ;
- variables catégorielles → valeur la plus fréquente.
Options pour strategy :
'mean'— remplir avec la moyenne ;'median'— remplir avec la médiane ;'most_frequent'— remplir avec la valeur la plus fréquente ;'constant'— remplir avec une valeur spécifiée viafill_value.
missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).
SimpleImputer attend un DataFrame, et non une Series.
Un DataFrame à une seule colonne doit être sélectionné avec une double paire de crochets :
imputer.fit_transform(df[['column']])
fit_transform() renvoie un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D.
Aplatissez le résultat en utilisant .ravel() :
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.
- Importer
SimpleImputer; - Créer un imputer avec
strategy='most_frequent'; - L'appliquer à
df[['sex']]; - Réaffecter les valeurs imputées à
df['sex'].
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Génial!
Completion taux amélioré à 3.13
Défi : Imputation des Valeurs Manquantes
Glissez pour afficher le menu
La classe SimpleImputer remplace automatiquement les valeurs manquantes.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Ses paramètres principaux :
missing_value: valeur considérée comme manquante (par défautnp.nan) ;strategy: méthode de remplissage des lacunes ('mean'par défaut) ;fill_value: utilisé lorsquestrategy='constant'.
En tant que transformateur, il fournit des méthodes telles que .fit(), .transform() et .fit_transform().
Le choix de la méthode de remplissage des données manquantes est essentiel. Une approche courante :
- variables numériques → moyenne ;
- variables catégorielles → valeur la plus fréquente.
Options pour strategy :
'mean'— remplir avec la moyenne ;'median'— remplir avec la médiane ;'most_frequent'— remplir avec la valeur la plus fréquente ;'constant'— remplir avec une valeur spécifiée viafill_value.
missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).
SimpleImputer attend un DataFrame, et non une Series.
Un DataFrame à une seule colonne doit être sélectionné avec une double paire de crochets :
imputer.fit_transform(df[['column']])
fit_transform() renvoie un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D.
Aplatissez le résultat en utilisant .ravel() :
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.
- Importer
SimpleImputer; - Créer un imputer avec
strategy='most_frequent'; - L'appliquer à
df[['sex']]; - Réaffecter les valeurs imputées à
df['sex'].
Solution
Merci pour vos commentaires !
single