Section 2. Chapitre 6
single
Défi : Prétraitement du Jeu de Données
Glissez pour afficher le menu
Tâche
Glissez pour commencer à coder
Un jeu de données synthétique est stocké dans la variable data. L'objectif est de traiter les valeurs manquantes et d'encoder correctement les variables catégorielles.
Procédure à suivre :
- Remplacer les valeurs manquantes de la colonne
'Age'par la moyenne de cette colonne. Écraser la colonne d'origine avec le résultat. - Créer une instance de
OneHotEncoderet la stocker dans la variablecity_encoder. Veiller à spécifierdrop='first'pour éviter le piège des variables fictives. - Par défaut, cet encodeur retourne une matrice creuse. Pour assurer la compatibilité avec Pandas par la suite, définir le paramètre
sparse_output=False(ousparse=Falsepour les versions antérieures) lors de l'initialisation, OU ajouter.toarray()lors de la transformation des données. - Encoder les valeurs de la colonne
'City'à l'aide decity_encoder.fit_transform()et stocker le tableau résultant dans la variablecity_encoded. - Créer une instance de
OrdinalEncoderet la stocker dans la variableincome_encoder. Puisque les données présentent une hiérarchie naturelle, définir explicitement l'ordre à l'aide du paramètrecategories(noter que'Low'<'Middle'<'High'). - Encoder les valeurs de la colonne
'Income'à l'aide deincome_encoderet écraser la colonne'Income'd'origine avec le résultat.
Solution
Tout était clair ?
Merci pour vos commentaires !
Section 2. Chapitre 6
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion