Défi : Création d'un Pipeline
Dans ce défi, regrouper toutes les étapes de prétraitement dans un seul pipeline en utilisant le jeu de données original penguins.csv.
- Supprimer les deux lignes avec des données insuffisantes.
- Construire un pipeline incluant l'encodage, l'imputation et la normalisation.
Il est nécessaire d'encoder uniquement deux colonnes, 'sex' et 'island'. Comme il n'est pas souhaité d'encoder l'ensemble de X, il faut utiliser un ColumnTransformer. Ensuite, appliquer le SimpleImputer et le StandardScaler à l'ensemble de X.
Voici un rappel des fonctions make_column_transformer() et make_pipeline() qui seront utilisées.
Swipe to start coding
Vous disposez d'un DataFrame nommé df contenant des données sur les manchots.
Votre objectif est de construire un pipeline de prétraitement qui gère les valeurs manquantes, encode les colonnes catégorielles et normalise les caractéristiques numériques.
- Importer la fonction
make_pipelinedepuissklearn.pipeline. - Créer un
ColumnTransformernomméctqui applique unOneHotEncoderaux colonnes'sex'et'island'tout en conservant les autres colonnes inchangées (remainder='passthrough'). - Créer un pipeline comprenant les étapes suivantes dans l'ordre :
- Le
ColumnTransformerque vous avez défini (ct) ; - Un
SimpleImputeravec la stratégie définie sur'most_frequent'; - Un
StandardScalerpour la mise à l'échelle des caractéristiques.
- Appliquer le pipeline à la matrice de caractéristiques
Xet stocker les données transformées dans une variable nomméeX_transformed.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Défi : Création d'un Pipeline
Glissez pour afficher le menu
Dans ce défi, regrouper toutes les étapes de prétraitement dans un seul pipeline en utilisant le jeu de données original penguins.csv.
- Supprimer les deux lignes avec des données insuffisantes.
- Construire un pipeline incluant l'encodage, l'imputation et la normalisation.
Il est nécessaire d'encoder uniquement deux colonnes, 'sex' et 'island'. Comme il n'est pas souhaité d'encoder l'ensemble de X, il faut utiliser un ColumnTransformer. Ensuite, appliquer le SimpleImputer et le StandardScaler à l'ensemble de X.
Voici un rappel des fonctions make_column_transformer() et make_pipeline() qui seront utilisées.
Swipe to start coding
Vous disposez d'un DataFrame nommé df contenant des données sur les manchots.
Votre objectif est de construire un pipeline de prétraitement qui gère les valeurs manquantes, encode les colonnes catégorielles et normalise les caractéristiques numériques.
- Importer la fonction
make_pipelinedepuissklearn.pipeline. - Créer un
ColumnTransformernomméctqui applique unOneHotEncoderaux colonnes'sex'et'island'tout en conservant les autres colonnes inchangées (remainder='passthrough'). - Créer un pipeline comprenant les étapes suivantes dans l'ordre :
- Le
ColumnTransformerque vous avez défini (ct) ; - Un
SimpleImputeravec la stratégie définie sur'most_frequent'; - Un
StandardScalerpour la mise à l'échelle des caractéristiques.
- Appliquer le pipeline à la matrice de caractéristiques
Xet stocker les données transformées dans une variable nomméeX_transformed.
Solution
Merci pour vos commentaires !
single