Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Pipeline de Prétraitement | Ingénierie des Caractéristiques pour l'Apprentissage Automatique
Prétraitement des Données et Ingénierie des Variables

bookDéfi : Pipeline de Prétraitement

Tâche

Swipe to start coding

Vous disposez du jeu de données Titanic provenant de la bibliothèque seaborn. Votre tâche consiste à construire un pipeline de prétraitement complet qui effectue toutes les transformations de données essentielles avant l'apprentissage automatique.

Suivez ces étapes :

  1. Charger le jeu de données avec sns.load_dataset("titanic").
  2. Gérer les valeurs manquantes :
  • Colonnes numériques → remplir avec la moyenne.
  • Colonnes catégorielles → remplir avec la mode.
  1. Encoder les variables catégorielles sex et embarked à l'aide de pd.get_dummies().
  2. Normaliser les colonnes numériques age et fare à l'aide de StandardScaler.
  3. Créer une nouvelle variable family_size = sibsp + parch + 1.
  4. Combiner toutes les transformations dans une fonction appelée preprocess_titanic(data) qui retourne le DataFrame final prétraité.
  5. Assigner le jeu de données prétraité à une variable appelée processed_data.

Afficher les 5 premières lignes du DataFrame final.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

close

Awesome!

Completion rate improved to 8.33

bookDéfi : Pipeline de Prétraitement

Glissez pour afficher le menu

Tâche

Swipe to start coding

Vous disposez du jeu de données Titanic provenant de la bibliothèque seaborn. Votre tâche consiste à construire un pipeline de prétraitement complet qui effectue toutes les transformations de données essentielles avant l'apprentissage automatique.

Suivez ces étapes :

  1. Charger le jeu de données avec sns.load_dataset("titanic").
  2. Gérer les valeurs manquantes :
  • Colonnes numériques → remplir avec la moyenne.
  • Colonnes catégorielles → remplir avec la mode.
  1. Encoder les variables catégorielles sex et embarked à l'aide de pd.get_dummies().
  2. Normaliser les colonnes numériques age et fare à l'aide de StandardScaler.
  3. Créer une nouvelle variable family_size = sibsp + parch + 1.
  4. Combiner toutes les transformations dans une fonction appelée preprocess_titanic(data) qui retourne le DataFrame final prétraité.
  5. Assigner le jeu de données prétraité à une variable appelée processed_data.

Afficher les 5 premières lignes du DataFrame final.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4
single

single

some-alt