Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce qu'un Pipeline | Pipelines
Introduction au ML Avec Scikit-Learn

bookQu'est-ce qu'un Pipeline

Dans la section précédente, trois étapes de prétraitement ont été réalisées : imputation, encodage et mise à l'échelle.

Les étapes de prétraitement ont été appliquées une par une, en transformant des colonnes spécifiques puis en les réintégrant dans le tableau X. Cette méthode peut s’avérer fastidieuse, en particulier avec OneHotEncoder, qui modifie le nombre de colonnes.

Un autre inconvénient est que toute nouvelle donnée utilisée pour la prédiction doit subir la même séquence de transformations, ce qui nécessite de répéter l’ensemble du processus.

La classe Pipeline de Scikit-learn simplifie cela en combinant toutes les transformations dans un seul flux de travail, facilitant ainsi l’application cohérente du prétraitement aussi bien sur les données d’entraînement que sur les nouvelles instances.

Un Pipeline sert de conteneur pour une séquence de transformateurs, et éventuellement un estimateur. Lorsque la méthode .fit_transform() est appelée sur un Pipeline, elle applique séquentiellement la méthode .fit_transform() de chaque transformateur aux données.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Cette approche rationalisée signifie qu’il suffit d’appeler .fit_transform() une seule fois sur l’ensemble d’entraînement puis d’utiliser la méthode .transform() pour traiter de nouvelles instances.

question mark

Quel est l'avantage principal de l'utilisation d'un Pipeline dans scikit-learn pour la préparation des données et l'entraînement du modèle ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookQu'est-ce qu'un Pipeline

Glissez pour afficher le menu

Dans la section précédente, trois étapes de prétraitement ont été réalisées : imputation, encodage et mise à l'échelle.

Les étapes de prétraitement ont été appliquées une par une, en transformant des colonnes spécifiques puis en les réintégrant dans le tableau X. Cette méthode peut s’avérer fastidieuse, en particulier avec OneHotEncoder, qui modifie le nombre de colonnes.

Un autre inconvénient est que toute nouvelle donnée utilisée pour la prédiction doit subir la même séquence de transformations, ce qui nécessite de répéter l’ensemble du processus.

La classe Pipeline de Scikit-learn simplifie cela en combinant toutes les transformations dans un seul flux de travail, facilitant ainsi l’application cohérente du prétraitement aussi bien sur les données d’entraînement que sur les nouvelles instances.

Un Pipeline sert de conteneur pour une séquence de transformateurs, et éventuellement un estimateur. Lorsque la méthode .fit_transform() est appelée sur un Pipeline, elle applique séquentiellement la méthode .fit_transform() de chaque transformateur aux données.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Cette approche rationalisée signifie qu’il suffit d’appeler .fit_transform() une seule fois sur l’ensemble d’entraînement puis d’utiliser la méthode .transform() pour traiter de nouvelles instances.

question mark

Quel est l'avantage principal de l'utilisation d'un Pipeline dans scikit-learn pour la préparation des données et l'entraînement du modèle ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1
some-alt