Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Qué es un Pipeline | Pipelines
Introducción al ML con Scikit-learn

bookQué es un Pipeline

En la sección anterior, se completaron tres pasos de preprocesamiento: imputación, codificación y escalado.

Los pasos de preprocesamiento se aplicaron uno por uno, transformando columnas específicas y fusionándolas nuevamente en el arreglo X. Este enfoque puede ser engorroso, especialmente con OneHotEncoder, que modifica la cantidad de columnas.

Otra desventaja es que cualquier dato nuevo utilizado para la predicción debe pasar por la misma secuencia de transformaciones, lo que requiere repetir todo el proceso.

La clase Pipeline en Scikit-learn simplifica esto al combinar todas las transformaciones en un solo flujo de trabajo, facilitando la aplicación coherente del preprocesamiento tanto a los datos de entrenamiento como a nuevas instancias.

Un Pipeline funciona como un contenedor para una secuencia de transformadores y, finalmente, un estimador. Cuando se invoca el método .fit_transform() en un Pipeline, aplica secuencialmente el método .fit_transform() de cada transformador a los datos.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Este enfoque simplificado significa que solo es necesario llamar a .fit_transform() una vez en el conjunto de entrenamiento y posteriormente utilizar el método .transform() para procesar nuevas instancias.

question mark

¿Cuál es la principal ventaja de utilizar un Pipeline en scikit-learn para el preprocesamiento de datos y el entrenamiento de modelos?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookQué es un Pipeline

Desliza para mostrar el menú

En la sección anterior, se completaron tres pasos de preprocesamiento: imputación, codificación y escalado.

Los pasos de preprocesamiento se aplicaron uno por uno, transformando columnas específicas y fusionándolas nuevamente en el arreglo X. Este enfoque puede ser engorroso, especialmente con OneHotEncoder, que modifica la cantidad de columnas.

Otra desventaja es que cualquier dato nuevo utilizado para la predicción debe pasar por la misma secuencia de transformaciones, lo que requiere repetir todo el proceso.

La clase Pipeline en Scikit-learn simplifica esto al combinar todas las transformaciones en un solo flujo de trabajo, facilitando la aplicación coherente del preprocesamiento tanto a los datos de entrenamiento como a nuevas instancias.

Un Pipeline funciona como un contenedor para una secuencia de transformadores y, finalmente, un estimador. Cuando se invoca el método .fit_transform() en un Pipeline, aplica secuencialmente el método .fit_transform() de cada transformador a los datos.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Este enfoque simplificado significa que solo es necesario llamar a .fit_transform() una vez en el conjunto de entrenamiento y posteriormente utilizar el método .transform() para procesar nuevas instancias.

question mark

¿Cuál es la principal ventaja de utilizar un Pipeline en scikit-learn para el preprocesamiento de datos y el entrenamiento de modelos?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1
some-alt