Qué es un Pipeline
En la sección anterior, se completaron tres pasos de preprocesamiento: imputación, codificación y escalado.
Los pasos de preprocesamiento se aplicaron uno por uno, transformando columnas específicas y fusionándolas nuevamente en el arreglo X
. Este enfoque puede ser engorroso, especialmente con OneHotEncoder
, que modifica la cantidad de columnas.
Otra desventaja es que cualquier dato nuevo utilizado para la predicción debe pasar por la misma secuencia de transformaciones, lo que requiere repetir todo el proceso.
La clase Pipeline
en Scikit-learn simplifica esto al combinar todas las transformaciones en un solo flujo de trabajo, facilitando la aplicación coherente del preprocesamiento tanto a los datos de entrenamiento como a nuevas instancias.
Un Pipeline
funciona como un contenedor para una secuencia de transformadores y, finalmente, un estimador. Cuando se invoca el método .fit_transform()
en un Pipeline
, aplica secuencialmente el método .fit_transform()
de cada transformador a los datos.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Este enfoque simplificado significa que solo es necesario llamar a .fit_transform()
una vez en el conjunto de entrenamiento y posteriormente utilizar el método .transform()
para procesar nuevas instancias.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain how to add a model to the pipeline after preprocessing?
What are the benefits of using a pipeline compared to manual preprocessing?
How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?
Awesome!
Completion rate improved to 3.13
Qué es un Pipeline
Desliza para mostrar el menú
En la sección anterior, se completaron tres pasos de preprocesamiento: imputación, codificación y escalado.
Los pasos de preprocesamiento se aplicaron uno por uno, transformando columnas específicas y fusionándolas nuevamente en el arreglo X
. Este enfoque puede ser engorroso, especialmente con OneHotEncoder
, que modifica la cantidad de columnas.
Otra desventaja es que cualquier dato nuevo utilizado para la predicción debe pasar por la misma secuencia de transformaciones, lo que requiere repetir todo el proceso.
La clase Pipeline
en Scikit-learn simplifica esto al combinar todas las transformaciones en un solo flujo de trabajo, facilitando la aplicación coherente del preprocesamiento tanto a los datos de entrenamiento como a nuevas instancias.
Un Pipeline
funciona como un contenedor para una secuencia de transformadores y, finalmente, un estimador. Cuando se invoca el método .fit_transform()
en un Pipeline
, aplica secuencialmente el método .fit_transform()
de cada transformador a los datos.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Este enfoque simplificado significa que solo es necesario llamar a .fit_transform()
una vez en el conjunto de entrenamiento y posteriormente utilizar el método .transform()
para procesar nuevas instancias.
¡Gracias por tus comentarios!