Desafío: Creación de un Pipeline
En este desafío, combinar todos los pasos de preprocesamiento en una única tubería utilizando el conjunto de datos original penguins.csv.
- Eliminar las dos filas con datos insuficientes.
- Construir una tubería que incluya codificación, imputación y escalado.
Solo es necesario codificar dos columnas, 'sex' e 'island'. Como no se desea codificar todo X, se debe utilizar un ColumnTransformer. Posteriormente, aplicar el SimpleImputer y el StandardScaler a todo X.
A continuación, un recordatorio de las funciones make_column_transformer() y make_pipeline() que se utilizarán.
Swipe to start coding
Se proporciona un DataFrame llamado df que contiene datos de pingüinos.
El objetivo es construir un pipeline de preprocesamiento que gestione los valores faltantes, codifique las columnas categóricas y escale las características numéricas.
- Importar la función
make_pipelinedesklearn.pipeline. - Crear un
ColumnTransformerllamadoctque aplique unOneHotEncodera las columnas'sex'e'island', manteniendo todas las demás columnas sin cambios (remainder='passthrough'). - Crear un pipeline que incluya los siguientes pasos en orden:
- El
ColumnTransformerdefinido (ct); - Un
SimpleImputercon la estrategia configurada en'most_frequent'; - Un
StandardScalerpara la normalización de características.
- Aplicar el pipeline a la matriz de características
Xy almacenar los datos transformados en una variable llamadaX_transformed.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you show me how to build the pipeline step by step?
What should I use for encoding the 'sex' and 'island' columns?
How do I remove the two rows with insufficient data?
Awesome!
Completion rate improved to 3.13
Desafío: Creación de un Pipeline
Desliza para mostrar el menú
En este desafío, combinar todos los pasos de preprocesamiento en una única tubería utilizando el conjunto de datos original penguins.csv.
- Eliminar las dos filas con datos insuficientes.
- Construir una tubería que incluya codificación, imputación y escalado.
Solo es necesario codificar dos columnas, 'sex' e 'island'. Como no se desea codificar todo X, se debe utilizar un ColumnTransformer. Posteriormente, aplicar el SimpleImputer y el StandardScaler a todo X.
A continuación, un recordatorio de las funciones make_column_transformer() y make_pipeline() que se utilizarán.
Swipe to start coding
Se proporciona un DataFrame llamado df que contiene datos de pingüinos.
El objetivo es construir un pipeline de preprocesamiento que gestione los valores faltantes, codifique las columnas categóricas y escale las características numéricas.
- Importar la función
make_pipelinedesklearn.pipeline. - Crear un
ColumnTransformerllamadoctque aplique unOneHotEncodera las columnas'sex'e'island', manteniendo todas las demás columnas sin cambios (remainder='passthrough'). - Crear un pipeline que incluya los siguientes pasos en orden:
- El
ColumnTransformerdefinido (ct); - Un
SimpleImputercon la estrategia configurada en'most_frequent'; - Un
StandardScalerpara la normalización de características.
- Aplicar el pipeline a la matriz de características
Xy almacenar los datos transformados en una variable llamadaX_transformed.
Solución
¡Gracias por tus comentarios!
single