Desafío: Pipeline de Preprocesamiento
Swipe to start coding
Se proporciona el conjunto de datos Titanic de la biblioteca seaborn.
La tarea consiste en construir una tubería completa de preprocesamiento que realice todas las transformaciones de datos esenciales previas al aprendizaje automático.
Siga estos pasos:
- Cargar el conjunto de datos utilizando
sns.load_dataset("titanic"). - Manejar los valores faltantes:
- Columnas numéricas → rellenar con la media.
- Columnas categóricas → rellenar con la moda.
- Codificar las características categóricas
sexyembarkedutilizandopd.get_dummies(). - Escalar las columnas numéricas
ageyfareutilizandoStandardScaler. - Crear una nueva característica
family_size = sibsp + parch + 1. - Combinar todas las transformaciones en una función llamada
preprocess_titanic(data)que devuelva el DataFrame procesado final. - Asignar el conjunto de datos procesado a una variable llamada
processed_data.
Imprimir las primeras 5 filas del DataFrame final.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 8.33
Desafío: Pipeline de Preprocesamiento
Desliza para mostrar el menú
Swipe to start coding
Se proporciona el conjunto de datos Titanic de la biblioteca seaborn.
La tarea consiste en construir una tubería completa de preprocesamiento que realice todas las transformaciones de datos esenciales previas al aprendizaje automático.
Siga estos pasos:
- Cargar el conjunto de datos utilizando
sns.load_dataset("titanic"). - Manejar los valores faltantes:
- Columnas numéricas → rellenar con la media.
- Columnas categóricas → rellenar con la moda.
- Codificar las características categóricas
sexyembarkedutilizandopd.get_dummies(). - Escalar las columnas numéricas
ageyfareutilizandoStandardScaler. - Crear una nueva característica
family_size = sibsp + parch + 1. - Combinar todas las transformaciones en una función llamada
preprocess_titanic(data)que devuelva el DataFrame procesado final. - Asignar el conjunto de datos procesado a una variable llamada
processed_data.
Imprimir las primeras 5 filas del DataFrame final.
Solución
¡Gracias por tus comentarios!
single