Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Desafío: Integrando Todo | Modelado
Introducción al ML con Scikit-learn

bookDesafío: Integrando Todo

En este desafío, aplica el flujo de trabajo completo aprendido en el curso: desde el preprocesamiento de datos hasta el entrenamiento y la evaluación del modelo.

Tarea

Swipe to start coding

Estás trabajando con un conjunto de datos de pingüinos. Tu objetivo es construir un pipeline completo de aprendizaje automático que clasifique las especies de pingüinos utilizando un modelo de K-Nearest Neighbors (KNN). El pipeline debe gestionar la codificación de variables categóricas, valores faltantes, escalado de características y ajuste de parámetros.

  1. Codificar la variable objetivo y utilizando la clase LabelEncoder.
  2. Dividir el conjunto de datos en conjuntos de entrenamiento y prueba usando train_test_split() con test_size=0.33.
  3. Crear un ColumnTransformer llamado ct que aplique un OneHotEncoder a las columnas 'island' y 'sex', dejando las demás columnas sin cambios (remainder='passthrough').
  4. Definir una cuadrícula de parámetros param_grid que contenga los siguientes valores para n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], e incluir 'weights' ('uniform', 'distance') y 'p' (1, 2).
  5. Crear un objeto GridSearchCV utilizando KNeighborsClassifier() como estimador y param_grid como cuadrícula de parámetros.
  6. Construir un pipeline que incluya los siguientes pasos en orden:
  • El ColumnTransformer (ct);
  • Un SimpleImputer con la estrategia configurada en 'most_frequent';
  • Un StandardScaler para el escalado de características;
  • El objeto GridSearchCV como paso final.
  1. Entrenar el pipeline con los datos de entrenamiento (X_train, y_train) utilizando el método .fit().
  2. Evaluar el rendimiento del modelo imprimiendo el puntaje de prueba usando .score(X_test, y_test).
  3. Generar predicciones sobre los datos de prueba e imprimir los primeros 5 nombres de clases decodificados utilizando label_enc.inverse_transform().
  4. Imprimir el mejor estimador encontrado por GridSearchCV usando el atributo .best_estimator_.

Solución

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 10
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

close

Awesome!

Completion rate improved to 3.13

bookDesafío: Integrando Todo

Desliza para mostrar el menú

En este desafío, aplica el flujo de trabajo completo aprendido en el curso: desde el preprocesamiento de datos hasta el entrenamiento y la evaluación del modelo.

Tarea

Swipe to start coding

Estás trabajando con un conjunto de datos de pingüinos. Tu objetivo es construir un pipeline completo de aprendizaje automático que clasifique las especies de pingüinos utilizando un modelo de K-Nearest Neighbors (KNN). El pipeline debe gestionar la codificación de variables categóricas, valores faltantes, escalado de características y ajuste de parámetros.

  1. Codificar la variable objetivo y utilizando la clase LabelEncoder.
  2. Dividir el conjunto de datos en conjuntos de entrenamiento y prueba usando train_test_split() con test_size=0.33.
  3. Crear un ColumnTransformer llamado ct que aplique un OneHotEncoder a las columnas 'island' y 'sex', dejando las demás columnas sin cambios (remainder='passthrough').
  4. Definir una cuadrícula de parámetros param_grid que contenga los siguientes valores para n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], e incluir 'weights' ('uniform', 'distance') y 'p' (1, 2).
  5. Crear un objeto GridSearchCV utilizando KNeighborsClassifier() como estimador y param_grid como cuadrícula de parámetros.
  6. Construir un pipeline que incluya los siguientes pasos en orden:
  • El ColumnTransformer (ct);
  • Un SimpleImputer con la estrategia configurada en 'most_frequent';
  • Un StandardScaler para el escalado de características;
  • El objeto GridSearchCV como paso final.
  1. Entrenar el pipeline con los datos de entrenamiento (X_train, y_train) utilizando el método .fit().
  2. Evaluar el rendimiento del modelo imprimiendo el puntaje de prueba usando .score(X_test, y_test).
  3. Generar predicciones sobre los datos de prueba e imprimir los primeros 5 nombres de clases decodificados utilizando label_enc.inverse_transform().
  4. Imprimir el mejor estimador encontrado por GridSearchCV usando el atributo .best_estimator_.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 10
single

single

some-alt