Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Resumen de Modelado | Modelado
Introducción al Aprendizaje Automático con Python

bookResumen de Modelado

Ahora sabes cómo construir un modelo, utilizar pipelines y ajustar hiperparámetros. También aprendiste dos métodos de evaluación: división de entrenamiento-prueba y validación cruzada. El siguiente paso es combinar la evaluación y el ajuste utilizando GridSearchCV o RandomizedSearchCV.

Note
Nota

Dado que nuestro conjunto de datos es pequeño, utilizaremos GridSearchCV, pero todo lo mencionado a continuación también se aplica a RandomizedSearchCV.

Dado que la validación cruzada es más estable que una sola división entrenamiento-prueba, el objetivo es lograr la mayor puntuación de validación cruzada. GridSearchCV busca entre los hiperparámetros y encuentra aquellos que maximizan esta puntuación. La mejor puntuación se almacena en .best_score_.

Note
Nota

Los hiperparámetros que funcionan mejor para un conjunto de datos pueden no generalizarse cuando llegan nuevos datos. Por lo tanto, .best_score_ puede ser mayor que el rendimiento del modelo en datos completamente no vistos.

Un flujo de trabajo común: dividir en conjuntos de entrenamiento y prueba; ejecutar validación cruzada en el conjunto de entrenamiento para ajustar el modelo; luego evaluar el modelo optimizado en el conjunto de prueba para medir el rendimiento en el mundo real.

En resumen:

  1. Preprocesar los datos;
  2. Dividir en conjuntos de entrenamiento y prueba;
  3. Utilizar validación cruzada en el conjunto de entrenamiento para encontrar la mejor configuración;
  4. Evaluar en el conjunto de prueba.
Note
Estudiar más

El tercer paso generalmente implica probar múltiples algoritmos y ajustar sus hiperparámetros para identificar la mejor opción. Por simplicidad, en este curso solo se utilizó un único algoritmo.

La validación cruzada no siempre es la mejor opción. Para conjuntos de datos grandes, calcular los puntajes de validación cruzada resulta costoso, mientras que una división en entrenamiento y prueba se vuelve más estable gracias al gran conjunto de prueba.

Los conjuntos de datos grandes suelen dividirse en entrenamiento, validación y prueba. Los hiperparámetros se eligen en función del rendimiento en el conjunto de validación. Finalmente, el modelo seleccionado se evalúa en el conjunto de prueba para verificar su capacidad de generalización.

El conjunto de datos de pingüinos es pequeño, con solo 342 instancias. Debido a este tamaño limitado, la puntuación de validación cruzada se utilizará para la evaluación en el próximo capítulo.

question mark

¿Por qué la validación cruzada es especialmente valiosa para el ajuste de hiperparámetros en conjuntos de datos pequeños, en comparación con conjuntos de datos grandes donde se podrían preferir divisiones de entrenamiento y prueba?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 9

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

What is the difference between GridSearchCV and RandomizedSearchCV?

Can you explain how cross-validation works in more detail?

Why is cross-validation preferred for small datasets?

Awesome!

Completion rate improved to 3.13

bookResumen de Modelado

Desliza para mostrar el menú

Ahora sabes cómo construir un modelo, utilizar pipelines y ajustar hiperparámetros. También aprendiste dos métodos de evaluación: división de entrenamiento-prueba y validación cruzada. El siguiente paso es combinar la evaluación y el ajuste utilizando GridSearchCV o RandomizedSearchCV.

Note
Nota

Dado que nuestro conjunto de datos es pequeño, utilizaremos GridSearchCV, pero todo lo mencionado a continuación también se aplica a RandomizedSearchCV.

Dado que la validación cruzada es más estable que una sola división entrenamiento-prueba, el objetivo es lograr la mayor puntuación de validación cruzada. GridSearchCV busca entre los hiperparámetros y encuentra aquellos que maximizan esta puntuación. La mejor puntuación se almacena en .best_score_.

Note
Nota

Los hiperparámetros que funcionan mejor para un conjunto de datos pueden no generalizarse cuando llegan nuevos datos. Por lo tanto, .best_score_ puede ser mayor que el rendimiento del modelo en datos completamente no vistos.

Un flujo de trabajo común: dividir en conjuntos de entrenamiento y prueba; ejecutar validación cruzada en el conjunto de entrenamiento para ajustar el modelo; luego evaluar el modelo optimizado en el conjunto de prueba para medir el rendimiento en el mundo real.

En resumen:

  1. Preprocesar los datos;
  2. Dividir en conjuntos de entrenamiento y prueba;
  3. Utilizar validación cruzada en el conjunto de entrenamiento para encontrar la mejor configuración;
  4. Evaluar en el conjunto de prueba.
Note
Estudiar más

El tercer paso generalmente implica probar múltiples algoritmos y ajustar sus hiperparámetros para identificar la mejor opción. Por simplicidad, en este curso solo se utilizó un único algoritmo.

La validación cruzada no siempre es la mejor opción. Para conjuntos de datos grandes, calcular los puntajes de validación cruzada resulta costoso, mientras que una división en entrenamiento y prueba se vuelve más estable gracias al gran conjunto de prueba.

Los conjuntos de datos grandes suelen dividirse en entrenamiento, validación y prueba. Los hiperparámetros se eligen en función del rendimiento en el conjunto de validación. Finalmente, el modelo seleccionado se evalúa en el conjunto de prueba para verificar su capacidad de generalización.

El conjunto de datos de pingüinos es pequeño, con solo 342 instancias. Debido a este tamaño limitado, la puntuación de validación cruzada se utilizará para la evaluación en el próximo capítulo.

question mark

¿Por qué la validación cruzada es especialmente valiosa para el ajuste de hiperparámetros en conjuntos de datos pequeños, en comparación con conjuntos de datos grandes donde se podrían preferir divisiones de entrenamiento y prueba?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 9
some-alt