Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Conjunto de datos: Prueba y Entrenamiento | Introducción Breve
Procesamiento Previo de Datos
course content

Contenido del Curso

Procesamiento Previo de Datos

Procesamiento Previo de Datos

1. Introducción Breve
2. Procesamiento de Datos Cuantitativos
3. Procesamiento de Datos Categóricos
4. Procesamiento de Datos de Series Temporales
5. Ingeniería de Características
6. Avanzando a Tareas

book
Conjunto de datos: Prueba y Entrenamiento

Después de leer el archivo y preprocesar los datos, hay otra etapa importante: dividir el conjunto de datos en conjuntos de prueba y de entrenamiento. ¿Para qué sirve?

El conjunto de datos se divide en conjuntos de entrenamiento y de prueba para evaluar la capacidad de generalización del modelo a nuevos datos. Al entrenar el modelo en una parte de los datos (conjunto de datos de entrenamiento) y evaluarlo en otra parte (conjunto de datos de prueba), podemos estimar el rendimiento del modelo en datos nuevos y desconocidos.

El objetivo es evaluar el rendimiento de un modelo de aprendizaje automático con datos nuevos: datos que no se han utilizado para entrenar el modelo.

Esta división se realiza mediante el método .train_test_split():

Puede controlar el tamaño del conjunto de datos de entrenamiento utilizando el argumento tamaño_prueba. Para elegir el tamaño de la proporción entre el conjunto de datos de prueba y el de entrenamiento, pruebe distintas combinaciones de 80-20 (muestra de entrenamiento y de prueba, respectivamente), 70-30 y 65-35, y elija la que ofrezca el mejor resultado de rendimiento. La única regla que debe respetarse es que el tamaño del conjunto de datos de prueba debe ser menor que el de entrenamiento.

Si no hay datos suficientes para un modelo de aprendizaje automático (ajuste insuficiente, diferencias significativas entre el rendimiento de entrenamiento y el de prueba, etc.), tiene 2 opciones:

  • Validación cruzada**. Utilice la validación cruzada para evaluar el rendimiento de su modelo en lugar de dividir su conjunto de datos en un conjunto de entrenamiento y otro de prueba;

  • Aprendizaje por transferencia. Consiste en utilizar un modelo previamente entrenado en un conjunto de datos más amplio y adaptarlo al propio conjunto de datos. Esto puede ser útil cuando se trabaja con conjuntos de datos pequeños, ya que puede ayudar a aprovechar los conocimientos aprendidos de un conjunto de datos más grande para mejorar el rendimiento de su modelo.

Tarea
test

Swipe to show code editor

Cargue el conjunto de datos iris y utilice el método train_test_split (test_size debe ser 0.2).

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3
toggle bottom row

book
Conjunto de datos: Prueba y Entrenamiento

Después de leer el archivo y preprocesar los datos, hay otra etapa importante: dividir el conjunto de datos en conjuntos de prueba y de entrenamiento. ¿Para qué sirve?

El conjunto de datos se divide en conjuntos de entrenamiento y de prueba para evaluar la capacidad de generalización del modelo a nuevos datos. Al entrenar el modelo en una parte de los datos (conjunto de datos de entrenamiento) y evaluarlo en otra parte (conjunto de datos de prueba), podemos estimar el rendimiento del modelo en datos nuevos y desconocidos.

El objetivo es evaluar el rendimiento de un modelo de aprendizaje automático con datos nuevos: datos que no se han utilizado para entrenar el modelo.

Esta división se realiza mediante el método .train_test_split():

Puede controlar el tamaño del conjunto de datos de entrenamiento utilizando el argumento tamaño_prueba. Para elegir el tamaño de la proporción entre el conjunto de datos de prueba y el de entrenamiento, pruebe distintas combinaciones de 80-20 (muestra de entrenamiento y de prueba, respectivamente), 70-30 y 65-35, y elija la que ofrezca el mejor resultado de rendimiento. La única regla que debe respetarse es que el tamaño del conjunto de datos de prueba debe ser menor que el de entrenamiento.

Si no hay datos suficientes para un modelo de aprendizaje automático (ajuste insuficiente, diferencias significativas entre el rendimiento de entrenamiento y el de prueba, etc.), tiene 2 opciones:

  • Validación cruzada**. Utilice la validación cruzada para evaluar el rendimiento de su modelo en lugar de dividir su conjunto de datos en un conjunto de entrenamiento y otro de prueba;

  • Aprendizaje por transferencia. Consiste en utilizar un modelo previamente entrenado en un conjunto de datos más amplio y adaptarlo al propio conjunto de datos. Esto puede ser útil cuando se trabaja con conjuntos de datos pequeños, ya que puede ayudar a aprovechar los conocimientos aprendidos de un conjunto de datos más grande para mejorar el rendimiento de su modelo.

Tarea
test

Swipe to show code editor

Cargue el conjunto de datos iris y utilice el método train_test_split (test_size debe ser 0.2).

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
We're sorry to hear that something went wrong. What happened?
some-alt