Contenido del Curso
Procesamiento Previo de Datos
Procesamiento Previo de Datos
Conjunto de datos: Prueba y Entrenamiento
Después de leer el archivo y preprocesar los datos, hay otra etapa importante: dividir el conjunto de datos en conjuntos de prueba y de entrenamiento. ¿Para qué sirve?
El conjunto de datos se divide en conjuntos de entrenamiento y de prueba para evaluar la capacidad de generalización del modelo a nuevos datos. Al entrenar el modelo en una parte de los datos (conjunto de datos de entrenamiento) y evaluarlo en otra parte (conjunto de datos de prueba), podemos estimar el rendimiento del modelo en datos nuevos y desconocidos.
El objetivo es evaluar el rendimiento de un modelo de aprendizaje automático con datos nuevos: datos que no se han utilizado para entrenar el modelo.
Esta división se realiza mediante el método .train_test_split()
:
Puede controlar el tamaño del conjunto de datos de entrenamiento utilizando el argumento tamaño_prueba
. Para elegir el tamaño de la proporción entre el conjunto de datos de prueba y el de entrenamiento, pruebe distintas combinaciones de 80-20 (muestra de entrenamiento y de prueba, respectivamente), 70-30 y 65-35, y elija la que ofrezca el mejor resultado de rendimiento. La única regla que debe respetarse es que el tamaño del conjunto de datos de prueba debe ser menor que el de entrenamiento.
Si no hay datos suficientes para un modelo de aprendizaje automático (ajuste insuficiente, diferencias significativas entre el rendimiento de entrenamiento y el de prueba, etc.), tiene 2 opciones:
-
Validación cruzada**. Utilice la validación cruzada para evaluar el rendimiento de su modelo en lugar de dividir su conjunto de datos en un conjunto de entrenamiento y otro de prueba;
-
Aprendizaje por transferencia. Consiste en utilizar un modelo previamente entrenado en un conjunto de datos más amplio y adaptarlo al propio conjunto de datos. Esto puede ser útil cuando se trabaja con conjuntos de datos pequeños, ya que puede ayudar a aprovechar los conocimientos aprendidos de un conjunto de datos más grande para mejorar el rendimiento de su modelo.
Swipe to show code editor
Cargue el conjunto de datos iris
y utilice el método train_test_split
(test_size
debe ser 0.2
).
Solución
¡Gracias por tus comentarios!
Conjunto de datos: Prueba y Entrenamiento
Después de leer el archivo y preprocesar los datos, hay otra etapa importante: dividir el conjunto de datos en conjuntos de prueba y de entrenamiento. ¿Para qué sirve?
El conjunto de datos se divide en conjuntos de entrenamiento y de prueba para evaluar la capacidad de generalización del modelo a nuevos datos. Al entrenar el modelo en una parte de los datos (conjunto de datos de entrenamiento) y evaluarlo en otra parte (conjunto de datos de prueba), podemos estimar el rendimiento del modelo en datos nuevos y desconocidos.
El objetivo es evaluar el rendimiento de un modelo de aprendizaje automático con datos nuevos: datos que no se han utilizado para entrenar el modelo.
Esta división se realiza mediante el método .train_test_split()
:
Puede controlar el tamaño del conjunto de datos de entrenamiento utilizando el argumento tamaño_prueba
. Para elegir el tamaño de la proporción entre el conjunto de datos de prueba y el de entrenamiento, pruebe distintas combinaciones de 80-20 (muestra de entrenamiento y de prueba, respectivamente), 70-30 y 65-35, y elija la que ofrezca el mejor resultado de rendimiento. La única regla que debe respetarse es que el tamaño del conjunto de datos de prueba debe ser menor que el de entrenamiento.
Si no hay datos suficientes para un modelo de aprendizaje automático (ajuste insuficiente, diferencias significativas entre el rendimiento de entrenamiento y el de prueba, etc.), tiene 2 opciones:
-
Validación cruzada**. Utilice la validación cruzada para evaluar el rendimiento de su modelo en lugar de dividir su conjunto de datos en un conjunto de entrenamiento y otro de prueba;
-
Aprendizaje por transferencia. Consiste en utilizar un modelo previamente entrenado en un conjunto de datos más amplio y adaptarlo al propio conjunto de datos. Esto puede ser útil cuando se trabaja con conjuntos de datos pequeños, ya que puede ayudar a aprovechar los conocimientos aprendidos de un conjunto de datos más grande para mejorar el rendimiento de su modelo.
Swipe to show code editor
Cargue el conjunto de datos iris
y utilice el método train_test_split
(test_size
debe ser 0.2
).
Solución
¡Gracias por tus comentarios!