single
Challenge: Evaluación de Modelos Transformer
Desliza para mostrar el menú
Métricas de evaluación para tareas de PLN
Al finalizar el entrenamiento de un modelo Transformer para PLN, es necesario medir qué tan bien se desempeña en la tarea.
Para calcular las métricas, será necesario calcular TP, TN, FN y FP.
TP (True Positive): número de muestras positivas correctamente predichas como positivas.
TN (True Negative): número de muestras negativas correctamente predichas como negativas.
FP (False Positive): número de muestras negativas incorrectamente predichas como positivas.
FN (False Negative): número de muestras positivas incorrectamente predichas como negativas.
- Precisión es más adecuada para conjuntos de datos equilibrados donde cada clase tiene aproximadamente la misma cantidad de muestras;
- Precisión y Recall cobran mayor importancia cuando se trabaja con datos desbalanceados, como en la detección de spam, donde omitir un mensaje de spam (falso negativo) o marcar incorrectamente un mensaje normal (falso positivo) tiene diferentes costos;
- La puntuación F1 combina tanto la precisión como el recall en un solo valor, facilitando la comparación de modelos en tareas desbalanceadas;
- BLEU y ROUGE se utilizan para tareas donde la salida es una secuencia, como traducción o resumen;
- Perplejidad es más útil para modelos de lenguaje que predicen la siguiente palabra en una secuencia.
Interpretación de los resultados de evaluación y mejora del rendimiento del modelo
Una vez que se han calculado las métricas de evaluación para el modelo Transformer, es importante comprender el significado de los resultados y cómo utilizarlos para mejorar el modelo. Una alta precisión generalmente indica que el modelo realiza predicciones correctas, pero si los datos están desbalanceados, es necesario revisar la precisión, el recall y la puntuación F1. Por ejemplo, un modelo con alta precisión pero bajo recall es conservador: solo realiza predicciones positivas cuando está muy seguro, pero omite muchos verdaderos positivos. Si el recall es alto pero la precisión es baja, el modelo predice más positivos pero incluye más falsas alarmas.
Si el rendimiento del modelo no es satisfactorio, considere las siguientes formas de mejorarlo:
- Recolectar más datos etiquetados, especialmente para clases poco representadas;
- Probar diferentes pasos de preprocesamiento, como eliminar ruido o equilibrar las clases;
- Ajustar hiperparámetros, como la tasa de aprendizaje, el tamaño del lote o el número de épocas;
- Modificar la arquitectura del modelo, como agregar cabezas de atención o capas;
- Utilizar técnicas de aumento de datos para incrementar la diversidad del conjunto de datos;
- Analizar los errores para identificar si el modelo tiene dificultades con ciertos tipos de entradas.
Seleccionando cuidadosamente la métrica adecuada e interpretando los resultados, será posible diagnosticar las debilidades del modelo y enfocar los esfuerzos de mejora donde más se necesiten.
Desliza para comenzar a programar
Utiliza tus conocimientos de los capítulos anteriores para completar un pequeño escenario de evaluación para un clasificador de texto basado en Transformers.
- Dado un modelo que predice si una reseña de película es positiva o negativa, tienes los siguientes resultados en un conjunto de prueba de 10 muestras:
- 6 reseñas son realmente positivas, 4 son realmente negativas;
- El modelo predice: 5 positivas (4 correctas), 5 negativas (3 correctas).
- Calcula la exactitud, precisión, exhaustividad y puntuación F1 para la clase positiva;
- Ingresa tus respuestas como decimales redondeados a dos cifras.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla