Aprende Cómo el Ajuste Fino Mejora los Transformers | Aplicando Transformers a Tareas de PLN

Desliza para mostrar el menú

Definición

Ajuste fino es una forma de aprendizaje por transferencia en la que se toma un Transformer preentrenado, ya familiarizado con las estructuras del lenguaje, y se entrena adicionalmente con un conjunto de datos pequeño y etiquetado. Este proceso permite que el modelo adapte su conocimiento general a tareas específicas como text classification, sentiment analysis o named entity recognition.

Flujo de trabajo del ajuste fino

Pasos para adaptar con éxito un modelo preentrenado evitando errores comunes en PLN:

Preparar el conjunto de datos limpiando el texto y convirtiendo las etiquetas a formato numérico;
Tokenizar el texto de entrada utilizando el mismo tokenizador empleado durante el entrenamiento inicial del modelo;
Cargar el modelo preentrenado y reemplazar la capa de salida final por una nueva "cabeza" diseñada para la tarea específica;
Entrenar el modelo con tus datos utilizando una tasa de aprendizaje muy baja para evitar el "olvido catastrófico" del conocimiento original;
Evaluar el rendimiento usando un conjunto de prueba independiente para asegurar que el modelo generaliza bien a nuevos textos.

Comprensión de los parámetros estándar de la arquitectura

Al configurar un modelo Transformer, se utilizan parámetros específicos para equilibrar el rendimiento y la eficiencia computacional:

Hidden size: Representa la dimensionalidad del vector utilizado para representar cada token.
Un tamaño de 768 es el estándar para los modelos "Base" para capturar patrones lingüísticos complejos;
Attention heads: Este número determina cuántas "perspectivas" diferentes utiliza el modelo para analizar las relaciones entre palabras.
- 12 cabezas permiten que el modelo se enfoque simultáneamente en diversas características gramaticales y semánticas;
Intermediate size: Normalmente se establece en cuatro veces el tamaño oculto, en este caso 3072, y determina la amplitud de las capas de la red feed-forward;
Max position embeddings: Este valor define la longitud máxima de la secuencia o el número total de tokens que el modelo puede procesar en una sola entrada, usualmente 512;
Vocab size 30522: Representa el número total de tokens únicos, incluyendo palabras y sub-palabras, que el modelo puede reconocer y procesar;
Learning rate 2e-5: Este valor pequeño es óptimo para el ajuste fino porque evita que el modelo sobrescriba el conocimiento útil adquirido durante el preentrenamiento.

1. ¿Qué representa el parámetro "tamaño oculto" en la arquitectura de un modelo Transformer?

2. ¿Cuál de los siguientes NO es un paso recomendado en el flujo de trabajo de ajuste fino para Transformers?

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 5

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 3. Capítulo 5