Aprende Qué Compone una Arquitectura Transformer | Fundamentos de Comprensión de Transformers

Desliza para mostrar el menú

Un Transformer se compone de dos partes principales: el encoder y el decoder. El encoder lee y resume el texto de entrada, capturando el significado y el contexto de cada palabra en relación con las demás. El decoder utiliza este resumen, junto con su propia atención a las palabras generadas previamente, para producir la salida final, como una traducción o un resumen. Este diseño permite que los Transformers aborden una amplia variedad de tareas de PLN de manera más eficiente y precisa que los enfoques tradicionales.

Definición

Encoder: procesa secuencias de entrada resumiendo su significado y capturando las relaciones entre palabras mediante capas de self-attention y feed-forward.

Decoder: genera secuencias de salida, como traducciones o predicciones, atendiendo tanto a las salidas generadas previamente como a las representaciones del encoder.

El mecanismo de atención es una parte fundamental de la arquitectura Transformer que permite al modelo decidir qué palabras en una secuencia son más importantes al procesar o generar lenguaje. Se puede considerar la atención como una forma en que el modelo "se enfoca" en ciertas palabras al leer una oración, de manera similar a cómo se presta más atención a palabras clave al intentar comprender una instrucción compleja.

Por ejemplo, en la oración "The cat sat on the mat because it was tired", la atención ayuda al modelo a determinar que "it" se refiere a "the cat" al analizar las relaciones entre palabras. Este proceso funciona independientemente de la posición de las palabras, lo que hace que la atención sea central para la comprensión del lenguaje por parte de los Transformers.

A continuación se muestra un diagrama simplificado de la arquitectura general del Transformer, destacando el flujo de información entre el codificador, el decodificador y los mecanismos de atención:

Se puede observar cómo el texto de entrada primero se convierte en incrustaciones y se codifica posicionalmente antes de pasar por la pila de codificadores. La salida del codificador luego se introduce en la pila de decodificadores, que utiliza tanto su propia auto-atención como la atención codificador-decodificador para generar la salida final.

Los Transformers introdujeron varias innovaciones que impulsan los modelos de PLN más avanzados en la actualidad:

Auto-atención: captura las relaciones entre todas las palabras de una secuencia, permitiendo que el modelo comprenda el contexto independientemente del orden de las palabras;
Procesamiento en paralelo: procesa todas las palabras al mismo tiempo, acelerando el entrenamiento y la inferencia;
Sin recurrencia ni convolución: evita las limitaciones de las RNN y CNN, lo que resulta en un diseño más simple y escalable;
Codificación posicional: proporciona al modelo una noción del orden de las palabras, permitiéndole comprender la estructura de la secuencia.

Estas características convierten a los Transformers en la base de aplicaciones de vanguardia como la traducción automática y la resumén de texto.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 3