Aprende Cómo Funciona la Autoatención | Fundamentos de Comprensión de Transformers

Desliza para mostrar el menú

Para comprender cómo funciona la autoatención, imagina leer la frase: "The animal didn't cross the street because it was too tired." Cuando encuentras la palabra "it", necesitas entender a qué sustantivo se refiere "it". La autoatención permite que un modelo observe todas las palabras de la oración y decida cuáles son más relevantes para el significado de cada palabra. Esto se logra utilizando queries, keys y values: representaciones matemáticas para cada palabra que ayudan al modelo a calcular a qué palabras debe prestar atención.

Una forma útil de visualizar la autoatención es usar una cuadrícula que muestra cuánto cada palabra en una oración "atiende" a cada otra palabra. También puedes visualizar la autoatención usando un mapa de calor, donde cada fila y columna corresponde a una palabra de la oración. El color de la celda muestra cuánto una palabra "atiende" a otra. En el siguiente mapa de calor, las celdas más oscuras indican una atención más fuerte entre palabras específicas. Esta visualización te ayuda a ver qué palabras conecta el modelo con mayor fuerza mientras procesa la oración:

Observa cómo la palabra "it" tiene un peso de atención fuerte hacia "animal" y "tired", mostrando que el modelo ha aprendido que "it" se refiere a "animal" y está relacionado con "tired". Estas distribuciones de atención se aprenden durante el entrenamiento y permiten que el modelo capture el contexto y las relaciones, sin importar la distancia entre palabras en la oración. Este mecanismo es lo que otorga a los Transformers su capacidad para comprender el significado en lenguaje complejo.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 4