Apprendre Qu'est-ce que l'attention multi-tête | Construction des Composants de Transformer

Glissez pour afficher le menu

L'attention multi-tête est un mécanisme puissant au cœur de l'architecture Transformer. Son idée principale est de permettre au modèle de se concentrer simultanément sur différentes parties d'une phrase, capturant ainsi une large gamme de relations entre les mots. Pour y parvenir, le modèle divise l'embedding de chaque mot en plusieurs vecteurs plus petits, appelés « têtes ». Chaque tête effectue son propre calcul d'attention en parallèle. Cela signifie que, tandis qu'une tête peut apprendre à se concentrer sur les voisins immédiats d'un mot, une autre peut prêter attention au début de la phrase, et une autre encore peut suivre des relations sur de plus longues distances.

Cette attention parallèle permet au Transformer de capturer des motifs et des dépendances variés dans les données textuelles. Par exemple, dans une phrase comme "The cat, which was hungry, chased the mouse," une tête peut se concentrer sur le sujet principal et le verbe ("cat" et "chased"), tandis qu'une autre peut se focaliser sur la proposition descriptive ("which was hungry"). En combinant les sorties de toutes les têtes, le modèle construit une compréhension beaucoup plus riche de l'ensemble de la phrase que ce qu'un seul mécanisme d'attention pourrait fournir.

Pour visualiser le fonctionnement de l'attention multi-tête, imaginez une grille où chaque ligne représente un mot de la phrase d'entrée et chaque colonne représente une tête d'attention. Chaque cellule de cette grille indique sur quels mots une tête particulière porte son attention pour un mot donné. Par exemple, si vous avez la phrase :

« She enjoys reading books at night »

Supposons que vous disposiez de trois têtes d'attention. La grille visuelle pourrait ressembler à ceci :

Dans cette grille, chaque tête apprend à se concentrer sur différentes relations. "Tête 1" peut suivre le flux grammatical, "Tête 2" peut se concentrer sur le sujet, et "Tête 3" peut prêter attention à la localisation ou au temps. Cette diversité de focalisation confère à l'attention multi-tête sa force dans la compréhension des structures linguistiques complexes.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 2. Chapitre 1