How Self-Attention Works
Glissez pour afficher le menu
Pour comprendre comment fonctionne l'auto-attention, imaginez lire la phrase : « The animal didn't cross the street because it was too tired. » Lorsque vous rencontrez le mot « it », il est nécessaire de déterminer à quel nom « it » fait référence. L'auto-attention permet à un modèle d'examiner tous les mots de la phrase et de décider lesquels sont les plus pertinents pour le sens de chaque mot. Cela est réalisé à l'aide de requêtes (queries), clés (keys) et valeurs (values) – des représentations mathématiques pour chaque mot qui aident le modèle à calculer sur quels mots porter son attention.
Une façon utile de visualiser l'auto-attention consiste à utiliser une grille qui montre dans quelle mesure chaque mot d'une phrase « prête attention » à chaque autre mot. Il est également possible de visualiser l'auto-attention à l'aide d'une carte thermique, où chaque ligne et chaque colonne correspondent à un mot de la phrase. La couleur de la cellule indique dans quelle mesure un mot « prête attention » à un autre. Dans la carte thermique ci-dessous, les cellules plus foncées indiquent une attention plus forte entre certains mots. Cette visualisation permet de voir quels mots le modèle relie le plus fortement lors du traitement de la phrase :
Remarquez que le mot « it » présente un poids d'attention élevé vers « animal » et « tired », montrant que le modèle a appris que « it » fait référence à « animal » et est lié à « tired ». Ces distributions d'attention sont apprises lors de l'entraînement et permettent au modèle de saisir le contexte et les relations, quelle que soit la distance entre les mots dans la phrase. Ce mécanisme confère aux Transformers leur capacité à comprendre le sens dans un langage complexe.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion