Apprendre What Makes Up a Transformer Architecture | Compréhension des Bases des Transformers

Glissez pour afficher le menu

Un Transformer se compose de deux parties principales : l’encoder et le decoder. L’encodeur lit et résume le texte d’entrée, en capturant le sens et le contexte de chaque mot par rapport aux autres. Le décodeur utilise ensuite ce résumé, ainsi que sa propre attention portée aux mots générés précédemment, pour produire la sortie finale – comme une traduction ou un résumé. Cette conception permet aux Transformers de traiter une large gamme de tâches de traitement du langage naturel de manière plus efficace et précise que les approches traditionnelles.

Définition

Encodeur : traite les séquences d’entrée en résumant leur signification et en capturant les relations entre les mots à l’aide de mécanismes d’auto-attention et de couches feed-forward.

Décodeur : génère les séquences de sortie, telles que des traductions ou des prédictions, en portant attention à la fois aux sorties générées précédemment et aux représentations de l’encodeur.

Le mécanisme d’attention est un élément central de l’architecture Transformer qui permet au modèle de déterminer quels mots d’une séquence sont les plus importants lors du traitement ou de la génération du langage. On peut considérer l’attention comme une façon pour le modèle de « se concentrer » sur certains mots lors de la lecture d’une phrase, tout comme on accorde une attention particulière à des mots clés pour comprendre une instruction complexe.

Par exemple, dans la phrase « Le chat s’est assis sur le tapis parce qu’il était fatigué », l’attention aide le modèle à comprendre que « il » fait référence à « le chat » en analysant les relations entre les mots. Ce processus fonctionne indépendamment de la position des mots, ce qui rend l’attention essentielle à la compréhension du langage par les Transformers.

Ci-dessous, un schéma simplifié de l’architecture globale du Transformer, mettant en évidence le flux d’information entre l’encodeur, le décodeur et les mécanismes d’attention :

On observe que le texte d’entrée est d’abord transformé en embeddings et encodé positionnellement avant de passer par la pile d’encodeurs. La sortie de l’encodeur est ensuite transmise à la pile de décodeurs, qui utilise à la fois sa propre auto-attention et l’attention encodeur-décodeur pour générer la sortie finale.

Les Transformers ont introduit plusieurs innovations qui alimentent les modèles NLP les plus avancés aujourd’hui :

Auto-attention : capture les relations entre tous les mots d’une séquence, permettant au modèle de comprendre le contexte indépendamment de l’ordre des mots ;
Traitement parallèle : traite chaque mot simultanément, ce qui accélère considérablement l’entraînement et l’inférence ;
Absence de récurrence ou de convolution : évite les limitations des RNN et CNN, pour une conception plus simple et plus évolutive ;
Encodage positionnel : fournit au modèle une notion de l’ordre des mots, lui permettant de comprendre la structure des séquences.

Ces caractéristiques font des Transformers la base des applications de pointe telles que la traduction automatique et la résumé de texte.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 3