Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Pourquoi les RNN et les CNN Sont Insuffisants en TAL | Compréhension des Bases des Transformers
Transformers pour le Traitement du Langage Naturel

bookPourquoi les RNN et les CNN Sont Insuffisants en TAL

Glissez pour afficher le menu

Lors du traitement du langage naturel, la structure et la signification du langage s'étendent souvent sur de longues portions de texte. Les premiers modèles d'apprentissage profond tels que les réseaux de neurones récurrents (RNNs) et les réseaux de neurones convolutifs (CNNs) ont été adaptés d'autres domaines pour gérer les données séquentielles, mais ces deux approches rencontrent des limitations majeures lorsqu'elles sont appliquées au langage.

Les RNNs traitent les séquences d'entrée un jeton à la fois, en maintenant un état caché mis à jour étape par étape. Cette nature séquentielle rend impossible la parallélisation des calculs à travers les étapes temporelles, ce qui ralentit l'entraînement et l'inférence. De plus, à mesure que la séquence s'allonge, les gradients rétropropagés à travers de nombreuses étapes ont tendance à diminuer exponentiellement – un phénomène connu sous le nom de problème du gradient qui disparaît. Cela rend difficile pour les RNNs d'apprendre des dépendances provenant de parties éloignées d'une séquence, ce qui est particulièrement problématique pour des tâches telles que la classification de documents ou la traduction automatique, où le contexte du début du texte peut être crucial.

Les CNNs, quant à eux, appliquent des filtres de convolution sur des fenêtres de taille fixe de l'entrée. Bien que les CNNs permettent une certaine parallélisation et capturent efficacement les motifs locaux, leurs champs récepteurs locaux signifient que chaque sortie n'est influencée que par une fenêtre de contexte limitée. Pour capturer des dépendances plus longues, il faut empiler de nombreuses couches de convolution ou augmenter la taille des filtres, ce qui devient rapidement inefficace et reste insuffisant pour modéliser les relations entre des mots éloignés dans une phrase.

Ces limitations deviennent particulièrement évidentes dans des tâches réelles de classification de texte ou de prédiction de séquence. Par exemple, en analyse de sentiment, le sentiment d'une phrase peut dépendre d'un mot au début et d'un autre à la fin. Les RNNs peuvent avoir du mal à relier ces mots à cause du problème du gradient qui disparaît, tandis que les CNNs peuvent manquer la connexion à longue distance si elle se situe en dehors de leur champ récepteur.

Les Transformers surmontent ces limitations grâce à un mécanisme d'auto-attention qui permet à chaque jeton de l'entrée de prêter directement attention à tous les autres jetons, quelle que soit leur position dans la séquence. Cela permet au modèle de capturer efficacement les dépendances à longue distance et rend possible la parallélisation des calculs sur toutes les positions de la séquence, accélérant considérablement l'entraînement et l'inférence.

Le tableau suivant résume les principales différences entre les RNNs, les CNNs et les Transformers selon des propriétés importantes pour les tâches de traitement du langage naturel :

Cette comparaison met en évidence pourquoi les Transformers sont devenus l'architecture privilégiée pour les applications NLP modernes.

question mark

Quelles sont les principales limitations techniques des RNN et des CNN en NLP, et comment les Transformers les surmontent-ils ?

Sélectionnez toutes les réponses correctes

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 2
some-alt