Apprendre Pourquoi les RNN et les CNN Sont Insuffisants en TAL | Compréhension des Bases des Transformers

Glissez pour afficher le menu

Lors du traitement du langage naturel, la structure et la signification du langage s'étendent souvent sur de longues portions de texte. Les premiers modèles d'apprentissage profond tels que les réseaux de neurones récurrents (RNNs) et les réseaux de neurones convolutifs (CNNs) ont été adaptés d'autres domaines pour gérer les données séquentielles, mais ces deux approches rencontrent des limitations majeures lorsqu'elles sont appliquées au langage.

Les RNNs traitent les séquences d'entrée un jeton à la fois, en maintenant un état caché mis à jour étape par étape. Cette nature séquentielle rend impossible la parallélisation des calculs à travers les étapes temporelles, ce qui ralentit l'entraînement et l'inférence. De plus, à mesure que la séquence s'allonge, les gradients rétropropagés à travers de nombreuses étapes ont tendance à diminuer exponentiellement – un phénomène connu sous le nom de problème du gradient qui disparaît. Cela rend difficile pour les RNNs d'apprendre des dépendances provenant de parties éloignées d'une séquence, ce qui est particulièrement problématique pour des tâches telles que la classification de documents ou la traduction automatique, où le contexte du début du texte peut être crucial.

Les CNNs, quant à eux, appliquent des filtres de convolution sur des fenêtres de taille fixe de l'entrée. Bien que les CNNs permettent une certaine parallélisation et capturent efficacement les motifs locaux, leurs champs récepteurs locaux signifient que chaque sortie n'est influencée que par une fenêtre de contexte limitée. Pour capturer des dépendances plus longues, il faut empiler de nombreuses couches de convolution ou augmenter la taille des filtres, ce qui devient rapidement inefficace et reste insuffisant pour modéliser les relations entre des mots éloignés dans une phrase.

Ces limitations deviennent particulièrement évidentes dans des tâches réelles de classification de texte ou de prédiction de séquence. Par exemple, en analyse de sentiment, le sentiment d'une phrase peut dépendre d'un mot au début et d'un autre à la fin. Les RNNs peuvent avoir du mal à relier ces mots à cause du problème du gradient qui disparaît, tandis que les CNNs peuvent manquer la connexion à longue distance si elle se situe en dehors de leur champ récepteur.

Les Transformers surmontent ces limitations grâce à un mécanisme d'auto-attention qui permet à chaque jeton de l'entrée de prêter directement attention à tous les autres jetons, quelle que soit leur position dans la séquence. Cela permet au modèle de capturer efficacement les dépendances à longue distance et rend possible la parallélisation des calculs sur toutes les positions de la séquence, accélérant considérablement l'entraînement et l'inférence.

Le tableau suivant résume les principales différences entre les RNNs, les CNNs et les Transformers selon des propriétés importantes pour les tâches de traitement du langage naturel :

Cette comparaison met en évidence pourquoi les Transformers sont devenus l'architecture privilégiée pour les applications NLP modernes.

Quelles sont les principales limitations techniques des RNN et des CNN en NLP, et comment les Transformers les surmontent-ils ?

Sélectionnez toutes les réponses correctes

Les RNN souffrent du problème de gradients qui disparaissent, ce qui rend difficile la capture des dépendances à longue portée.

Les CNN ont des champs récepteurs locaux et peinent à gérer les relations entre des mots éloignés.

Les Transformers utilisent l'auto-attention pour permettre à chaque jeton de prêter attention à tous les autres jetons.

Les Transformers peuvent être parallélisés efficacement sur toutes les positions de la séquence.

Les Transformers souffrent encore du problème de gradients qui disparaissent comme les RNN.

Les RNN ne peuvent pas être parallélisés sur les positions de la séquence, ce qui rend l'entraînement et l'inférence lents.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 2