Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**L'évolution des modèles NLP**

Les premiers modèles de traitement du langage naturel reposaient sur les réseaux de neurones récurrents (`RNN`) et les réseaux de neurones convolutifs (`CNN`). Alors que les RNN traitent le texte de manière séquentielle, ils perdent souvent le fil du contexte à longue distance. Les `CNN` excellent dans l'identification des motifs locaux mais peinent à saisir le sens global des phrases complexes. Les deux architectures sont limitées par des vitesses d'entraînement lentes et une incapacité à exploiter pleinement le matériel moderne.

**La puissance des Transformers**

L'architecture Transformer a révolutionné le domaine en introduisant l'auto-attention. Ce mécanisme permet de :
- Analyser tous les mots d'une phrase simultanément pour capturer le contexte global ;
- Entraîner les modèles plus efficacement grâce au traitement parallèle ;
- Atteindre une précision supérieure en traduction, en résumé et en génération de texte ;
- Acquérir les compétences nécessaires pour exploiter ces modèles modernes, qui offrent un contexte plus riche et des résultats plus précis pour vos applications réelles.

Introduction de l'architecture Transformer originale, remplaçant les RNN/CNN par l'**auto-attention** pour la modélisation de séquences. Permet un entraînement en parallèle et une meilleure gestion du contexte.

2017 : Attention is All You Need

Démonstration de l'efficacité de la **pré-formation** sur de grands corpus de texte pour obtenir des représentations linguistiques universelles. L'**attention bidirectionnelle** de BERT a amélioré les performances sur de nombreuses tâches NLP.

2018 : BERT (Bidirectional Encoder Representations from Transformers)

Mise en évidence de la puissance des grands **modèles de langage génératifs** entraînés sur d'immenses volumes de données. Les modèles GPT peuvent générer un texte cohérent et pertinent selon le contexte.

2018 - 2019 : GPT (Generative Pretrained Transformer)

Extension des Transformers pour capturer des dépendances à plus long terme grâce à l'introduction de la **récurrence au niveau des segments**, améliorant les performances sur les longs documents.

2019 : Transformer-XL

Unification de nombreuses tâches NLP sous un cadre unique en traitant toutes les tâches comme des **problèmes texte-à-texte**, simplifiant davantage l'entraînement et le déploiement des modèles.

2020 : T5 (Text-to-Text Transfer Transformer)

Chaque étape clé a repoussé les limites de ce qu'il est possible de réaliser avec les données textuelles, rendant les modèles plus puissants, flexibles et adaptés aux défis NLP du monde réel.

Impact des avancées des Transformers

Laquelle des affirmations suivantes explique le mieux pourquoi l'architecture Transformer a remplacé les RNN et les CNN dans le NLP moderne ?

Maîtriser les bases des modèles Transformer en Python pour le traitement du langage naturel. Découvrir comment construire, interpréter et appliquer les Transformers à des données textuelles réelles, en mettant l'accent sur les compétences pratiques et la compréhension des modèles.

Explorez les éléments essentiels des modèles Transformer, y compris l'auto-attention, l'encodage positionnel et l'architecture. Acquérez une base conceptuelle et pratique solide pour des applications avancées de NLP.

Maîtriser les compétences nécessaires pour construire les blocs fondamentaux des Transformers, y compris l'attention multi-tête, les couches feed-forward et la normalisation, pour un traitement efficace du texte.

Découvrez comment utiliser les Transformers pour des tâches NLP réelles, visualiser l'attention et interpréter les prédictions du modèle pour une meilleure compréhension du texte.

Comment Les Modèles NLP Ont Évolué