Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Comment l'ajustement fin améliore les Transformers | Application des Transformers aux Tâches NLP
Transformers pour le Traitement du Langage Naturel

bookComment l'ajustement fin améliore les Transformers

Glissez pour afficher le menu

Note
Définition

L'ajustement fin est une forme d'apprentissage par transfert où l'on prend un Transformer pré-entraîné – déjà familier avec les structures linguistiques – et on le forme davantage sur un petit ensemble de données annotées. Ce processus permet au modèle d'adapter ses connaissances générales à des tâches spécifiques telles que la text classification, l'sentiment analysis ou la named entity recognition.

Le flux de travail de l'ajustement fin

Étapes à suivre pour adapter avec succès un modèle pré-entraîné tout en évitant les écueils courants en TAL :

  • Préparer l'ensemble de données en nettoyant le texte et en convertissant les étiquettes au format numérique ;
  • Tokeniser le texte d'entrée en utilisant le même tokenizer que celui utilisé lors de l'entraînement initial du modèle ;
  • Charger le modèle pré-entraîné et remplacer la couche de sortie finale par une nouvelle « tête » conçue pour la tâche spécifique ;
  • Entraîner le modèle sur vos données en utilisant un taux d'apprentissage très faible afin d'éviter l'« oubli catastrophique » de ses connaissances d'origine ;
  • Évaluer la performance à l'aide d'un ensemble de test séparé pour s'assurer que le modèle généralise bien à de nouveaux textes.

Comprendre les paramètres standards de l'architecture

Lors de la configuration d'un modèle Transformer, certains paramètres sont utilisés pour équilibrer performance et efficacité computationnelle :

  • Taille cachée : représente la dimensionnalité du vecteur utilisé pour représenter chaque jeton.
  • Une taille de 768 est la norme pour les modèles « Base » afin de capturer des motifs linguistiques complexes ;
  • Têtes d'attention : ce nombre détermine combien de « perspectives » différentes le modèle utilise pour analyser les relations entre les mots.
    • 12 têtes permettent au modèle de se concentrer simultanément sur divers aspects grammaticaux et sémantiques ;
  • Taille intermédiaire : généralement fixée à quatre fois la taille cachée, dans notre cas 3072, elle détermine l'étendue des couches du réseau feed-forward ;
  • Max position embeddings : cette valeur définit la longueur maximale de séquence ou le nombre total de jetons que le modèle peut traiter en une seule entrée, généralement 512 ;
  • Vocab size 30522 : représente le nombre total de jetons uniques, incluant mots et sous-mots, que le modèle peut reconnaître et traiter ;
  • Learning rate 2e-5 : cette petite valeur est optimale pour l'ajustement fin car elle empêche le modèle d'écraser les connaissances utiles acquises lors du pré-entraînement.

1. Que représente le paramètre « taille cachée » dans l’architecture d’un modèle Transformer ?

2. Laquelle des étapes suivantes n’est PAS recommandée dans le processus d’ajustement fin des Transformers ?

question mark

Que représente le paramètre « taille cachée » dans l’architecture d’un modèle Transformer ?

Sélectionnez la réponse correcte

question mark

Laquelle des étapes suivantes n’est PAS recommandée dans le processus d’ajustement fin des Transformers ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 5

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 3. Chapitre 5
some-alt