Apprendre Comment l'ajustement fin améliore les Transformers | Application des Transformers aux Tâches NLP

Glissez pour afficher le menu

Définition

L'ajustement fin est une forme d'apprentissage par transfert où l'on prend un Transformer pré-entraîné – déjà familier avec les structures linguistiques – et on le forme davantage sur un petit ensemble de données annotées. Ce processus permet au modèle d'adapter ses connaissances générales à des tâches spécifiques telles que la text classification, l'sentiment analysis ou la named entity recognition.

Le flux de travail de l'ajustement fin

Étapes à suivre pour adapter avec succès un modèle pré-entraîné tout en évitant les écueils courants en TAL :

Préparer l'ensemble de données en nettoyant le texte et en convertissant les étiquettes au format numérique ;
Tokeniser le texte d'entrée en utilisant le même tokenizer que celui utilisé lors de l'entraînement initial du modèle ;
Charger le modèle pré-entraîné et remplacer la couche de sortie finale par une nouvelle « tête » conçue pour la tâche spécifique ;
Entraîner le modèle sur vos données en utilisant un taux d'apprentissage très faible afin d'éviter l'« oubli catastrophique » de ses connaissances d'origine ;
Évaluer la performance à l'aide d'un ensemble de test séparé pour s'assurer que le modèle généralise bien à de nouveaux textes.

Comprendre les paramètres standards de l'architecture

Lors de la configuration d'un modèle Transformer, certains paramètres sont utilisés pour équilibrer performance et efficacité computationnelle :

Taille cachée : représente la dimensionnalité du vecteur utilisé pour représenter chaque jeton.
Une taille de 768 est la norme pour les modèles « Base » afin de capturer des motifs linguistiques complexes ;
Têtes d'attention : ce nombre détermine combien de « perspectives » différentes le modèle utilise pour analyser les relations entre les mots.
- 12 têtes permettent au modèle de se concentrer simultanément sur divers aspects grammaticaux et sémantiques ;
Taille intermédiaire : généralement fixée à quatre fois la taille cachée, dans notre cas 3072, elle détermine l'étendue des couches du réseau feed-forward ;
Max position embeddings : cette valeur définit la longueur maximale de séquence ou le nombre total de jetons que le modèle peut traiter en une seule entrée, généralement 512 ;
Vocab size 30522 : représente le nombre total de jetons uniques, incluant mots et sous-mots, que le modèle peut reconnaître et traiter ;
Learning rate 2e-5 : cette petite valeur est optimale pour l'ajustement fin car elle empêche le modèle d'écraser les connaissances utiles acquises lors du pré-entraînement.

1. Que représente le paramètre « taille cachée » dans l’architecture d’un modèle Transformer ?

2. Laquelle des étapes suivantes n’est PAS recommandée dans le processus d’ajustement fin des Transformers ?

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 5

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 3. Chapitre 5