Comment l'ajustement fin améliore les Transformers
Glissez pour afficher le menu
L'ajustement fin est une forme d'apprentissage par transfert où l'on prend un Transformer pré-entraîné – déjà familier avec les structures linguistiques – et on le forme davantage sur un petit ensemble de données annotées. Ce processus permet au modèle d'adapter ses connaissances générales à des tâches spécifiques telles que la text classification, l'sentiment analysis ou la named entity recognition.
Le flux de travail de l'ajustement fin
Étapes à suivre pour adapter avec succès un modèle pré-entraîné tout en évitant les écueils courants en TAL :
- Préparer l'ensemble de données en nettoyant le texte et en convertissant les étiquettes au format numérique ;
- Tokeniser le texte d'entrée en utilisant le même tokenizer que celui utilisé lors de l'entraînement initial du modèle ;
- Charger le modèle pré-entraîné et remplacer la couche de sortie finale par une nouvelle « tête » conçue pour la tâche spécifique ;
- Entraîner le modèle sur vos données en utilisant un taux d'apprentissage très faible afin d'éviter l'« oubli catastrophique » de ses connaissances d'origine ;
- Évaluer la performance à l'aide d'un ensemble de test séparé pour s'assurer que le modèle généralise bien à de nouveaux textes.
Comprendre les paramètres standards de l'architecture
Lors de la configuration d'un modèle Transformer, certains paramètres sont utilisés pour équilibrer performance et efficacité computationnelle :
- Taille cachée : représente la dimensionnalité du vecteur utilisé pour représenter chaque jeton.
- Une taille de
768est la norme pour les modèles « Base » afin de capturer des motifs linguistiques complexes ; - Têtes d'attention : ce nombre détermine combien de « perspectives » différentes le modèle utilise pour analyser les relations entre les mots.
12têtes permettent au modèle de se concentrer simultanément sur divers aspects grammaticaux et sémantiques ;
- Taille intermédiaire : généralement fixée à quatre fois la taille cachée, dans notre cas
3072, elle détermine l'étendue des couches du réseau feed-forward ; - Max position embeddings : cette valeur définit la longueur maximale de séquence ou le nombre total de jetons que le modèle peut traiter en une seule entrée, généralement
512; - Vocab size
30522: représente le nombre total de jetons uniques, incluant mots et sous-mots, que le modèle peut reconnaître et traiter ; - Learning rate
2e-5: cette petite valeur est optimale pour l'ajustement fin car elle empêche le modèle d'écraser les connaissances utiles acquises lors du pré-entraînement.
1. Que représente le paramètre « taille cachée » dans l’architecture d’un modèle Transformer ?
2. Laquelle des étapes suivantes n’est PAS recommandée dans le processus d’ajustement fin des Transformers ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion