Challenge : Évaluer les Modèles Transformer

Métriques d'évaluation pour les tâches de NLP

Après avoir entraîné un modèle Transformer pour le traitement du langage naturel, il est nécessaire de mesurer ses performances sur la tâche ciblée. Pour calculer les métriques, il faut déterminer TP, TN, FN et FP.

Définition

TP (True Positive) : nombre d'échantillons positifs correctement prédits comme positifs.
TN (True Negative) : nombre d'échantillons négatifs correctement prédits comme négatifs.
FP (False Positive) : nombre d'échantillons négatifs incorrectement prédits comme positifs.
FN (False Negative) : nombre d'échantillons positifs incorrectement prédits comme négatifs.

Précision est préférable pour les ensembles de données équilibrés où chaque classe possède à peu près le même nombre d'échantillons ;
Précision et rappel deviennent plus importants lorsque les données sont déséquilibrées, comme dans la détection de spam, où manquer un message indésirable (faux négatif) ou signaler à tort un message normal (faux positif) a des coûts différents ;
Le score F1 combine à la fois la précision et le rappel en un seul chiffre, ce qui facilite la comparaison des modèles sur des tâches déséquilibrées ;
BLEU et ROUGE sont utilisés pour les tâches où la sortie est une séquence, comme la traduction ou le résumé ;
Perplexité est surtout utile pour les modèles de langage qui prédisent le mot suivant dans une séquence.

Interprétation des résultats d'évaluation et amélioration des performances du modèle

Une fois que vous avez calculé les métriques d'évaluation pour votre modèle Transformer, il est important de comprendre la signification des résultats et comment les utiliser pour améliorer votre modèle. Une précision élevée indique généralement que votre modèle effectue des prédictions correctes, mais si vos données sont déséquilibrées, examinez la précision, le rappel et le score F1. Par exemple, un modèle avec une précision élevée mais un rappel faible est conservateur : il ne fait des prédictions positives que lorsqu'il est très sûr, mais manque de nombreux vrais positifs. Si le rappel est élevé mais la précision faible, le modèle prédit plus de positifs mais inclut davantage de fausses alertes.

Si les performances de votre modèle ne sont pas satisfaisantes, envisagez les améliorations suivantes :

Collecter plus de données annotées, en particulier pour les classes sous-représentées ;
Essayer différentes étapes de prétraitement, comme la suppression du bruit ou l'équilibrage des classes ;
Ajuster les hyperparamètres, tels que le taux d'apprentissage, la taille du lot ou le nombre d'époques ;
Modifier l'architecture du modèle, par exemple en ajoutant des têtes d'attention ou des couches ;
Utiliser des techniques d'augmentation de données pour accroître la diversité de l'ensemble de données ;
Analyser les erreurs pour voir si le modèle rencontre des difficultés avec certains types d'entrées.

En sélectionnant soigneusement la bonne métrique et en interprétant les résultats, vous pourrez diagnostiquer les faiblesses du modèle et concentrer vos efforts d'amélioration là où ils sont les plus importants.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 6

single

Glissez pour afficher le menu

Métriques d'évaluation pour les tâches de NLP

Après avoir entraîné un modèle Transformer pour le traitement du langage naturel, il est nécessaire de mesurer ses performances sur la tâche ciblée. Pour calculer les métriques, il faut déterminer TP, TN, FN et FP.

Définition

TP (True Positive) : nombre d'échantillons positifs correctement prédits comme positifs.
TN (True Negative) : nombre d'échantillons négatifs correctement prédits comme négatifs.
FP (False Positive) : nombre d'échantillons négatifs incorrectement prédits comme positifs.
FN (False Negative) : nombre d'échantillons positifs incorrectement prédits comme négatifs.

Précision est préférable pour les ensembles de données équilibrés où chaque classe possède à peu près le même nombre d'échantillons ;
Précision et rappel deviennent plus importants lorsque les données sont déséquilibrées, comme dans la détection de spam, où manquer un message indésirable (faux négatif) ou signaler à tort un message normal (faux positif) a des coûts différents ;
Le score F1 combine à la fois la précision et le rappel en un seul chiffre, ce qui facilite la comparaison des modèles sur des tâches déséquilibrées ;
BLEU et ROUGE sont utilisés pour les tâches où la sortie est une séquence, comme la traduction ou le résumé ;
Perplexité est surtout utile pour les modèles de langage qui prédisent le mot suivant dans une séquence.

Interprétation des résultats d'évaluation et amélioration des performances du modèle

Une fois que vous avez calculé les métriques d'évaluation pour votre modèle Transformer, il est important de comprendre la signification des résultats et comment les utiliser pour améliorer votre modèle. Une précision élevée indique généralement que votre modèle effectue des prédictions correctes, mais si vos données sont déséquilibrées, examinez la précision, le rappel et le score F1. Par exemple, un modèle avec une précision élevée mais un rappel faible est conservateur : il ne fait des prédictions positives que lorsqu'il est très sûr, mais manque de nombreux vrais positifs. Si le rappel est élevé mais la précision faible, le modèle prédit plus de positifs mais inclut davantage de fausses alertes.

Si les performances de votre modèle ne sont pas satisfaisantes, envisagez les améliorations suivantes :

Collecter plus de données annotées, en particulier pour les classes sous-représentées ;
Essayer différentes étapes de prétraitement, comme la suppression du bruit ou l'équilibrage des classes ;
Ajuster les hyperparamètres, tels que le taux d'apprentissage, la taille du lot ou le nombre d'époques ;
Modifier l'architecture du modèle, par exemple en ajoutant des têtes d'attention ou des couches ;
Utiliser des techniques d'augmentation de données pour accroître la diversité de l'ensemble de données ;
Analyser les erreurs pour voir si le modèle rencontre des difficultés avec certains types d'entrées.

En sélectionnant soigneusement la bonne métrique et en interprétant les résultats, vous pourrez diagnostiquer les faiblesses du modèle et concentrer vos efforts d'amélioration là où ils sont les plus importants.

Tâche

Glissez pour commencer à coder

Utilisez vos connaissances des chapitres précédents pour compléter un petit scénario d'évaluation pour un classificateur de texte basé sur un Transformer.

Étant donné un modèle qui prédit si une critique de film est positive ou négative, vous disposez des résultats suivants sur un ensemble de test de 10 échantillons :
- 6 critiques sont réellement positives, 4 sont réellement négatives ;
- Le modèle prédit : 5 positives (4 correctes), 5 négatives (3 correctes).
Calculez l'exactitude, la précision, le rappel et le score F1 pour la classe positive ;
Saisissez vos réponses sous forme de décimales arrondies à deux chiffres après la virgule.

Solution

Passez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 6

single

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion