Leer Uitdaging: Het Evalueren van Transformator-Modellen | Toepassen van Transformers op NLP-taken

Sectie 3. Hoofdstuk 6

single

Veeg om het menu te tonen

Evaluatiemaatstaven voor NLP-taken

Na het trainen van een Transformer-model voor NLP is het noodzakelijk om te meten hoe goed het presteert op de taak. Voor het berekenen van de maatstaven zijn TP, TN, FN en FP vereist.

Definitie

TP (True Positive): aantal positieve voorbeelden correct voorspeld als positief.
TN (True Negative): aantal negatieve voorbeelden correct voorspeld als negatief.
FP (False Positive): aantal negatieve voorbeelden onterecht voorspeld als positief.
FN (False Negative): aantal positieve voorbeelden onterecht voorspeld als negatief.

Nauwkeurigheid is het meest geschikt voor gebalanceerde datasets waarbij elke klasse ongeveer hetzelfde aantal voorbeelden heeft;
Precisie en Recall worden belangrijker bij onevenwichtige data, zoals bij spamdetectie, waar het missen van een spambericht (false negative) of het onterecht markeren van een normaal bericht (false positive) verschillende gevolgen heeft;
F1-score combineert zowel precisie als recall in één getal, waardoor het eenvoudiger wordt om modellen te vergelijken bij onevenwichtige taken;
BLEU en ROUGE worden gebruikt voor taken waarbij de output een reeks is, zoals vertaling of samenvatting;
Perplexity is vooral nuttig voor taalmodellen die het volgende woord in een reeks voorspellen.

Interpreteren van evaluatieresultaten en verbeteren van modelprestaties

Na het berekenen van evaluatiemaatstaven voor je Transformer-model is het belangrijk om te begrijpen wat de resultaten betekenen en hoe je deze kunt gebruiken om je model te verbeteren. Een hoge nauwkeurigheid geeft meestal aan dat het model correcte voorspellingen doet, maar bij onevenwichtige data is het belangrijk om te kijken naar precisie, recall en F1-score. Bijvoorbeeld, een model met hoge precisie maar lage recall is conservatief – het doet alleen positieve voorspellingen als het zeer zeker is, maar mist veel echte positieven. Als recall hoog is maar precisie laag, voorspelt het model meer positieven maar bevat het meer valse alarmen.

Als de prestaties van je model niet voldoen, overweeg dan de volgende verbeteringen:

Verzamel meer gelabelde data, vooral voor ondervertegenwoordigde klassen;
Probeer verschillende pre-processing stappen, zoals het verwijderen van ruis of het balanceren van klassen;
Fijn afstellen van hyperparameters, zoals leersnelheid, batchgrootte of aantal epochs;
Aanpassen van de modelarchitectuur, bijvoorbeeld door extra attention heads of lagen toe te voegen;
Gebruik data-augmentatie om de diversiteit van de dataset te vergroten;
Analyseer fouten om te zien of het model moeite heeft met bepaalde soorten input.

Door zorgvuldig de juiste maatstaf te kiezen en de resultaten te interpreteren, kun je zwakke punten van het model diagnosticeren en je verbeterinspanningen richten waar ze het meest effect hebben.

Taak

Veeg om te beginnen met coderen

Gebruik de kennis uit de vorige hoofdstukken om een kleine evaluatiesituatie voor een Transformer-tekstclassificatiemodel uit te voeren.

Gegeven een model dat voorspelt of een filmrecensie positief of negatief is, zijn de volgende resultaten behaald op een testset van 10 voorbeelden:
- 6 recensies zijn daadwerkelijk positief, 4 zijn daadwerkelijk negatief;
- Het model voorspelt: 5 positief (waarvan 4 correct), 5 negatief (waarvan 3 correct).
Bereken de accuracy, precision, recall en F1-score voor de positieve klasse;
Vul je antwoorden in als decimalen afgerond op twee cijfers achter de komma.

Oplossing

Schakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 6

single

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.