single
Challenge: Utvärdering av Transformer-Modeller
Svep för att visa menyn
Utvärderingsmått för NLP-uppgifter
När du har tränat en Transformer-modell för NLP behöver du mäta hur väl den presterar på din uppgift.
För att beräkna måtten behöver du räkna ut TP, TN, FN och FP.
TP (True Positive): antal positiva exempel som korrekt förutsagts som positiva.
TN (True Negative): antal negativa exempel som korrekt förutsagts som negativa.
FP (False Positive): antal negativa exempel som felaktigt förutsagts som positiva.
FN (False Negative): antal positiva exempel som felaktigt förutsagts som negativa.
- Noggrannhet är bäst för balanserade datamängder där varje klass har ungefär lika många exempel;
- Precision och Recall blir viktigare vid obalanserade data, såsom skräppostdetektion, där det har olika kostnader att missa ett skräppostmeddelande (falskt negativt) eller att felaktigt flagga ett normalt meddelande (falskt positivt);
- F1-poäng kombinerar både precision och recall till ett enda värde, vilket gör det enklare att jämföra modeller vid obalanserade uppgifter;
- BLEU och ROUGE används för uppgifter där utdata är en sekvens, såsom översättning eller sammanfattning;
- Perplexity är mest användbart för språkmodeller som förutspår nästa ord i en sekvens.
Tolkning av utvärderingsresultat och förbättring av modellprestanda
När du har beräknat utvärderingsmått för din Transformer-modell är det viktigt att förstå vad resultaten betyder och hur du kan använda dem för att förbättra din modell. Hög noggrannhet visar generellt att din modell gör korrekta förutsägelser, men om dina data är obalanserade bör du titta på precision, recall och F1-poäng. Till exempel är en modell med hög precision men låg recall konservativ – den gör endast positiva förutsägelser när den är mycket säker, men missar många sanna positiva. Om recall är hög men precisionen låg, förutsäger modellen fler positiva men inkluderar fler falsklarm.
Om modellens prestanda inte är tillfredsställande, överväg följande sätt att förbättra den:
- Samla in mer märkt data, särskilt för underrepresenterade klasser;
- Prova olika förbehandlingssteg, såsom att ta bort brus eller balansera klasser;
- Finjustera hyperparametrar, såsom inlärningshastighet, batchstorlek eller antal epoker;
- Justera modellarkitekturen, till exempel genom att lägga till attention-huvuden eller lager;
- Använd dataförstärkningstekniker för att öka datamängdens mångfald;
- Analysera fel för att se om modellen har problem med vissa typer av indata.
Genom att noggrant välja rätt mått och tolka resultaten kan du identifiera modellens svagheter och fokusera förbättringsarbetet där det gör mest nytta.
Svep för att börja koda
Använd dina kunskaper från tidigare kapitel för att genomföra ett litet utvärderingsscenario för en Transformer-textklassificerare.
- Givet en modell som förutsäger om en filmrecension är positiv eller negativ, har du följande resultat på en testuppsättning med 10 exempel:
- 6 recensioner är faktiskt positiva, 4 är faktiskt negativa;
- Modellen förutspår: 5 positiva (4 korrekta), 5 negativa (3 korrekta).
- Beräkna noggrannhet (accuracy), precision, recall och F1-score för den positiva klassen;
- Ange dina svar som decimaltal avrundade till två decimaler.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal