Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Challenge: Utvärdering av Transformer-Modeller | Applying Transformers to NLP Tasks
Transformers för Naturlig Språkbehandling
Avsnitt 3. Kapitel 6
single

single

bookChallenge: Utvärdering av Transformer-Modeller

Svep för att visa menyn

Utvärderingsmått för NLP-uppgifter

När du har tränat en Transformer-modell för NLP behöver du mäta hur väl den presterar på din uppgift. För att beräkna måtten behöver du räkna ut TP, TN, FN och FP.

Note
Definition

TP (True Positive): antal positiva exempel som korrekt förutsagts som positiva.
TN (True Negative): antal negativa exempel som korrekt förutsagts som negativa.
FP (False Positive): antal negativa exempel som felaktigt förutsagts som positiva.
FN (False Negative): antal positiva exempel som felaktigt förutsagts som negativa.

  • Noggrannhet är bäst för balanserade datamängder där varje klass har ungefär lika många exempel;
  • Precision och Recall blir viktigare vid obalanserade data, såsom skräppostdetektion, där det har olika kostnader att missa ett skräppostmeddelande (falskt negativt) eller att felaktigt flagga ett normalt meddelande (falskt positivt);
  • F1-poäng kombinerar både precision och recall till ett enda värde, vilket gör det enklare att jämföra modeller vid obalanserade uppgifter;
  • BLEU och ROUGE används för uppgifter där utdata är en sekvens, såsom översättning eller sammanfattning;
  • Perplexity är mest användbart för språkmodeller som förutspår nästa ord i en sekvens.

Tolkning av utvärderingsresultat och förbättring av modellprestanda

När du har beräknat utvärderingsmått för din Transformer-modell är det viktigt att förstå vad resultaten betyder och hur du kan använda dem för att förbättra din modell. Hög noggrannhet visar generellt att din modell gör korrekta förutsägelser, men om dina data är obalanserade bör du titta på precision, recall och F1-poäng. Till exempel är en modell med hög precision men låg recall konservativ – den gör endast positiva förutsägelser när den är mycket säker, men missar många sanna positiva. Om recall är hög men precisionen låg, förutsäger modellen fler positiva men inkluderar fler falsklarm.

Om modellens prestanda inte är tillfredsställande, överväg följande sätt att förbättra den:

  • Samla in mer märkt data, särskilt för underrepresenterade klasser;
  • Prova olika förbehandlingssteg, såsom att ta bort brus eller balansera klasser;
  • Finjustera hyperparametrar, såsom inlärningshastighet, batchstorlek eller antal epoker;
  • Justera modellarkitekturen, till exempel genom att lägga till attention-huvuden eller lager;
  • Använd dataförstärkningstekniker för att öka datamängdens mångfald;
  • Analysera fel för att se om modellen har problem med vissa typer av indata.

Genom att noggrant välja rätt mått och tolka resultaten kan du identifiera modellens svagheter och fokusera förbättringsarbetet där det gör mest nytta.

Uppgift

Svep för att börja koda

Använd dina kunskaper från tidigare kapitel för att genomföra ett litet utvärderingsscenario för en Transformer-textklassificerare.

  • Givet en modell som förutsäger om en filmrecension är positiv eller negativ, har du följande resultat på en testuppsättning med 10 exempel:
    • 6 recensioner är faktiskt positiva, 4 är faktiskt negativa;
    • Modellen förutspår: 5 positiva (4 korrekta), 5 negativa (3 korrekta).
  • Beräkna noggrannhet (accuracy), precision, recall och F1-score för den positiva klassen;
  • Ange dina svar som decimaltal avrundade till två decimaler.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 6
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

some-alt