Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Challenge: Evaluering af Transformer-Modeller | Anvendelse af Transformers til NLP-opgaver
Transformers til Naturlig Sprogbehandling
Sektion 3. Kapitel 6
single

single

bookChallenge: Evaluering af Transformer-Modeller

Stryg for at vise menuen

Evalueringsmetrikker for NLP-opgaver

Når du har afsluttet træningen af en Transformer-model til NLP, skal du måle, hvor godt den klarer sig på din opgave. For at beregne metrikkerne skal du beregne TP, TN, FN og FP.

Note
Definition

TP (True Positive): antal positive prøver korrekt forudsagt som positive.
TN (True Negative): antal negative prøver korrekt forudsagt som negative.
FP (False Positive): antal negative prøver fejlagtigt forudsagt som positive.
FN (False Negative): antal positive prøver fejlagtigt forudsagt som negative.

  • Nøjagtighed er bedst til balancerede datasæt, hvor hver klasse har omtrent samme antal eksempler;
  • Præcision og recall bliver vigtigere ved ubalancerede data, såsom spamdetektion, hvor det har forskellige omkostninger at overse en spammeddelelse (falsk negativ) eller fejlagtigt markere en normal besked (falsk positiv);
  • F1-score kombinerer både præcision og recall i ét tal, hvilket gør det lettere at sammenligne modeller på ubalancerede opgaver;
  • BLEU og ROUGE bruges til opgaver, hvor outputtet er en sekvens, såsom oversættelse eller opsummering;
  • Perpleksitet er mest nyttig for sprogmodeller, der forudsiger det næste ord i en sekvens.

Fortolkning af evalueringsresultater og forbedring af modelpræstation

Når du har beregnet evalueringsmetrikker for din Transformer-model, er det vigtigt at forstå, hvad resultaterne betyder, og hvordan du kan bruge dem til at forbedre din model. Høj nøjagtighed viser generelt, at din model laver korrekte forudsigelser, men hvis dine data er ubalancerede, bør du se på præcision, recall og F1-score. For eksempel er en model med høj præcision, men lav recall, konservativ – den laver kun positive forudsigelser, når den er meget sikker, men overser mange sande positive. Hvis recall er høj, men præcisionen lav, forudsiger modellen flere positive, men inkluderer flere falske alarmer.

Hvis din models præstation ikke er tilfredsstillende, kan du overveje følgende måder at forbedre den på:

  • Indsamle flere mærkede data, især for underrepræsenterede klasser;
  • Prøve forskellige forbehandlingsskridt, såsom at fjerne støj eller balancere klasser;
  • Finjustere hyperparametre, såsom læringsrate, batchstørrelse eller antal epoker;
  • Justere modelarkitekturen, f.eks. ved at tilføje attention-heads eller lag;
  • Bruge dataforøgelsesteknikker for at øge datasættets diversitet;
  • Analysere fejl for at se, om modellen har problemer med bestemte typer input.

Ved omhyggeligt at vælge den rigtige metrik og fortolke resultaterne kan du diagnosticere modellens svagheder og fokusere dine forbedringsindsatser, hvor de har størst betydning.

Opgave

Swipe to start coding

Brug din viden fra de foregående kapitler til at gennemføre et lille evalueringsscenarie for en Transformer-tekstklassifikator.

  • Givet en model, der forudsiger, om en filmanmeldelse er positiv eller negativ, har du følgende resultater på et testdatasæt med 10 eksempler:
    • 6 anmeldelser er faktisk positive, 4 er faktisk negative;
    • Modellen forudsiger: 5 positive (4 korrekte), 5 negative (3 korrekte).
  • Beregn nøjagtighed, præcision, recall og F1-score for den positive klasse;
  • Indtast dine svar som decimaltal afrundet til to decimaler.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 6
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

some-alt