single
Challenge: Evaluering af Transformer-Modeller
Stryg for at vise menuen
Evalueringsmetrikker for NLP-opgaver
Når du har afsluttet træningen af en Transformer-model til NLP, skal du måle, hvor godt den klarer sig på din opgave.
For at beregne metrikkerne skal du beregne TP, TN, FN og FP.
TP (True Positive): antal positive prøver korrekt forudsagt som positive.
TN (True Negative): antal negative prøver korrekt forudsagt som negative.
FP (False Positive): antal negative prøver fejlagtigt forudsagt som positive.
FN (False Negative): antal positive prøver fejlagtigt forudsagt som negative.
- Nøjagtighed er bedst til balancerede datasæt, hvor hver klasse har omtrent samme antal eksempler;
- Præcision og recall bliver vigtigere ved ubalancerede data, såsom spamdetektion, hvor det har forskellige omkostninger at overse en spammeddelelse (falsk negativ) eller fejlagtigt markere en normal besked (falsk positiv);
- F1-score kombinerer både præcision og recall i ét tal, hvilket gør det lettere at sammenligne modeller på ubalancerede opgaver;
- BLEU og ROUGE bruges til opgaver, hvor outputtet er en sekvens, såsom oversættelse eller opsummering;
- Perpleksitet er mest nyttig for sprogmodeller, der forudsiger det næste ord i en sekvens.
Fortolkning af evalueringsresultater og forbedring af modelpræstation
Når du har beregnet evalueringsmetrikker for din Transformer-model, er det vigtigt at forstå, hvad resultaterne betyder, og hvordan du kan bruge dem til at forbedre din model. Høj nøjagtighed viser generelt, at din model laver korrekte forudsigelser, men hvis dine data er ubalancerede, bør du se på præcision, recall og F1-score. For eksempel er en model med høj præcision, men lav recall, konservativ – den laver kun positive forudsigelser, når den er meget sikker, men overser mange sande positive. Hvis recall er høj, men præcisionen lav, forudsiger modellen flere positive, men inkluderer flere falske alarmer.
Hvis din models præstation ikke er tilfredsstillende, kan du overveje følgende måder at forbedre den på:
- Indsamle flere mærkede data, især for underrepræsenterede klasser;
- Prøve forskellige forbehandlingsskridt, såsom at fjerne støj eller balancere klasser;
- Finjustere hyperparametre, såsom læringsrate, batchstørrelse eller antal epoker;
- Justere modelarkitekturen, f.eks. ved at tilføje attention-heads eller lag;
- Bruge dataforøgelsesteknikker for at øge datasættets diversitet;
- Analysere fejl for at se, om modellen har problemer med bestemte typer input.
Ved omhyggeligt at vælge den rigtige metrik og fortolke resultaterne kan du diagnosticere modellens svagheder og fokusere dine forbedringsindsatser, hvor de har størst betydning.
Swipe to start coding
Brug din viden fra de foregående kapitler til at gennemføre et lille evalueringsscenarie for en Transformer-tekstklassifikator.
- Givet en model, der forudsiger, om en filmanmeldelse er positiv eller negativ, har du følgende resultater på et testdatasæt med 10 eksempler:
- 6 anmeldelser er faktisk positive, 4 er faktisk negative;
- Modellen forudsiger: 5 positive (4 korrekte), 5 negative (3 korrekte).
- Beregn nøjagtighed, præcision, recall og F1-score for den positive klasse;
- Indtast dine svar som decimaltal afrundet til to decimaler.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat