single
Challenge: Evaluering av Transformer-modeller
Sveip for å vise menyen
Evalueringsmetoder for NLP-oppgaver
Når du har trent en Transformer-modell for NLP, må du måle hvor godt den presterer på oppgaven din.
For å beregne målene må du finne TP, TN, FN og FP.
TP (True Positive): antall positive eksempler korrekt forutsagt som positive.
TN (True Negative): antall negative eksempler korrekt forutsagt som negative.
FP (False Positive): antall negative eksempler feilaktig forutsagt som positive.
FN (False Negative): antall positive eksempler feilaktig forutsagt som negative.
- Nøyaktighet er best for balanserte datasett der hver klasse har omtrent like mange eksempler;
- Presisjon og tilbakekalling blir viktigere når du har ubalanserte data, som for eksempel spamdeteksjon, der det har ulike kostnader å overse en spam-melding (falsk negativ) eller feilaktig merke en normal melding (falsk positiv);
- F1-score kombinerer både presisjon og tilbakekalling i ett enkelt tall, noe som gjør det enklere å sammenligne modeller på ubalanserte oppgaver;
- BLEU og ROUGE brukes for oppgaver der utdata er en sekvens, som oversettelse eller oppsummering;
- Perpleksitet er mest nyttig for språkmodeller som forutsier neste ord i en sekvens.
Tolking av evalueringsresultater og forbedring av modellens ytelse
Når du har beregnet evalueringsmetrikker for Transformer-modellen din, er det viktig å forstå hva resultatene betyr og hvordan du kan bruke dem til å forbedre modellen. Høy nøyaktighet viser vanligvis at modellen gir riktige prediksjoner, men hvis dataene dine er ubalanserte, bør du se på presisjon, tilbakekalling og F1-score. For eksempel er en modell med høy presisjon, men lav tilbakekalling, konservativ – den gir kun positive prediksjoner når den er veldig sikker, men går glipp av mange sanne positive. Hvis tilbakekallingen er høy, men presisjonen lav, predikerer modellen flere positive, men inkluderer flere falske alarmer.
Hvis modellens ytelse ikke er tilfredsstillende, vurder følgende måter å forbedre den på:
- Samle inn flere merkede data, spesielt for underrepresenterte klasser;
- Prøv ulike forhåndsbehandlingssteg, som å fjerne støy eller balansere klasser;
- Finjuster hyperparametere, som læringsrate, batch-størrelse eller antall epoker;
- Juster modellarkitekturen, for eksempel ved å legge til attention-heads eller lag;
- Bruk datautvidelsesteknikker for å øke datasettets variasjon;
- Analyser feil for å se om modellen sliter med bestemte typer input.
Ved å velge riktig metrikk og tolke resultatene nøye, kan du diagnostisere modellens svakheter og fokusere forbedringsarbeidet der det har størst effekt.
Sveip for å begynne å kode
Bruk kunnskapen din fra tidligere kapitler til å gjennomføre et lite evalueringsscenario for en Transformer-basert tekstklassifiserer.
- Gitt en modell som forutsier om en filmomtale er positiv eller negativ, har du følgende resultater på et testsett med 10 eksempler:
- 6 omtaler er faktisk positive, 4 er faktisk negative;
- Modellen forutsier: 5 positive (4 riktige), 5 negative (3 riktige).
- Beregn nøyaktighet, presisjon, recall og F1-score for den positive klassen;
- Skriv inn svarene dine som desimaltall avrundet til to desimaler.
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår