Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Challenge: Evaluering av Transformer-modeller | Anvendelse av Transformers på NLP-oppgaver
Transformers for Naturlig Språkprosessering
Seksjon 3. Kapittel 6
single

single

bookChallenge: Evaluering av Transformer-modeller

Sveip for å vise menyen

Evalueringsmetoder for NLP-oppgaver

Når du har trent en Transformer-modell for NLP, må du måle hvor godt den presterer på oppgaven din. For å beregne målene må du finne TP, TN, FN og FP.

Note
Definisjon

TP (True Positive): antall positive eksempler korrekt forutsagt som positive.
TN (True Negative): antall negative eksempler korrekt forutsagt som negative.
FP (False Positive): antall negative eksempler feilaktig forutsagt som positive.
FN (False Negative): antall positive eksempler feilaktig forutsagt som negative.

  • Nøyaktighet er best for balanserte datasett der hver klasse har omtrent like mange eksempler;
  • Presisjon og tilbakekalling blir viktigere når du har ubalanserte data, som for eksempel spamdeteksjon, der det har ulike kostnader å overse en spam-melding (falsk negativ) eller feilaktig merke en normal melding (falsk positiv);
  • F1-score kombinerer både presisjon og tilbakekalling i ett enkelt tall, noe som gjør det enklere å sammenligne modeller på ubalanserte oppgaver;
  • BLEU og ROUGE brukes for oppgaver der utdata er en sekvens, som oversettelse eller oppsummering;
  • Perpleksitet er mest nyttig for språkmodeller som forutsier neste ord i en sekvens.

Tolking av evalueringsresultater og forbedring av modellens ytelse

Når du har beregnet evalueringsmetrikker for Transformer-modellen din, er det viktig å forstå hva resultatene betyr og hvordan du kan bruke dem til å forbedre modellen. Høy nøyaktighet viser vanligvis at modellen gir riktige prediksjoner, men hvis dataene dine er ubalanserte, bør du se på presisjon, tilbakekalling og F1-score. For eksempel er en modell med høy presisjon, men lav tilbakekalling, konservativ – den gir kun positive prediksjoner når den er veldig sikker, men går glipp av mange sanne positive. Hvis tilbakekallingen er høy, men presisjonen lav, predikerer modellen flere positive, men inkluderer flere falske alarmer.

Hvis modellens ytelse ikke er tilfredsstillende, vurder følgende måter å forbedre den på:

  • Samle inn flere merkede data, spesielt for underrepresenterte klasser;
  • Prøv ulike forhåndsbehandlingssteg, som å fjerne støy eller balansere klasser;
  • Finjuster hyperparametere, som læringsrate, batch-størrelse eller antall epoker;
  • Juster modellarkitekturen, for eksempel ved å legge til attention-heads eller lag;
  • Bruk datautvidelsesteknikker for å øke datasettets variasjon;
  • Analyser feil for å se om modellen sliter med bestemte typer input.

Ved å velge riktig metrikk og tolke resultatene nøye, kan du diagnostisere modellens svakheter og fokusere forbedringsarbeidet der det har størst effekt.

Oppgave

Sveip for å begynne å kode

Bruk kunnskapen din fra tidligere kapitler til å gjennomføre et lite evalueringsscenario for en Transformer-basert tekstklassifiserer.

  • Gitt en modell som forutsier om en filmomtale er positiv eller negativ, har du følgende resultater på et testsett med 10 eksempler:
    • 6 omtaler er faktisk positive, 4 er faktisk negative;
    • Modellen forutsier: 5 positive (4 riktige), 5 negative (3 riktige).
  • Beregn nøyaktighet, presisjon, recall og F1-score for den positive klassen;
  • Skriv inn svarene dine som desimaltall avrundet til to desimaler.

Løsning

Switch to desktopBytt til skrivebordet for virkelighetspraksisFortsett der du er med et av alternativene nedenfor
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6
single

single

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

some-alt