single
Challenge: Transformer-mallien arviointi
Pyyhkäise näyttääksesi valikon
Arviointimittarit NLP-tehtäville
Kun Transformer-malli on koulutettu NLP-tehtävään, sen suorituskykyä täytyy mitata kyseisessä tehtävässä.
Mittareiden laskemiseen tarvitaan arvot TP, TN, FN ja FP.
TP (True Positive): positiivisten näytteiden määrä, jotka on ennustettu oikein positiivisiksi.
TN (True Negative): negatiivisten näytteiden määrä, jotka on ennustettu oikein negatiivisiksi.
FP (False Positive): negatiivisten näytteiden määrä, jotka on ennustettu virheellisesti positiivisiksi.
FN (False Negative): positiivisten näytteiden määrä, jotka on ennustettu virheellisesti negatiivisiksi.
- Tarkkuus (Accuracy) sopii parhaiten tasapainoisille aineistoille, joissa jokaisessa luokassa on suunnilleen sama määrä näytteitä;
- Tarkkuus (Precision) ja palautus (Recall) korostuvat epätasapainoisissa aineistoissa, kuten roskapostin tunnistuksessa, jossa väärän negatiivisen (spämmin jääminen huomaamatta) tai väärän positiivisen (normaalin viestin merkitseminen roskapostiksi) kustannukset eroavat toisistaan;
- F1-pisteet yhdistävät tarkkuuden ja palautuksen yhdeksi luvuksi, mikä helpottaa mallien vertailua epätasapainoisissa tehtävissä;
- BLEU ja ROUGE käytetään tehtävissä, joissa tulos on sekvenssi, kuten käännös tai tiivistelmä;
- Perpleksisyys (Perplexity) on hyödyllisin kielimalleille, jotka ennustavat seuraavaa sanaa sekvenssissä.
Arviointitulosten tulkinta ja mallin suorituskyvyn parantaminen
Kun olet laskenut arviointimittarit Transformer-mallillesi, on tärkeää ymmärtää, mitä tulokset tarkoittavat ja miten voit hyödyntää niitä mallin parantamisessa. Korkea tarkkuus osoittaa yleensä, että mallisi tekee oikeita ennusteita, mutta jos aineisto on epätasapainoinen, tarkastele tarkkuutta, palautusta ja F1-pisteitä. Esimerkiksi malli, jolla on korkea tarkkuus mutta matala palautus, on varovainen – se tekee positiivisia ennusteita vain ollessaan hyvin varma, mutta jättää monta oikeaa positiivista huomaamatta. Jos palautus on korkea mutta tarkkuus matala, malli ennustaa enemmän positiivisia, mutta sisältää enemmän vääriä hälytyksiä.
Jos mallisi suorituskyky ei ole tyydyttävä, harkitse seuraavia parannuskeinoja:
- Kerää lisää merkittyä dataa, erityisesti aliedustetuille luokille;
- Kokeile erilaisia esikäsittelyvaiheita, kuten kohinan poistamista tai luokkien tasapainottamista;
- Hienosäädä hyperparametreja, kuten oppimisnopeutta, eräkokoa tai epookkien määrää;
- Säädä mallin arkkitehtuuria, esimerkiksi lisäämällä attention-päitä tai kerroksia;
- Käytä data-aumentaatiotekniikoita aineiston monipuolistamiseksi;
- Analysoi virheitä nähdäksesi, onko mallilla vaikeuksia tietynlaisten syötteiden kanssa.
Valitsemalla huolellisesti oikean mittarin ja tulkitsemalla tulokset pystyt tunnistamaan mallin heikkoudet ja kohdistamaan parannustoimet sinne, missä niillä on eniten vaikutusta.
Pyyhkäise aloittaaksesi koodauksen
Hyödynnä aiemmissa luvuissa oppimaasi ja suorita pieni arviointitehtävä Transformer-pohjaiselle tekstiluokittelijalle.
- Annetulla mallilla, joka ennustaa onko elokuva-arvostelu positiivinen vai negatiivinen, on seuraavat tulokset 10 testinäytteellä:
- 6 arvostelua on todellisuudessa positiivisia, 4 todellisuudessa negatiivisia;
- Malli ennustaa: 5 positiivista (4 oikein), 5 negatiivista (3 oikein).
- Laske tarkkuus (accuracy), tarkkuusluokka (precision), palautusluokka (recall) ja F1-pisteet positiiviselle luokalle;
- Syötä vastauksesi desimaalilukuina kahden desimaalin tarkkuudella.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme