Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Kuinka hienosäätö parantaa transformereita | Transformereiden Soveltaminen NLP-tehtäviin
Transformerit Luonnollisen Kielen Käsittelyssä

bookKuinka hienosäätö parantaa transformereita

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Fine-tuning on siirtoloppuoppimisen muoto, jossa otetaan valmiiksi koulutettu Transformer-malli – joka tuntee jo kielen rakenteet – ja koulutetaan sitä lisää pienemmällä, merkatulla aineistolla. Tämän prosessin avulla malli mukauttaa laajaa tietämystään erityistehtäviin, kuten text classification, sentiment analysis tai named entity recognition.

Fine-tuning-työnkulku

Noudata näitä vaiheita, kun mukautat valmiiksi koulutettua mallia ja vältät yleiset sudenkuopat NLP:ssä:

  • Valmistele aineisto puhdistamalla teksti ja muuntamalla luokat numeeriseen muotoon;
  • Tokenisoi syöteteksti samalla tokenisoijalla, jota käytettiin mallin alkuperäisessä koulutuksessa;
  • Lataa valmiiksi koulutettu malli ja korvaa sen viimeinen ulostulokerros uudella "headilla", joka on suunniteltu erityistehtävääsi varten;
  • Kouluta mallia aineistollasi erittäin pienellä oppimisnopeudella, jotta vältetään alkuperäisen tiedon "katastrofaalinen unohtaminen";
  • Arvioi suorituskyky erillisellä testiaineistolla varmistaaksesi, että malli yleistää hyvin uuteen tekstiin.

Yleisten arkkitehtuuriparametrien ymmärtäminen

Kun konfiguroidaan Transformer-mallia, käytetään tiettyjä parametreja suorituskyvyn ja laskennallisen tehokkuuden tasapainottamiseksi:

  • Hidden size: Tämä kuvaa vektorin ulottuvuutta, jolla jokaista tokenia edustetaan.
    • Koko 768 on vakiokoko "Base"-malleille monimutkaisten kielellisten rakenteiden havaitsemiseksi;
  • Attention heads: Tämä luku määrittää, kuinka monta eri "näkökulmaa" malli käyttää analysoidessaan sanojen välisiä suhteita.
    • 12 päätä mahdollistavat mallin keskittymisen samanaikaisesti erilaisiin kieliopillisiin ja semanttisiin piirteisiin;
  • Intermediate size: Yleensä neljä kertaa hidden size, tässä tapauksessa 3072, määrittää syötteen syväverkko-kerrosten laajuuden;
  • Max position embeddings: Tämä arvo määrittää suurimman sallitun sekvenssipituuden eli tokenien kokonaismäärän, jonka malli voi käsitellä yhdellä syötteellä, yleensä 512;
  • Vocab size 30522: Tämä kuvaa tunnistettavien ja käsiteltävien uniikkien tokenien, mukaan lukien sanat ja osasanat, kokonaismäärää;
  • Learning rate 2e-5: Tämä pieni arvo on optimaalinen hienosäätöön, koska se estää mallia ylikirjoittamasta esikoulutuksen aikana opittua hyödyllistä tietoa.

1. Mitä "piilokerroksen koko" -parametri tarkoittaa Transformer-mallin arkkitehtuurissa?

2. Mikä seuraavista EI ole suositeltu vaihe Transformer-mallien hienosäätöprosessissa?

question mark

Mitä "piilokerroksen koko" -parametri tarkoittaa Transformer-mallin arkkitehtuurissa?

Valitse oikea vastaus

question mark

Mikä seuraavista EI ole suositeltu vaihe Transformer-mallien hienosäätöprosessissa?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 5
some-alt