Transformer-pohjaiset generatiiviset mallit
Pyyhkäise näyttääksesi valikon
Johdatus transformereihin ja itsehuomioon
Transformerit ovat keskeinen arkkitehtuuri modernissa tekoälyssä, erityisesti luonnollisen kielen käsittelyssä (NLP) ja generatiivisessa mallinnuksessa. Ensimmäisen kerran ne esiteltiin artikkelissa "Attention is All You Need" (Vaswani et al., 2017), jossa transformerit luopuvat toistosta ja käyttävät sen sijaan mekanismia nimeltä itsehuomio (self-attention), jonka avulla malli voi tarkastella kaikkia syötteen osia samanaikaisesti.
Itsehuomiomekanismi
Itsehuomiomekanismi mahdollistaa mallin arvioida eri tokenien merkitystä suhteessa toisiinsa sekvenssissä. Tämä tehdään käyttämällä kolmea matriisia, jotka johdetaan syöteupotuksista:
- Query (Q);
- Key (K);
- Value (V).
Huomion (attention) tulos lasketaan seuraavasti:
Attention(Q,K,V)=softmax(dkQKT)VMissä:
- Q, K ja V ovat syötteestä johdettuja matriiseja.
- dk on avainvektorien dimensio.
- softmax muuntaa samankaltaisuuspisteet todennäköisyyksiksi.
Tämän ansiosta jokainen token voi kiinnittää huomiota kaikkiin muihin tokeneihin ja mukauttaa omaa esitystään niiden perusteella.
Yleiskatsaus transformer-arkkitehtuuriin
Transformer-malli koostuu pinoitetuista kooderi- ja dekooderikerroksista:
- Kooderi muuntaa syötteen kontekstuaaliseksi latentiksi esitykseksi;
- Dekooderi tuottaa ulostulotokenit hyödyntäen kooderin tuottamaa esitystä ja aiempia tokeneita.
Jokainen kerros sisältää:
- Monipäinen itsehuomio (Multi-Head Self-Attention);
- Syötteestä ulostuloon etenevät neuroverkot (Feedforward Neural Networks);
- Kerroksen normalisointi (Layer Normalization);
- Jäännösyhteydet (Residual Connections).
Monipäinen itsehuomio
Sen sijaan, että laskettaisiin vain yksi huomiointifunktio, transformer käyttää useita huomiointipäitä. Jokainen pää oppii keskittymään eri osiin sekvenssiä.
Multi-Head(Q,K,V)=Concat(head1,head2,...,headn)W0Missä kukin pää lasketaan seuraavasti:
headi=Attention(QWiQ,KWiK,VWiV)Missä:
- WiQ,WiK,WiV ovat kyselyiden, avainten ja arvojen projektiomatriiseja;
- W0 projisoi yhdistetyt päät takaisin alkuperäiseen ulottuvuuteen.
Syötteestä syötteeseen -neuroverkot
Jokainen transformer-lohko sisältää sijaintikohtaisen syötteestä syötteeseen -verkon, joka sovelletaan itsenäisesti jokaiseen sijaintiin:
FFN(x)=ReLU(xW1+b1)W2+b2- Koostuu kahdesta lineaarisesta kerroksesta, joiden välissä on epälineaarisuus (esim. ReLU);
- Soveltaa samaa muunnosta kaikkiin sijainteihin.
Kerrosnormalisointi
Kerrosnormalisointi normalisoi syötteen ominaisuuksien (kanavien) yli erän sijaan. Se vakauttaa koulutusta ja parantaa konvergenssia:
LayerNorm(x)=σx−μ⋅γ+βMissä:
- μ on ominaisuuksien keskiarvo;
- σ on keskihajonta;
- γ ja β ovat opittavia parametreja.
Jäännösyhteydet
Jäännösyhteydet lisäävät jokaisen alikerroksen syötteen sen ulostuloon:
Output=Layer(x)+x- Auttaa gradientin kulussa ja mahdollistaa syvempien mallien koulutuksen;
- Käytetään sekä itsehuomio- että syötteenläpilaskukerrosten ympärillä.
Vain dekooderia käyttävissä malleissa (kuten GPT) käytetään vain dekooderia kausaalisella (peitetyllä) itsehuomiolla.
Generatiiviset esikoulutetut muuntajamallit (GPT)
GPT-mallit ovat vain dekooderia käyttäviä muuntajamalleja, jotka on koulutettu ennustamaan seuraava merkki autoregressiivisesti:
P(x1,x2,...,xn)=t=1∏nP(xt∣x<t)Keskeiset ominaisuudet:
- Koulutettu laajamittaisilla tekstiaineistoilla;
- Pystyy tuottamaan johdonmukaista ja monipuolista tekstiä;
- Laajasti käytössä sovelluksissa, kuten keskustelubotit ja koodin generointi.
BERT ja peitetty kielimallinnus
BERT (Bidirectional Encoder Representations from Transformers) käyttää ainoastaan enkooderia. Se opetetaan peitetyllä kielimallinnuksella (MLM):
- Satunnaiset tokenit korvataan [MASK]-merkillä;
- Malli ennustaa alkuperäisen tokenin koko kontekstin perusteella.
Tämän ansiosta BERT soveltuu hyvin tehtäviin kuten luokittelu, kysymys-vastaus ja semanttinen samankaltaisuus.
Transformerit ja LLM:t
Transformerit muodostavat perustan suurille kielimalleille (LLM), kuten GPT-3, GPT-4, PaLM, LLaMA ja Claude.
LLM:t hyödyntävät suuria aineistoja ja satoja miljardeja parametreja, mikä mahdollistaa:
- Ihmiskielen ymmärtämisen ja tuottamisen;
- Käännökset, tiivistelmät, kysymys-vastaus, päättely;
- Chatbotit, dokumenttianalyysit ja koodausavustajat.
Transformereiden skaalautuvuus ja kyky mallintaa pitkän kantaman riippuvuuksia tekevät niistä ihanteellisia näihin malleihin.
1. Mikä on transformereiden keskeisin innovaatio?
2. Mikä erottaa BERT:n GPT:stä?
3. Miksi transformerit ovat ihanteellisia LLM-malleille?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme