Summary  
The chapter explains how to fine-tune a pre-trained Transformer model by preparing and tokenizing data, swapping in a task-specific output head, training with a low learning rate to preserve prior knowledge, and evaluating on a held-out set. It also details key architecture parameters—hidden size, attention heads, intermediate size, max position embeddings, vocab size, and learning rate—that govern model capacity and efficiency.

General domain of usage  
Natural language processing

**Fine-tuning** on siirtoloppuoppimisen muoto, jossa otetaan valmiiksi koulutettu Transformer-malli – joka tuntee jo kielen rakenteet – ja koulutetaan sitä lisää pienemmällä, merkatulla aineistolla. Tämän prosessin avulla malli mukauttaa laajaa tietämystään erityistehtäviin, kuten `text classification`, `sentiment analysis` tai `named entity recognition`.

Määritelmä

## Fine-tuning-työnkulku

Noudata näitä vaiheita, kun mukautat valmiiksi koulutettua mallia ja vältät yleiset sudenkuopat NLP:ssä:
- Valmistele aineisto puhdistamalla teksti ja muuntamalla luokat numeeriseen muotoon;
- Tokenisoi syöteteksti samalla tokenisoijalla, jota käytettiin mallin alkuperäisessä koulutuksessa;
- Lataa valmiiksi koulutettu malli ja korvaa sen viimeinen ulostulokerros uudella "headilla", joka on suunniteltu erityistehtävääsi varten;
- Kouluta mallia aineistollasi erittäin pienellä oppimisnopeudella, jotta vältetään alkuperäisen tiedon "katastrofaalinen unohtaminen";
- Arvioi suorituskyky erillisellä testiaineistolla varmistaaksesi, että malli yleistää hyvin uuteen tekstiin.

## Yleisten arkkitehtuuriparametrien ymmärtäminen

Kun konfiguroidaan Transformer-mallia, käytetään tiettyjä parametreja suorituskyvyn ja laskennallisen tehokkuuden tasapainottamiseksi:

* **Hidden size**: Tämä kuvaa vektorin ulottuvuutta, jolla jokaista tokenia edustetaan. 
     * Koko `768` on vakiokoko "Base"-malleille monimutkaisten kielellisten rakenteiden havaitsemiseksi;
* **Attention heads**: Tämä luku määrittää, kuinka monta eri "näkökulmaa" malli käyttää analysoidessaan sanojen välisiä suhteita.
    - `12` päätä mahdollistavat mallin keskittymisen samanaikaisesti erilaisiin kieliopillisiin ja semanttisiin piirteisiin;
* **Intermediate size**: Yleensä neljä kertaa hidden size, tässä tapauksessa     `3072`, määrittää syötteen syväverkko-kerrosten laajuuden;
* **Max position embeddings**: Tämä arvo määrittää suurimman sallitun sekvenssipituuden eli tokenien kokonaismäärän, jonka malli voi käsitellä yhdellä syötteellä, yleensä `512`;
* **Vocab size `30522`**: Tämä kuvaa tunnistettavien ja käsiteltävien uniikkien tokenien, mukaan lukien sanat ja osasanat, kokonaismäärää;
* **Learning rate `2e-5`**: Tämä pieni arvo on optimaalinen hienosäätöön, koska se estää mallia ylikirjoittamasta esikoulutuksen aikana opittua hyödyllistä tietoa.

Mitä "piilokerroksen koko" -parametri tarkoittaa Transformer-mallin arkkitehtuurissa?

Mikä seuraavista EI ole suositeltu vaihe Transformer-mallien hienosäätöprosessissa?

Hallitse Transformer-mallien perusteet Pythonilla luonnollisen kielen käsittelyä varten. Opi rakentamaan, tulkitsemaan ja soveltamaan Transformereita todellisen maailman tekstiaineistoihin, painottaen käytännön taitoja ja mallin ymmärtämistä.

Tutustu Transformer-mallien perusteisiin, mukaan lukien itsehuomio, positionaalinen koodaus ja arkkitehtuuri. Rakenna vahva käsitteellinen ja käytännöllinen perusta edistyneille NLP-sovelluksille.

Hallitse taidot, joita tarvitaan ydinkomponenttien, kuten monipäähuomion, syötteen eteenpäin suuntautuvien kerrosten ja normalisoinnin, rakentamiseen tehokasta tekstinkäsittelyä varten.

Opi käyttämään Transformereita todellisissa NLP-tehtävissä, visualisoimaan attention-mekanismeja ja tulkitsemaan mallin ennusteita paremman tekstin ymmärtämisen saavuttamiseksi.

Kuinka hienosäätö parantaa transformereita

Fine-tuning-työnkulku

Yleisten arkkitehtuuriparametrien ymmärtäminen

1. Mitä "piilokerroksen koko" -parametri tarkoittaa Transformer-mallin arkkitehtuurissa?

2. Mikä seuraavista EI ole suositeltu vaihe Transformer-mallien hienosäätöprosessissa?