Summary  
The chapter explains how to fine-tune a pre-trained Transformer model by preparing and tokenizing data, swapping in a task-specific output head, training with a low learning rate to preserve prior knowledge, and evaluating on a held-out set. It also details key architecture parameters—hidden size, attention heads, intermediate size, max position embeddings, vocab size, and learning rate—that govern model capacity and efficiency.

General domain of usage  
Natural language processing

**Finjustering** er en form for overføringslæring der man tar en forhåndstrent Transformer – som allerede er kjent med språkstrukturer – og trener den videre på et mindre, merket datasett. Denne prosessen gjør det mulig for modellen å tilpasse sin brede kunnskap til spesifikke oppgaver som `text classification`, `sentiment analysis` eller `named entity recognition`.

Definisjon

## Arbeidsflyt for finjustering

Følg disse trinnene for å tilpasse en forhåndstrent modell og unngå vanlige fallgruver i NLP:
- Forbered datasettet ved å rense tekst og konvertere etiketter til numerisk format;
- Tokeniser innteksten ved å bruke samme tokenizer som ble brukt under modellens opprinnelige trening;
- Last inn den forhåndstrente modellen og erstatt det siste utgangslaget med et nytt "head" designet for din spesifikke oppgave;
- Tren modellen på dine data med en svært lav læringsrate for å forhindre "katastrofal glemsel" av den opprinnelige kunnskapen;
- Evaluer ytelsen ved å bruke et eget testsett for å sikre at modellen generaliserer godt til ny tekst.

## Forståelse av standard arkitekturparametere

Når man konfigurerer en Transformer-modell, brukes spesifikke parametere for å balansere ytelse og beregningseffektivitet:

* **Hidden size**: Dette representerer dimensjonaliteten til vektoren som brukes til å representere hvert token. 
     * En størrelse på `768` er standard for "Base"-modeller for å fange opp komplekse språklige mønstre;
* **Attention heads**: Dette tallet bestemmer hvor mange forskjellige "perspektiver" modellen bruker for å analysere relasjoner mellom ord.
    - `12` heads lar modellen fokusere på ulike grammatiske og semantiske trekk samtidig;
* **Intermediate size**: Vanligvis satt til fire ganger hidden size, i vårt tilfelle `3072`, bestemmer dette bredden på de feed-forward nettverkslagene;
* **Max position embeddings**: Denne verdien definerer maksimal sekvenslengde eller totalt antall tokens modellen kan prosessere i én input, vanligvis `512`;
* **Vocab size `30522`**: Dette representerer totalt antall unike tokens, inkludert ord og sub-ord, som modellen kan gjenkjenne og prosessere;
* **Learning rate `2e-5`**: Denne lave verdien er optimal for finjustering fordi den forhindrer at modellen overskriver den nyttige kunnskapen den fikk under forhåndstrening.

Hva representerer parameteren "skjult størrelse" i en Transformer-modellarkitektur?

Hvilket av følgende er IKKE et anbefalt steg i finjusteringsprosessen for Transformers?

Lær det grunnleggende om Transformer-modeller i Python for naturlig språkprosessering. Oppdag hvordan du bygger, tolker og anvender Transformers på tekstdata fra virkeligheten, med fokus på praktiske ferdigheter og modellforståelse.

Utforsk det grunnleggende ved Transformer-modeller, inkludert selvoppmerksomhet, posisjonell koding og arkitektur. Bygg et solid konseptuelt og praktisk grunnlag for avanserte NLP-applikasjoner.

Behersk ferdighetene som trengs for å konstruere sentrale Transformer-byggesteiner, inkludert multi-head attention, feed-forward-lag og normalisering, for effektiv tekstbehandling.

Utforsk hvordan du kan bruke Transformers til reelle NLP-oppgaver, visualisere oppmerksomhet og tolke modellprediksjoner for bedre tekstforståelse.

Hvordan Finjustering Forbedrer Transformere

Arbeidsflyt for finjustering

Forståelse av standard arkitekturparametere

1. Hva representerer parameteren "skjult størrelse" i en Transformer-modellarkitektur?

2. Hvilket av følgende er IKKE et anbefalt steg i finjusteringsprosessen for Transformers?