Summary  
The chapter explains how to fine-tune a pre-trained Transformer model by preparing and tokenizing data, swapping in a task-specific output head, training with a low learning rate to preserve prior knowledge, and evaluating on a held-out set. It also details key architecture parameters—hidden size, attention heads, intermediate size, max position embeddings, vocab size, and learning rate—that govern model capacity and efficiency.

General domain of usage  
Natural language processing

**Finjustering** er en form for transfer learning, hvor en fortrænet Transformer – allerede bekendt med sprogstrukturer – trænes yderligere på et mindre, mærket datasæt. Denne proces gør det muligt for modellen at tilpasse sin brede viden til specifikke opgaver som `text classification`, `sentiment analysis` eller `named entity recognition`.

Definition

## Arbejdsgang for finjustering

Følg disse trin for at tilpasse en fortrænet model og undgå almindelige faldgruber i NLP:
- Forbered datasættet ved at rense teksten og konvertere labels til et numerisk format;
- Tokenisér inputteksten med den samme tokenizer, der blev brugt under modellens oprindelige træning;
- Indlæs den fortrænede model og udskift det sidste outputlag med et nyt "head" designet til din specifikke opgave;
- Træn modellen på dine data med en meget lav læringsrate for at undgå "katastrofal glemsel" af den oprindelige viden;
- Evaluer ydeevnen med et separat testdatasæt for at sikre, at modellen generaliserer godt til ny tekst.

## Forståelse af standardarkitekturparametre

Ved konfiguration af en Transformer-model anvendes specifikke parametre for at balancere ydeevne og beregningseffektivitet:

* **Hidden size**: Dimensionen af den vektor, der bruges til at repræsentere hvert token. 
     * En størrelse på `768` er standard for "Base"-modeller til at fange komplekse sproglige mønstre;
* **Attention heads**: Antallet bestemmer, hvor mange forskellige "perspektiver" modellen bruger til at analysere relationer mellem ord.
    - `12` heads gør det muligt for modellen at fokusere på forskellige grammatiske og semantiske træk samtidigt;
* **Intermediate size**: Normalt sat til fire gange hidden size, i dette tilfælde `3072`, hvilket bestemmer bredden af feed-forward-netværkslagene;
* **Max position embeddings**: Denne værdi definerer den maksimale sekvenslængde eller det samlede antal tokens, modellen kan behandle i én input, typisk `512`;
* **Vocab size `30522`**: Det samlede antal unikke tokens, inklusive ord og sub-ord, som modellen kan genkende og behandle;
* **Learning rate `2e-5`**: Denne lille værdi er optimal til finjustering, da den forhindrer modellen i at overskrive den nyttige viden, den har opnået under fortræning.

Hvad repræsenterer parameteren "hidden size" i en Transformer-modelarkitektur?

Hvilket af følgende er IKKE et anbefalet trin i finjusteringsprocessen for Transformers?

Behersk de grundlæggende elementer i Transformer-modeller i Python til naturlig sprogbehandling. Lær at opbygge, fortolke og anvende Transformers på tekstdata fra virkeligheden med fokus på praktiske færdigheder og modelforståelse.

Udforsk det grundlæggende i Transformer-modeller, herunder self-attention, positionskodning og arkitektur. Opbyg et solidt konceptuelt og praktisk fundament for avancerede NLP-applikationer.

Opnå færdighederne til at konstruere centrale Transformer-byggesten, herunder multi-head attention, feed-forward lag og normalisering, for effektiv tekstbehandling.

Opdag, hvordan man bruger transformers til virkelige NLP-opgaver, visualiserer attention og fortolker modelprediktioner for bedre tekstforståelse.

Hvordan Finjustering Forbedrer Transformers

Arbejdsgang for finjustering

Forståelse af standardarkitekturparametre

1. Hvad repræsenterer parameteren "hidden size" i en Transformer-modelarkitektur?

2. Hvilket af følgende er IKKE et anbefalet trin i finjusteringsprocessen for Transformers?