Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**Udviklingen af NLP-modeller**

Tidlige NLP-modeller var baseret på rekursive neurale netværk (`RNN`s) og konvolutionelle neurale netværk (`CNN`s). Mens RNN'er behandler tekst sekventielt, mister de ofte overblikket over langdistancekontekst. `CNN`s er gode til at identificere lokale mønstre, men har svært ved at forstå den overordnede betydning af komplekse sætninger. Begge arkitekturer er begrænset af langsomme træningshastigheder og manglende evne til fuldt ud at udnytte moderne hardware.

**Transformerens styrke**

Transformer-arkitekturen revolutionerede området ved at introducere self-attention. Denne mekanisme gør det muligt at:
- Analysere alle ord i en sætning samtidigt for at opfange global kontekst;
- Træne modeller mere effektivt ved hjælp af parallel behandling;
- Opnå bedre nøjagtighed i oversættelse, opsummering og tekstgenerering;
- Tilegne sig færdighederne til at udnytte disse moderne modeller, som giver dybere kontekst og mere præcise resultater til virkelige anvendelser.

Introducerede den oprindelige Transformer-arkitektur, som erstattede RNN'er/CNN'er med **self-attention** til sekvensmodellering. Muliggjorde parallel træning og bedre håndtering af kontekst.

2017: Attention is All You Need

Viste hvordan **pre-training** på store tekstkorpusser kunne give universelle sprogrepræsentationer. BERT's **bidirektionelle attention** forbedrede præstationen på mange NLP-opgaver.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Demonstrerede styrken af store, **generative sprogmodeller** trænet på enorme datamængder. GPT-modeller kunne generere sammenhængende og kontekstuelt relevant tekst.

2018 - 2019: GPT (Generative Pretrained Transformer)

Udvidede Transformers til at opfange længerevarende afhængigheder ved at introducere **recurrence på segmentniveau**, hvilket forbedrede præstationen på lange dokumenter.

2019: Transformer-XL

Forenede mange NLP-opgaver under ét rammeværk ved at behandle alle opgaver som **tekst-til-tekst-problemer**, hvilket yderligere forenklede modeltræning og implementering.

2020: T5 (Text-to-Text Transfer Transformer)

Hvert gennembrud har udvidet grænserne for, hvad der kan opnås med tekstdata, og gjort modellerne mere kraftfulde, fleksible og anvendelige til virkelige NLP-udfordringer.

Indflydelse af Transformer-gennembrud

Hvilken af følgende udsagn forklarer bedst, hvorfor Transformer-arkitekturen har erstattet RNN'er og CNN'er i moderne NLP?

Behersk de grundlæggende elementer i Transformer-modeller i Python til naturlig sprogbehandling. Lær at opbygge, fortolke og anvende Transformers på tekstdata fra virkeligheden med fokus på praktiske færdigheder og modelforståelse.

Udforsk det grundlæggende i Transformer-modeller, herunder self-attention, positionskodning og arkitektur. Opbyg et solidt konceptuelt og praktisk fundament for avancerede NLP-applikationer.

Opnå færdighederne til at konstruere centrale Transformer-byggesten, herunder multi-head attention, feed-forward lag og normalisering, for effektiv tekstbehandling.

Opdag, hvordan man bruger transformers til virkelige NLP-opgaver, visualiserer attention og fortolker modelprediktioner for bedre tekstforståelse.

Hvordan NLP-modeller Har Udviklet Sig