Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**Utviklingen av NLP-modeller**

Tidlige NLP-modeller var basert på rekurrente nevrale nettverk (`RNN`-er) og konvolusjonsnevrale nettverk (`CNN`-er). Selv om RNN-er behandler tekst sekvensielt, mister de ofte oversikten over langdistanse-kontekst. `CNN`-er er gode på å identifisere lokale mønstre, men har utfordringer med å forstå helheten i komplekse setninger. Begge arkitekturene er begrenset av treg treningshastighet og manglende evne til å utnytte moderne maskinvare fullt ut.

**Kraften i Transformere**

Transformer-arkitekturen revolusjonerte feltet ved å introdusere selvoppmerksomhet. Denne mekanismen gjør det mulig å:
- Analysere alle ordene i en setning samtidig for å fange opp global kontekst;
- Trene modeller mer effektivt ved hjelp av parallell prosessering;
- Oppnå bedre nøyaktighet i oversettelse, oppsummering og tekstgenerering;
- Tilegne seg ferdigheter for å utnytte disse moderne modellene, som gir dypere kontekst og mer presise resultater for praktiske anvendelser.

Introduserte den originale Transformer-arkitekturen, som erstattet RNN-er/CNN-er med **selvoppmerksomhet** for sekvensmodellering. Muliggjorde parallell trening og bedre håndtering av kontekst.

2017: Attention is All You Need

Viste hvordan **forhåndstrening** på store tekstkorpuser kunne gi universelle språkrepresentasjoner. BERTs **bidireksjonale oppmerksomhet** forbedret ytelsen på mange NLP-oppgaver.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Demonstrerte styrken til store, **generative språkmodeller** trent på store mengder data. GPT-modellene kunne generere sammenhengende og kontekstuelt relevant tekst.

2018 - 2019: GPT (Generative Pretrained Transformer)

Utvidet Transformere for å fange opp lengre avhengigheter ved å introdusere **rekurrens på segmentnivå**, noe som forbedret ytelsen på lange dokumenter.

2019: Transformer-XL

Forente mange NLP-oppgaver under ett rammeverk ved å behandle alle oppgaver som **tekst-til-tekst-problemer**, noe som ytterligere forenklet modelltrening og implementering.

2020: T5 (Text-to-Text Transfer Transformer)

Hvert milepæl har flyttet grensene for hva som er mulig med tekstdata, og gjort modellene mer kraftfulle, fleksible og anvendelige for reelle NLP-utfordringer.

Innvirkning av Transformer-milepæler

Hvilket av følgende utsagn forklarer best hvorfor Transformer-arkitekturen erstattet RNN-er og CNN-er i moderne NLP?

Lær det grunnleggende om Transformer-modeller i Python for naturlig språkprosessering. Oppdag hvordan du bygger, tolker og anvender Transformers på tekstdata fra virkeligheten, med fokus på praktiske ferdigheter og modellforståelse.

Utforsk det grunnleggende ved Transformer-modeller, inkludert selvoppmerksomhet, posisjonell koding og arkitektur. Bygg et solid konseptuelt og praktisk grunnlag for avanserte NLP-applikasjoner.

Behersk ferdighetene som trengs for å konstruere sentrale Transformer-byggesteiner, inkludert multi-head attention, feed-forward-lag og normalisering, for effektiv tekstbehandling.

Utforsk hvordan du kan bruke Transformers til reelle NLP-oppgaver, visualisere oppmerksomhet og tolke modellprediksjoner for bedre tekstforståelse.

Hvordan NLP-modeller har utviklet seg