Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**Utvecklingen av NLP-modeller**

Tidiga NLP-modeller byggde på rekurrenta neurala nätverk (`RNN`) och konvolutionella neurala nätverk (`CNN`). Medan RNN bearbetar text sekventiellt, tappar de ofta bort långdistanskontext. `CNN` är bra på att identifiera lokala mönster men har svårt att förstå den övergripande betydelsen i komplexa meningar. Båda arkitekturerna begränsas av långsamma träningshastigheter och oförmåga att fullt ut utnyttja modern hårdvara.

**Transformer-modellens styrka**

Transformer-arkitekturen revolutionerade området genom att introducera självuppmärksamhet. Denna mekanism möjliggör:
- Analys av alla ord i en mening samtidigt för att fånga global kontext;
- Effektivare träning av modeller genom parallell bearbetning;
- Högre noggrannhet vid översättning, summering och textgenerering;
- Fördjupad kontext och mer precisa resultat för verkliga applikationer genom att använda dessa moderna modeller.

Introducerade den ursprungliga Transformer-arkitekturen, som ersatte RNN/CNN med **självuppmärksamhet** för sekvensmodellering. Möjliggjorde parallell träning och bättre hantering av kontext.

2017: Attention is All You Need

Visade hur **förträning** på stora textkorpusar kunde ge universella språkrepresentationer. BERT:s **bidirektionella uppmärksamhet** förbättrade prestandan på många NLP-uppgifter.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Demonstrerade styrkan hos stora, **generativa språkmodeller** tränade på enorma datamängder. GPT-modeller kunde generera sammanhängande och kontextuellt relevant text.

2018 - 2019: GPT (Generative Pretrained Transformer)

Utökade Transformers för att fånga långsiktiga beroenden genom att införa **rekurrens på segmentnivå**, vilket förbättrade prestandan på långa dokument.

2019: Transformer-XL

Enade många NLP-uppgifter under ett enda ramverk genom att behandla alla uppgifter som **text-till-text-problem**, vilket ytterligare förenklade modellträning och distribution.

2020: T5 (Text-to-Text Transfer Transformer)

Varje milstolpe har flyttat gränserna för vad som är möjligt med textdata, och gjort modellerna mer kraftfulla, flexibla och användbara för verkliga NLP-utmaningar.

Påverkan av Transformer-milstolpar

Vilket av följande påståenden förklarar bäst varför Transformer-arkitekturen ersatte RNN:er och CNN:er i modern NLP?

Behärska grunderna i Transformer-modeller i Python för naturlig språkbehandling. Upptäck hur man bygger, tolkar och tillämpar Transformers på verkliga textdata, med fokus på praktiska färdigheter och modellförståelse.

Utforska grunderna i Transformer-modeller, inklusive självuppmärksamhet, positionskodning och arkitektur. Bygg en stark konceptuell och praktisk grund för avancerade NLP-applikationer.

Behärska de färdigheter som krävs för att konstruera centrala Transformer-byggblock, inklusive multi-head attention, feed-forward-lager och normalisering, för effektiv textbearbetning.

Upptäck hur man använder transformers för verkliga NLP-uppgifter, visualiserar attention och tolkar modellens prediktioner för bättre textförståelse.

Hur NLP-modeller har utvecklats