Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**De evolutie van NLP-modellen**

Vroege NLP-modellen maakten gebruik van recurrente neurale netwerken (`RNN`s) en convolutionele neurale netwerken (`CNN`s). Terwijl RNN's tekst sequentieel verwerken, verliezen ze vaak het overzicht over langeafstandscontext. `CNN`s zijn goed in het herkennen van lokale patronen, maar hebben moeite met de algemene betekenis van complexe zinnen. Beide architecturen worden beperkt door trage trainingssnelheden en het onvermogen om moderne hardware volledig te benutten.

**De kracht van Transformers**

De Transformer-architectuur bracht een revolutie teweeg door de introductie van self-attention. Dit mechanisme maakt het mogelijk om:
- Alle woorden in een zin gelijktijdig te analyseren om globale context vast te leggen;
- Modellen efficiënter te trainen door parallelle verwerking;
- Betere nauwkeurigheid te behalen bij vertaling, samenvatting en tekstgeneratie;
- Vaardigheden te ontwikkelen om deze moderne modellen te benutten, die diepere context en preciezere resultaten bieden voor praktische toepassingen.

Introduceerde de originele Transformer-architectuur, waarbij RNN's/CNN's werden vervangen door **self-attention** voor sequentiemodellering. Maakte parallel trainen en betere omgang met context mogelijk.

2017: Attention is All You Need

Toonde aan hoe **pre-training** op grote tekstcorpora universele taalrepresentaties kon opleveren. BERT's **bidirectionele aandacht** verbeterde de prestaties op veel NLP-taken.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Toonde de kracht aan van grote, **generatieve taalmodellen** getraind op enorme hoeveelheden data. GPT-modellen konden samenhangende, contextueel relevante tekst genereren.

2018 - 2019: GPT (Generative Pretrained Transformer)

Breidde Transformers uit om langere afhankelijkheden vast te leggen door **recurrence op segmentniveau** te introduceren, wat de prestaties op lange documenten verbeterde.

2019: Transformer-XL

Unificeerde veel NLP-taken onder één framework door alle taken als **tekst-naar-tekstproblemen** te behandelen, wat modeltraining en implementatie verder vereenvoudigde.

2020: T5 (Text-to-Text Transfer Transformer)

Elke mijlpaal heeft de grenzen verlegd van wat mogelijk is met tekstdata, waardoor modellen krachtiger, flexibeler en toepasbaarder zijn geworden voor echte NLP-uitdagingen.

Impact van Transformer-mijlpalen

Welke van de volgende uitspraken verklaart het beste waarom de Transformer-architectuur RNN's en CNN's heeft vervangen in moderne NLP?

Beheers de essentie van Transformer-modellen in Python voor natuurlijke taalverwerking. Ontdek hoe je Transformers bouwt, interpreteert en toepast op tekstgegevens uit de praktijk, met nadruk op praktische vaardigheden en modelinzicht.

Verken de essentie van Transformer-modellen, inclusief self-attention, positionele codering en architectuur. Bouw een sterke conceptuele en praktische basis voor geavanceerde NLP-toepassingen.

Beheers de vaardigheden die nodig zijn om kernonderdelen van Transformers te construeren, waaronder multi-head attention, feed-forward lagen en normalisatie, voor effectieve tekstverwerking.

Ontdek hoe Transformers kunnen worden gebruikt voor praktische NLP-taken, visualiseer aandacht en interpreteer modelvoorspellingen voor een beter tekstbegrip.

How NLP-Modelen Zich Hebben Ontwikkeld