Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**Die Entwicklung von NLP-Modellen**

Frühe NLP-Modelle basierten auf rekurrenten neuronalen Netzen (`RNN`) und konvolutionalen neuronalen Netzen (`CNN`). Während RNNs Text sequenziell verarbeiten, verlieren sie häufig den Überblick über weit entfernte Zusammenhänge. `CNN` sind hervorragend darin, lokale Muster zu erkennen, haben jedoch Schwierigkeiten mit der Gesamtbedeutung komplexer Sätze. Beide Architekturen sind durch langsame Trainingsgeschwindigkeiten und die Unfähigkeit, moderne Hardware vollständig auszunutzen, eingeschränkt.

**Die Stärke der Transformer**

Die Transformer-Architektur hat das Gebiet durch die Einführung von Self-Attention revolutioniert. Dieser Mechanismus ermöglicht es:
- Alle Wörter eines Satzes gleichzeitig zu analysieren, um den globalen Kontext zu erfassen;
- Modelle effizienter durch parallele Verarbeitung zu trainieren;
- Überlegene Genauigkeit bei Übersetzung, Zusammenfassung und Textgenerierung zu erreichen;
- Die Fähigkeiten zu erwerben, diese modernen Modelle zu nutzen, die einen tieferen Kontext und präzisere Ergebnisse für reale Anwendungen bieten.

Einführung der ursprünglichen Transformer-Architektur, die RNNs/CNNs durch **Self-Attention** für die Sequenzmodellierung ersetzt. Ermöglichte paralleles Training und eine bessere Kontextverarbeitung.

2017: Attention is All You Need

Zeigte, wie **Pre-Training** auf großen Textkorpora universelle Sprachrepräsentationen liefern kann. BERTs **bidirektionale Aufmerksamkeit** verbesserte die Leistung bei vielen NLP-Aufgaben.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Demonstrierte die Leistungsfähigkeit großer, **generativer Sprachmodelle**, die auf riesigen Datenmengen trainiert wurden. GPT-Modelle konnten zusammenhängende, kontextuell relevante Texte generieren.

2018 - 2019: GPT (Generative Pretrained Transformer)

Erweiterte Transformer, um längerfristige Abhängigkeiten zu erfassen, indem **Rekurrenz auf Segmentebene** eingeführt wurde, was die Leistung bei langen Dokumenten verbesserte.

2019: Transformer-XL

Vereinte viele NLP-Aufgaben in einem einzigen Framework, indem alle Aufgaben als **Text-zu-Text-Probleme** behandelt wurden, was das Modelltraining und die Bereitstellung weiter vereinfachte.

2020: T5 (Text-to-Text Transfer Transformer)

Jeder Meilenstein hat die Grenzen dessen verschoben, was mit Textdaten möglich ist, und die Modelle leistungsfähiger, flexibler und anwendbarer für reale NLP-Herausforderungen gemacht.

Auswirkungen der Transformer-Meilensteine

Welche der folgenden Aussagen erklärt am besten, warum die Transformer-Architektur RNNs und CNNs in der modernen NLP abgelöst hat?

Beherrschen Sie die Grundlagen von Transformer-Modellen in Python für die Verarbeitung natürlicher Sprache. Entdecken Sie, wie man Transformer-Modelle erstellt, interpretiert und auf reale Textdaten anwendet, mit Fokus auf praktische Fähigkeiten und Modellverständnis.

Erkunden Sie die Grundlagen von Transformer-Modellen, einschließlich Self-Attention, Positionskodierung und Architektur. Aufbau eines soliden konzeptionellen und praktischen Fundaments für fortgeschrittene NLP-Anwendungen.

Beherrschung der Fähigkeiten zum Aufbau zentraler Transformer-Bausteine, einschließlich Multi-Head-Attention, Feed-Forward-Schichten und Normalisierung, für eine effektive Textverarbeitung.

Erfahren Sie, wie Transformer für reale NLP-Aufgaben eingesetzt werden, wie man Aufmerksamkeit visualisiert und Modellvorhersagen interpretiert, um ein besseres Textverständnis zu erreichen.

Wie sich NLP-Modelle entwickelt haben