What Makes Up a Transformer-Architektur
Swipe um das Menü anzuzeigen
Ein Transformer besteht aus zwei Hauptkomponenten: dem encoder und dem decoder. Der Encoder liest und fasst den Eingabetext zusammen, wobei die Bedeutung und der Kontext jedes Wortes im Verhältnis zu den anderen erfasst werden. Der Decoder nutzt diese Zusammenfassung zusammen mit seiner eigenen Aufmerksamkeit auf zuvor generierte Wörter, um die endgültige Ausgabe zu erzeugen – beispielsweise eine Übersetzung oder Zusammenfassung. Dieses Design ermöglicht es Transformern, eine Vielzahl von NLP-Aufgaben effizienter und genauer als herkömmliche Ansätze zu bewältigen.
Encoder: verarbeitet Eingabesequenzen, indem deren Bedeutung zusammengefasst und Beziehungen zwischen Wörtern mithilfe von Self-Attention- und Feedforward-Schichten erfasst werden.
Decoder: erzeugt Ausgabesequenzen, wie Übersetzungen oder Vorhersagen, indem sowohl auf zuvor generierte Ausgaben als auch auf die Repräsentationen des Encoders geachtet wird.
Der Aufmerksamkeitsmechanismus ist ein zentrales Element der Transformer-Architektur, das es dem Modell ermöglicht, zu bestimmen, welche Wörter in einer Sequenz beim Verarbeiten oder Generieren von Sprache am wichtigsten sind. Aufmerksamkeit kann als eine Methode betrachtet werden, mit der das Modell sich auf bestimmte Wörter konzentriert, ähnlich wie man beim Lesen eines Satzes Schlüsselwörtern besondere Beachtung schenkt, um eine komplexe Anweisung zu verstehen.
Zum Beispiel hilft in dem Satz „Die Katze saß auf der Matte, weil sie müde war“ die Aufmerksamkeit dem Modell dabei, zu erkennen, dass sich „sie“ auf „die Katze“ bezieht, indem die Beziehungen zwischen den Wörtern betrachtet werden. Dieser Prozess funktioniert unabhängig von der Wortposition und macht Aufmerksamkeit zu einem zentralen Bestandteil des Sprachverständnisses von Transformern.
Nachfolgend ein vereinfachtes Diagramm der gesamten Transformer-Architektur, das den Informationsfluss zwischen Encoder, Decoder und Aufmerksamkeitsmechanismen hervorhebt:
Es ist ersichtlich, wie der Eingabetext zunächst eingebettet und positionscodiert wird, bevor er durch den Encoder-Stack geleitet wird. Die Ausgabe des Encoders wird anschließend in den Decoder-Stack eingespeist, der sowohl eigene Selbstaufmerksamkeit als auch Encoder-Decoder-Aufmerksamkeit nutzt, um die endgültige Ausgabe zu erzeugen.
Transformer brachten mehrere Innovationen hervor, die die fortschrittlichsten NLP-Modelle von heute antreiben:
- Selbstaufmerksamkeit: erfasst Beziehungen zwischen allen Wörtern einer Sequenz, sodass das Modell Kontext unabhängig von der Wortreihenfolge versteht;
- Parallele Verarbeitung: verarbeitet jedes Wort gleichzeitig, was Training und Inferenz deutlich beschleunigt;
- Keine Rekurrenz oder Faltung: vermeidet die Einschränkungen von RNNs und CNNs und ermöglicht ein einfacheres und skalierbareres Design;
- Positionscodierung: verleiht dem Modell ein Verständnis für die Wortreihenfolge und ermöglicht das Erfassen der Sequenzstruktur.
Diese Eigenschaften machen Transformer zum Rückgrat moderner Anwendungen wie maschinelle Übersetzung und Textzusammenfassung.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen