Lernen What Is Multi-Head Attention | Building Transformer Components

Swipe um das Menü anzuzeigen

Multi-Head Attention ist ein leistungsstarker Mechanismus im Kern der Transformer-Architektur. Die zentrale Idee besteht darin, dem Modell zu ermöglichen, sich gleichzeitig auf verschiedene Teile eines Satzes zu konzentrieren und so eine Vielzahl von Beziehungen zwischen Wörtern zu erfassen. Dazu teilt das Modell die Einbettung jedes Wortes in mehrere kleinere Vektoren auf, die als „Köpfe“ bezeichnet werden. Jeder Kopf führt seine eigene Aufmerksamkeitsberechnung parallel aus. Das bedeutet, dass ein Kopf beispielsweise die unmittelbaren Nachbarn eines Wortes fokussieren kann, während ein anderer den Satzanfang betrachtet und ein weiterer Beziehungen über größere Distanzen hinweg verfolgt.

Diese parallele Aufmerksamkeit ermöglicht es dem Transformer, vielfältige Muster und Abhängigkeiten in Textdaten zu erfassen. In einem Satz wie "The cat, which was hungry, chased the mouse," könnte sich ein Kopf auf das Subjekt und das Verb ("cat" und "chased") konzentrieren, während ein anderer die beschreibende Nebenklausel ("which was hungry") betrachtet. Durch die Kombination der Ausgaben aller Köpfe erhält das Modell ein wesentlich umfassenderes Verständnis des gesamten Satzes, als es ein einzelner Aufmerksamkeitsmechanismus leisten könnte.

Um zu veranschaulichen, wie Multi-Head Attention funktioniert, stellen Sie sich ein Raster vor, bei dem jede Zeile ein Wort im Eingabesatz und jede Spalte einen Attention-Kopf darstellt. Jede Zelle in diesem Raster zeigt, auf welche Wörter ein bestimmter Kopf für ein gegebenes Wort achtet. Wenn Sie zum Beispiel den Satz haben:

"She enjoys reading books at night"

Angenommen, es gibt drei Attention-Köpfe. Das visuelle Raster könnte folgendermaßen aussehen:

In diesem Raster lernt jeder Kopf, sich auf unterschiedliche Beziehungen zu konzentrieren. "Kopf 1" könnte den grammatikalischen Ablauf verfolgen, "Kopf 2" könnte sich auf das Subjekt konzentrieren und "Kopf 3" könnte auf Ort oder Zeit achten. Diese Vielfalt an Fokussen verleiht der Multi-Head Attention ihre Stärke beim Verständnis komplexer Sprachstrukturen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 2. Kapitel 1