Lernen Wie Selbstaufmerksamkeit Funktioniert | Understanding Transformer Foundations

Swipe um das Menü anzuzeigen

Um zu verstehen, wie Self-Attention funktioniert, stelle dir vor, du liest den Satz: „The animal didn't cross the street because it was too tired.“ Wenn du auf das Wort „it“ stößt, musst du verstehen, auf welches Substantiv sich „it“ bezieht. Self-Attention ermöglicht es einem Modell, alle Wörter im Satz zu betrachten und zu entscheiden, welche für die Bedeutung jedes einzelnen Wortes am relevantesten sind. Dies wird mithilfe von Queries, Keys und Values erreicht – mathematische Repräsentationen für jedes Wort, die dem Modell helfen zu berechnen, auf welche Wörter es achten soll.

Eine hilfreiche Möglichkeit, Self-Attention zu visualisieren, ist die Verwendung eines Rasters, das zeigt, wie stark jedes Wort in einem Satz auf jedes andere Wort „achtet“. Außerdem kann man Self-Attention mit einer Heatmap darstellen, wobei jede Zeile und Spalte einem Wort im Satz entspricht. Die Farbe der Zelle zeigt an, wie stark ein Wort auf ein anderes „achtet“. In der untenstehenden Heatmap deuten dunklere Zellen auf eine stärkere Aufmerksamkeit zwischen bestimmten Wörtern hin. Diese Visualisierung hilft dabei zu erkennen, welche Wörter das Modell beim Verarbeiten des Satzes besonders stark miteinander verbindet:

Beachte, dass das Wort „it“ eine starke Attention-Gewichtung auf „animal“ und „tired“ hat, was zeigt, dass das Modell gelernt hat, dass sich „it“ auf „animal“ bezieht und mit „tired“ verknüpft ist. Diese Attention-Verteilungen werden während des Trainings gelernt und ermöglichen es dem Modell, Kontext und Beziehungen unabhängig von der Wortdistanz im Satz zu erfassen. Dieser Mechanismus verleiht Transformern ihre Fähigkeit, Bedeutung in komplexer Sprache zu verstehen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 4