Lernen Warum RNNs und CNNs im NLP Unzureichend Sind | Understanding Transformer Foundations

Swipe um das Menü anzuzeigen

Bei der Verarbeitung natürlicher Sprache erstrecken sich Struktur und Bedeutung oft über lange Textabschnitte. Frühe Deep-Learning-Modelle wie Recurrent Neural Networks (RNNs) und Convolutional Neural Networks (CNNs) wurden aus anderen Bereichen übernommen, um sequenzielle Daten zu verarbeiten. Beide Ansätze stoßen jedoch auf entscheidende Engpässe, wenn sie auf Sprache angewendet werden.

RNNs verarbeiten Eingabesequenzen Token für Token und halten dabei einen versteckten Zustand, der Schritt für Schritt aktualisiert wird. Diese sequenzielle Verarbeitung verhindert die Parallelisierung von Berechnungen über Zeitschritte hinweg, was das Training und die Inferenz verlangsamt. Zudem schrumpfen die Gradienten, die über viele Schritte zurückgegeben werden, exponentiell – ein Phänomen, das als Vanishing Gradient Problem bekannt ist. Dadurch fällt es RNNs schwer, Abhängigkeiten aus weit entfernten Teilen einer Sequenz zu lernen, was insbesondere bei Aufgaben wie Dokumentklassifikation oder maschineller Übersetzung problematisch ist, bei denen Kontext aus früheren Textteilen entscheidend sein kann.

CNNs hingegen wenden Faltungsfilter auf feste Fenstergrößen der Eingabe an. Während CNNs eine gewisse Parallelisierung ermöglichen und lokale Muster effizient erfassen können, sorgen ihre lokalen Rezeptivfelder dafür, dass jede Ausgabe nur von einem begrenzten Kontextfenster beeinflusst wird. Um längere Abhängigkeiten zu erfassen, müssen viele Faltungsschichten gestapelt oder die Filtergrößen erhöht werden, was schnell ineffizient wird und dennoch Schwierigkeiten bereitet, Beziehungen zwischen weit entfernten Wörtern in einem Satz abzubilden.

Diese Engpässe treten besonders bei realen Aufgaben wie Textklassifikation oder Sequenzvorhersage zutage. Beispielsweise kann bei der Sentiment-Analyse die Stimmung eines Satzes von einem Wort am Anfang und einem weiteren am Ende abhängen. RNNs haben Schwierigkeiten, diese Wörter aufgrund verschwindender Gradienten zu verbinden, während CNNs die langfristige Verbindung möglicherweise vollständig übersehen, wenn sie außerhalb ihres Rezeptivfeldes liegt.

Transformer überwinden diese Einschränkungen durch den Einsatz eines Self-Attention-Mechanismus, der es jedem Token im Input ermöglicht, direkt auf jedes andere Token zu achten – unabhängig von dessen Position in der Sequenz. Dadurch kann das Modell effizient langfristige Abhängigkeiten erfassen und Berechnungen über alle Positionen der Sequenz parallelisieren, was das Training und die Inferenz erheblich beschleunigt.

Die folgende Tabelle fasst die wichtigsten Unterschiede zwischen RNNs, CNNs und Transformern in Bezug auf für NLP-Aufgaben relevante Eigenschaften zusammen:

Dieser Vergleich verdeutlicht, warum Transformer zur bevorzugten Architektur für moderne NLP-Anwendungen geworden sind.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 2