Leer Waarom RNN's en CNN's Tekortschieten in NLP | Begrip van Transformer-Grondslagen

Veeg om het menu te tonen

Bij natuurlijke taalverwerking strekt de structuur en betekenis van taal zich vaak uit over lange tekstgedeelten. Vroege deep learning-modellen zoals recurrente neurale netwerken (RNNs) en convolutionele neurale netwerken (CNNs) zijn aangepast uit andere domeinen om sequentiële data te verwerken, maar beide benaderingen ondervinden kritieke knelpunten bij toepassing op taal.

RNNs verwerken invoersequenties één token tegelijk en behouden een verborgen toestand die stap voor stap wordt bijgewerkt. Door deze sequentiële aard is het onmogelijk om berekeningen over tijdstappen te paralleliseren, wat de training en inferentie vertraagt. Bovendien, naarmate de sequentie langer wordt, nemen de gradiënten die door veel stappen worden teruggegeven exponentieel af – een fenomeen dat bekendstaat als het vervagende gradiëntprobleem. Hierdoor is het voor RNNs moeilijk om afhankelijkheden van verre delen van een sequentie te leren, wat vooral problematisch is bij taken zoals documentclassificatie of machinevertaling, waar context uit eerdere tekst cruciaal kan zijn.

CNNs daarentegen passen convolutionele filters toe over vensters van vaste grootte van de input. Hoewel CNNs enige parallelisatie mogelijk maken en lokale patronen efficiënt kunnen vastleggen, betekent hun lokaal receptief veld dat elke output slechts wordt beïnvloed door een beperkt contextvenster. Om langere afhankelijkheden vast te leggen, moeten veel convolutionele lagen worden gestapeld of moeten de filtergroottes worden vergroot, wat snel inefficiënt wordt en nog steeds moeite heeft om relaties tussen verre woorden in een zin te modelleren.

Deze knelpunten worden vooral duidelijk bij tekstclassificatie of sequentievoorspelling in de praktijk. Bijvoorbeeld, bij sentimentanalyse kan het sentiment van een zin afhangen van een woord aan het begin en een ander aan het einde. RNNs kunnen moeite hebben deze woorden te verbinden door vervagende gradiënten, terwijl CNNs de langeafstandsverbinding mogelijk volledig missen als deze buiten hun receptieve veld valt.

Transformers pakken deze beperkingen aan door gebruik te maken van een zelf-attentiemechanisme waarmee elk token in de input direct aandacht kan besteden aan elk ander token, ongeacht hun positie in de sequentie. Hierdoor kan het model efficiënt langeafstandsafhankelijkheden vastleggen en kunnen berekeningen over alle posities in de sequentie worden geparallelliseerd, wat de training en inferentie aanzienlijk versnelt.

De volgende tabel vat de belangrijkste verschillen samen tussen RNNs, CNNs en Transformers op eigenschappen die van belang zijn voor NLP-taken:

Deze vergelijking benadrukt waarom Transformers de voorkeursarchitectuur zijn geworden voor moderne NLP-toepassingen.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 2

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 2