Leer Waaruit Bestaat een Transformer-Architectuur | Begrip van Transformer-Grondslagen

Veeg om het menu te tonen

Een Transformer bestaat uit twee hoofdonderdelen: de encoder en de decoder. De encoder leest en vat de invoertekst samen, waarbij de betekenis en context van elk woord in relatie tot de andere woorden wordt vastgelegd. De decoder gebruikt vervolgens deze samenvatting, samen met zijn eigen aandacht voor eerder gegenereerde woorden, om de uiteindelijke output te produceren – zoals een vertaling of samenvatting. Dit ontwerp stelt Transformers in staat om een breed scala aan NLP-taken efficiënter en nauwkeuriger uit te voeren dan traditionele benaderingen.

Definitie

Encoder: verwerkt invoersequenties door hun betekenis samen te vatten en relaties tussen woorden vast te leggen met behulp van self-attention en feed-forward lagen.

Decoder: genereert outputsequenties, zoals vertalingen of voorspellingen, door zowel aandacht te besteden aan eerder gegenereerde outputs als aan de representaties van de encoder.

Het attention-mechanisme is een kernonderdeel van de Transformer-architectuur dat het model in staat stelt te bepalen welke woorden in een reeks het belangrijkst zijn bij het verwerken of genereren van taal. Attention kun je zien als een manier waarop het model zich kan "focussen" op bepaalde woorden tijdens het lezen van een zin, vergelijkbaar met hoe je zelf extra aandacht besteedt aan sleutelwoorden bij het begrijpen van een complexe instructie.

Bijvoorbeeld, in de zin "The cat sat on the mat because it was tired," helpt attention het model te achterhalen dat "it" verwijst naar "the cat" door te kijken naar de relaties tussen woorden. Dit proces werkt ongeacht de positie van het woord, waardoor attention centraal staat in hoe Transformers taal begrijpen.

Hieronder staat een vereenvoudigd diagram van de algemene Transformer-architectuur, waarin de informatiestroom tussen de encoder, decoder en aandachtmechanismen wordt weergegeven:

Hier zie je hoe invoertekst eerst wordt omgezet in embeddings en positioneel wordt gecodeerd voordat deze door de encoderstack gaat. De uitvoer van de encoder wordt vervolgens doorgegeven aan de decoderstack, die zowel eigen zelfaandacht als encoder-decoder-aandacht gebruikt om de uiteindelijke uitvoer te genereren.

Transformers brachten verschillende innovaties die de meest geavanceerde NLP-modellen van vandaag aandrijven:

Zelfaandacht: legt relaties vast tussen alle woorden in een reeks, zodat het model context begrijpt ongeacht de volgorde van de woorden;
Parallelle verwerking: verwerkt elk woord gelijktijdig, waardoor training en inferentie veel sneller verlopen;
Geen recursie of convolutie: vermijdt de beperkingen van RNN's en CNN's, wat resulteert in een eenvoudiger en beter schaalbaar ontwerp;
Positionele codering: geeft het model een gevoel van woordvolgorde, waardoor het de structuur van een reeks begrijpt.

Deze eigenschappen maken Transformers tot de ruggengraat van toonaangevende toepassingen zoals machinetranslatie en samenvatten van tekst.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 3