Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Wat is multi-head attention | Transformercomponenten Bouwen
Transformers voor Natuurlijke Taalverwerking

bookWat is multi-head attention

Veeg om het menu te tonen

Multi-head attention is een krachtig mechanisme dat centraal staat in de Transformer-architectuur. Het belangrijkste idee is dat het model zich gelijktijdig op verschillende delen van een zin kan richten, waardoor het een breed scala aan relaties tussen woorden kan vastleggen. Om dit te bereiken splitst het model de embedding van elk woord in meerdere kleinere vectoren, zogenaamde "heads." Elke head voert zijn eigen aandachtberekening parallel uit. Dit betekent dat terwijl de ene head zich richt op de directe buren van een woord, een andere zich kan richten op het begin van de zin, en weer een andere relaties over langere afstanden kan volgen.

Deze parallelle aandacht stelt de Transformer in staat om diverse patronen en afhankelijkheden in tekstdata vast te leggen. Bijvoorbeeld, in een zin als "The cat, which was hungry, chased the mouse," kan één head zich richten op het hoofdonderwerp en het werkwoord ("cat" en "chased"), terwijl een andere zich kan richten op de beschrijvende bijzin ("which was hungry"). Door de uitkomsten van alle heads te combineren, bouwt het model een veel rijker begrip van de gehele zin op dan een enkel aandachtmechanisme zou kunnen bieden.

Om te visualiseren hoe multi-head attention werkt, kun je je een raster voorstellen waarbij elke rij een woord in de invoerzin vertegenwoordigt en elke kolom een attention head. Elke cel in dit raster laat zien op welke woorden een bepaalde head zich richt voor een gegeven woord. Stel bijvoorbeeld dat je de zin hebt:

"She enjoys reading books at night"

Stel dat je drie attention heads hebt. Het visuele raster zou er als volgt uit kunnen zien:

In dit raster leert elk hoofd zich te richten op verschillende relaties. "Hoofd 1" kan de grammaticale structuur volgen, "Hoofd 2" kan zich richten op het onderwerp, en "Hoofd 3" kan letten op locatie of tijd. Deze diversiteit in focus geeft multi-head attention zijn kracht bij het begrijpen van complexe taalstructuren.

question mark

Wat is het belangrijkste voordeel van het gebruik van multi-head attention in Transformer-modellen?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 2. Hoofdstuk 1
some-alt