Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad er Multi-Head Attention | Opbygning af Transformer-Komponenter
Transformers til Naturlig Sprogbehandling

bookHvad er Multi-Head Attention

Stryg for at vise menuen

Multi-head attention er en kraftfuld mekanisme, der er central i Transformer-arkitekturen. Hovedideen er at lade modellen fokusere på forskellige dele af en sætning samtidigt og dermed opfange et bredt spektrum af relationer mellem ord. For at opnå dette opdeler modellen hvert ords embedding i flere mindre vektorer, kaldet "hoveder." Hvert hoved udfører sin egen opmærksomhedsberegning parallelt. Det betyder, at mens ét hoved kan lære at fokusere på de nærmeste naboer til et ord, kan et andet rette opmærksomheden mod begyndelsen af sætningen, og et tredje kan følge relationer over længere afstande.

Denne parallelle opmærksomhed gør det muligt for Transformer-modellen at opfange forskellige mønstre og afhængigheder i tekstdata. For eksempel, i en sætning som "The cat, which was hungry, chased the mouse," kan ét hoved fokusere på hovedsubjektet og verbet ("cat" og "chased"), mens et andet kan fokusere på den beskrivende bisætning ("which was hungry"). Ved at kombinere output fra alle hoveder opbygger modellen en langt rigere forståelse af hele sætningen, end hvad en enkelt opmærksomhedsmekanisme kunne give.

For at visualisere, hvordan multi-head attention fungerer, kan man forestille sig et gitter, hvor hver række repræsenterer et ord i input-sætningen, og hver kolonne repræsenterer et opmærksomhedshoved. Hver celle i dette gitter viser, hvilke ord et bestemt hoved retter opmærksomheden mod for et givent ord. For eksempel, hvis du har sætningen:

"She enjoys reading books at night"

Antag, at du har tre opmærksomhedshoveder. Det visuelle gitter kunne se sådan ud:

I dette gitter lærer hvert hoved at fokusere på forskellige relationer. "Hoved 1" kan følge den grammatiske struktur, "Hoved 2" kan fokusere på subjektet, og "Hoved 3" kan være opmærksom på sted eller tid. Denne mangfoldighed i fokus er det, der giver multi-head attention sin styrke til at forstå komplekse sproglige strukturer.

question mark

Hvad er den primære fordel ved at bruge multi-head attention i Transformer-modeller?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 1
some-alt