How Self-Attention Works
Stryg for at vise menuen
For at forstå, hvordan selvopmærksomhed fungerer, kan du forestille dig at læse sætningen: "The animal didn't cross the street because it was too tired." Når du støder på ordet "it", skal du forstå, hvilket substantiv "it" henviser til. Selvopmærksomhed gør det muligt for en model at se på alle ordene i sætningen og afgøre, hvilke der er mest relevante for betydningen af hvert enkelt ord. Dette opnås ved hjælp af forespørgsler (queries), nøgler (keys) og værdier (values) – matematiske repræsentationer for hvert ord, der hjælper modellen med at beregne, hvilke ord der skal gives opmærksomhed.
En nyttig måde at visualisere selvopmærksomhed på er at bruge et gitter, der viser, hvor meget hvert ord i en sætning "retter opmærksomhed mod" alle andre ord. Du kan også visualisere selvopmærksomhed ved hjælp af et heatmap, hvor hver række og kolonne svarer til et ord i sætningen. Cellefarven viser, hvor meget et ord "retter opmærksomhed mod" et andet. I heatmappet nedenfor indikerer mørkere celler stærkere opmærksomhed mellem bestemte ord. Denne visualisering hjælper dig med at se, hvilke ord modellen forbinder stærkest, mens den behandler sætningen:
Bemærk, hvordan ordet "it" har en stærk opmærksomhedsvægt mod "animal" og "tired", hvilket viser, at modellen har lært, at "it" henviser til "animal" og er forbundet med at være "tired". Disse opmærksomhedsfordelinger læres under træning og gør det muligt for modellen at opfange kontekst og relationer, uanset ordafstand i sætningen. Denne mekanisme er det, der giver Transformers deres evne til at forstå betydning i komplekst sprog.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat