Impara Che cos'è la Multi-Head Attention | Costruire Componenti Dei Transformer

Scorri per mostrare il menu

L'attenzione multi-testa è un meccanismo potente al centro dell'architettura Transformer. La sua idea principale è permettere al modello di concentrarsi su diverse parti di una frase simultaneamente, catturando una vasta gamma di relazioni tra le parole. Per ottenere questo risultato, il modello suddivide l'embedding di ogni parola in diversi vettori più piccoli, chiamati "teste". Ogni testa esegue il proprio calcolo di attenzione in parallelo. Questo significa che, mentre una testa può imparare a concentrarsi sui vicini immediati di una parola, un'altra può prestare attenzione all'inizio della frase, e un'altra ancora può seguire relazioni su distanze più lunghe.

Questa attenzione parallela consente al Transformer di catturare schemi e dipendenze diversificate nei dati testuali. Ad esempio, in una frase come "The cat, which was hungry, chased the mouse," una testa potrebbe concentrarsi sul soggetto principale e sul verbo ("cat" e "chased"), mentre un'altra potrebbe focalizzarsi sulla proposizione descrittiva ("which was hungry"). Combinando gli output di tutte le teste, il modello costruisce una comprensione molto più ricca dell'intera frase rispetto a quanto potrebbe fare un singolo meccanismo di attenzione.

Per visualizzare come funziona l'attenzione multi-testa, immagina una griglia in cui ogni riga rappresenta una parola nella frase di input e ogni colonna rappresenta una testa di attenzione. Ogni cella di questa griglia mostra a quali parole una determinata testa sta prestando attenzione per una data parola. Ad esempio, se hai la frase:

"She enjoys reading books at night"

Supponiamo di avere tre teste di attenzione. La griglia visiva potrebbe apparire così:

In questa griglia, ogni testa impara a concentrarsi su diverse relazioni. "Testa 1" potrebbe seguire il flusso grammaticale, "Testa 2" potrebbe concentrarsi sul soggetto e "Testa 3" potrebbe prestare attenzione alla posizione o al tempo. Questa diversità di attenzione è ciò che conferisce al meccanismo di multi-head attention la sua forza nella comprensione di strutture linguistiche complesse.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 1

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 2. Capitolo 1