Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda O Que É Atenção Multi-Cabeça | Construindo Componentes de Transformers
Transformers para Processamento de Linguagem Natural

bookO Que É Atenção Multi-Cabeça

Deslize para mostrar o menu

Atenção multi-cabeça é um mecanismo poderoso no centro da arquitetura Transformer. Sua ideia central é permitir que o modelo foque em diferentes partes de uma frase simultaneamente, capturando uma ampla variedade de relações entre as palavras. Para isso, o modelo divide a incorporação de cada palavra em vários vetores menores, chamados de "cabeças". Cada cabeça executa seu próprio cálculo de atenção em paralelo. Isso significa que, enquanto uma cabeça pode aprender a focar nos vizinhos imediatos de uma palavra, outra pode prestar atenção ao início da frase, e ainda outra pode acompanhar relações em distâncias maiores.

Essa atenção paralela permite que o Transformer capture padrões e dependências diversos em dados de texto. Por exemplo, em uma frase como "The cat, which was hungry, chased the mouse," uma cabeça pode focar no sujeito principal e no verbo ("cat" e "chased"), enquanto outra pode focar na oração descritiva ("which was hungry"). Ao combinar as saídas de todas as cabeças, o modelo constrói uma compreensão muito mais rica de toda a frase do que qualquer mecanismo de atenção único poderia fornecer.

Para visualizar como a atenção multi-cabeça funciona, imagine uma grade onde cada linha representa uma palavra na frase de entrada e cada coluna representa uma cabeça de atenção. Cada célula dessa grade mostra para quais palavras uma determinada cabeça está prestando atenção para uma palavra específica. Por exemplo, se você tem a frase:

"She enjoys reading books at night"

Suponha que você tenha três cabeças de atenção. A grade visual pode se parecer com isto:

Nesta grade, cada cabeça está aprendendo a focar em diferentes relacionamentos. "Cabeça 1" pode acompanhar o fluxo gramatical, "Cabeça 2" pode focar no sujeito e "Cabeça 3" pode prestar atenção à localização ou ao tempo. Essa diversidade de foco é o que dá à atenção multi-cabeça sua força para compreender estruturas linguísticas complexas.

question mark

Qual é o principal benefício de usar atenção multi-cabeça em modelos Transformer?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 2. Capítulo 1
some-alt