Como o Self-Attention Funciona
Deslize para mostrar o menu
Para compreender como a autoatenção funciona, imagine ler a frase: "The animal didn't cross the street because it was too tired." Ao encontrar a palavra "it", é necessário entender a qual substantivo "it" se refere. A autoatenção permite que um modelo analise todas as palavras da frase e decida quais são mais relevantes para o significado de cada palavra. Isso é realizado por meio de queries, keys e values – representações matemáticas para cada palavra que ajudam o modelo a calcular para quais palavras deve prestar mais atenção.
Uma maneira útil de visualizar a autoatenção é usar uma grade que mostra o quanto cada palavra em uma frase "presta atenção" em todas as outras. Também é possível visualizar a autoatenção utilizando um mapa de calor, onde cada linha e coluna corresponde a uma palavra da frase. A cor da célula indica o quanto uma palavra "presta atenção" em outra. No mapa de calor abaixo, células mais escuras indicam uma atenção mais forte entre palavras específicas. Esse recurso visual ajuda a identificar quais palavras o modelo conecta com mais intensidade ao processar a frase:
Observe como a palavra "it" possui um peso de atenção forte em relação a "animal" e "tired", mostrando que o modelo aprendeu que "it" se refere a "animal" e está relacionado a estar "tired". Essas distribuições de atenção são aprendidas durante o treinamento e permitem que o modelo capture contexto e relações, independentemente da distância entre as palavras na frase. Esse mecanismo é o que confere aos Transformers a capacidade de compreender o significado em linguagem complexa.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo