Componentes de uma Arquitetura Transformer
Deslize para mostrar o menu
Um Transformer é composto por duas partes principais: o encoder e o decoder. O encoder lê e resume o texto de entrada, capturando o significado e o contexto de cada palavra em relação às outras. O decoder utiliza esse resumo, juntamente com sua própria atenção às palavras previamente geradas, para produzir a saída final – como uma tradução ou um resumo. Esse design permite que Transformers lidem com uma ampla variedade de tarefas de PLN de forma mais eficiente e precisa do que abordagens tradicionais.
Encoder: processa sequências de entrada resumindo seu significado e capturando relações entre palavras utilizando camadas de self-attention e feed-forward.
Decoder: gera sequências de saída, como traduções ou previsões, ao considerar tanto as saídas previamente geradas quanto as representações do encoder.
O mecanismo de atenção é uma parte central da arquitetura Transformer que permite ao modelo decidir quais palavras em uma sequência são mais importantes ao processar ou gerar linguagem. A atenção pode ser vista como uma forma do modelo "focar" em certas palavras ao ler uma frase, assim como você pode dar mais atenção a palavras-chave ao tentar entender uma instrução complexa.
Por exemplo, na frase "The cat sat on the mat because it was tired", a atenção ajuda o modelo a perceber que "it" se refere a "the cat" ao analisar as relações entre as palavras. Esse processo funciona independentemente da posição das palavras, tornando a atenção fundamental para a compreensão de linguagem pelos Transformers.
Abaixo está um diagrama simplificado da arquitetura geral do Transformer, destacando o fluxo de informações entre o codificador, decodificador e mecanismos de atenção:
É possível observar como o texto de entrada é primeiramente embutido e codificado posicionalmente antes de passar pela pilha de codificadores. A saída do codificador é então encaminhada para a pilha de decodificadores, que utiliza tanto sua própria autoatenção quanto a atenção codificador-decodificador para gerar a saída final.
Os Transformers trouxeram várias inovações que impulsionam os modelos de PLN mais avançados atualmente:
- Autoatenção: captura relações entre todas as palavras de uma sequência, permitindo que o modelo compreenda o contexto independentemente da ordem das palavras;
- Processamento paralelo: processa todas as palavras ao mesmo tempo, tornando o treinamento e a inferência muito mais rápidos;
- Sem recorrência ou convolução: evita as limitações de RNNs e CNNs, resultando em um design mais simples e escalável;
- Codificação posicional: fornece ao modelo uma noção de ordem das palavras, permitindo compreender a estrutura da sequência.
Essas características fazem dos Transformers a base de aplicações de ponta como tradução automática e resumo de texto.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo