Aprenda Componentes de uma Arquitetura Transformer | Compreendendo os Fundamentos dos Transformers

Deslize para mostrar o menu

Um Transformer é composto por duas partes principais: o encoder e o decoder. O encoder lê e resume o texto de entrada, capturando o significado e o contexto de cada palavra em relação às outras. O decoder utiliza esse resumo, juntamente com sua própria atenção às palavras previamente geradas, para produzir a saída final – como uma tradução ou um resumo. Esse design permite que Transformers lidem com uma ampla variedade de tarefas de PLN de forma mais eficiente e precisa do que abordagens tradicionais.

Definição

Encoder: processa sequências de entrada resumindo seu significado e capturando relações entre palavras utilizando camadas de self-attention e feed-forward.

Decoder: gera sequências de saída, como traduções ou previsões, ao considerar tanto as saídas previamente geradas quanto as representações do encoder.

O mecanismo de atenção é uma parte central da arquitetura Transformer que permite ao modelo decidir quais palavras em uma sequência são mais importantes ao processar ou gerar linguagem. A atenção pode ser vista como uma forma do modelo "focar" em certas palavras ao ler uma frase, assim como você pode dar mais atenção a palavras-chave ao tentar entender uma instrução complexa.

Por exemplo, na frase "The cat sat on the mat because it was tired", a atenção ajuda o modelo a perceber que "it" se refere a "the cat" ao analisar as relações entre as palavras. Esse processo funciona independentemente da posição das palavras, tornando a atenção fundamental para a compreensão de linguagem pelos Transformers.

Abaixo está um diagrama simplificado da arquitetura geral do Transformer, destacando o fluxo de informações entre o codificador, decodificador e mecanismos de atenção:

É possível observar como o texto de entrada é primeiramente embutido e codificado posicionalmente antes de passar pela pilha de codificadores. A saída do codificador é então encaminhada para a pilha de decodificadores, que utiliza tanto sua própria autoatenção quanto a atenção codificador-decodificador para gerar a saída final.

Os Transformers trouxeram várias inovações que impulsionam os modelos de PLN mais avançados atualmente:

Autoatenção: captura relações entre todas as palavras de uma sequência, permitindo que o modelo compreenda o contexto independentemente da ordem das palavras;
Processamento paralelo: processa todas as palavras ao mesmo tempo, tornando o treinamento e a inferência muito mais rápidos;
Sem recorrência ou convolução: evita as limitações de RNNs e CNNs, resultando em um design mais simples e escalável;
Codificação posicional: fornece ao modelo uma noção de ordem das palavras, permitindo compreender a estrutura da sequência.

Essas características fazem dos Transformers a base de aplicações de ponta como tradução automática e resumo de texto.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 1. Capítulo 3