Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Como o Fine-Tuning Aprimora os Transformers | Aplicando Transformers a Tarefas de PLN
Transformers para Processamento de Linguagem Natural

bookComo o Fine-Tuning Aprimora os Transformers

Deslize para mostrar o menu

Note
Definição

Ajuste fino é uma forma de aprendizado por transferência em que se utiliza um Transformer pré-treinado — já familiarizado com estruturas linguísticas — e o treina ainda mais em um conjunto de dados menor e rotulado. Esse processo permite que o modelo adapte seu conhecimento amplo para tarefas específicas como text classification, sentiment analysis ou named entity recognition

O Fluxo de Trabalho do Ajuste Fino

Etapas para adaptar com sucesso um modelo pré-treinado, evitando armadilhas comuns em PLN:

  • Preparação do conjunto de dados por meio da limpeza do texto e conversão dos rótulos para formato numérico;
  • Tokenização do texto de entrada utilizando o mesmo tokenizador empregado no treinamento inicial do modelo;
  • Carregamento do modelo pré-treinado e substituição da camada de saída final por uma nova "cabeça" projetada para a tarefa específica;
  • Treinamento do modelo nos seus dados utilizando uma taxa de aprendizado muito baixa para evitar o "esquecimento catastrófico" do conhecimento original;
  • Avaliação do desempenho usando um conjunto de teste separado para garantir que o modelo generalize bem para novos textos.

Compreendendo os Parâmetros Padrão da Arquitetura

Ao configurar um modelo Transformer, parâmetros específicos são utilizados para equilibrar desempenho e eficiência computacional:

  • Tamanho oculto: Representa a dimensionalidade do vetor usado para representar cada token.
  • Um tamanho de 768 é o padrão para modelos "Base" para capturar padrões linguísticos complexos;
  • Cabeças de atenção: Esse número determina quantas "perspectivas" diferentes o modelo utiliza para analisar relações entre palavras.
    • 12 cabeças permitem que o modelo foque em diversos aspectos gramaticais e semânticos simultaneamente;
  • Tamanho intermediário: Geralmente definido como quatro vezes o tamanho oculto, neste caso 3072, determina a largura das camadas da rede feed-forward;
  • Max position embeddings: Esse valor define o comprimento máximo da sequência ou o total de tokens que o modelo pode processar em uma única entrada, geralmente 512;
  • Vocab size 30522: Representa o número total de tokens únicos, incluindo palavras e subpalavras, que o modelo pode reconhecer e processar;
  • Learning rate 2e-5: Esse valor pequeno é ideal para ajuste fino, pois evita que o modelo sobrescreva o conhecimento útil adquirido durante o pré-treinamento.

1. O que o parâmetro "tamanho oculto" representa na arquitetura de um modelo Transformer?

2. Qual das alternativas a seguir NÃO é uma etapa recomendada no fluxo de trabalho de fine-tuning para Transformers?

question mark

O que o parâmetro "tamanho oculto" representa na arquitetura de um modelo Transformer?

Selecione a resposta correta

question mark

Qual das alternativas a seguir NÃO é uma etapa recomendada no fluxo de trabalho de fine-tuning para Transformers?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 3. Capítulo 5
some-alt