Summary  
The chapter explains how to fine-tune a pre-trained Transformer model by preparing and tokenizing data, swapping in a task-specific output head, training with a low learning rate to preserve prior knowledge, and evaluating on a held-out set. It also details key architecture parameters—hidden size, attention heads, intermediate size, max position embeddings, vocab size, and learning rate—that govern model capacity and efficiency.

General domain of usage  
Natural language processing

**Ajuste fino** é uma forma de aprendizado por transferência em que se utiliza um Transformer pré-treinado — já familiarizado com estruturas linguísticas — e o treina ainda mais em um conjunto de dados menor e rotulado. Esse processo permite que o modelo adapte seu conhecimento amplo para tarefas específicas como `text classification`, `sentiment analysis` ou `named entity recognition`

Definição

## O Fluxo de Trabalho do Ajuste Fino

Etapas para adaptar com sucesso um modelo pré-treinado, evitando armadilhas comuns em PLN:
- Preparação do conjunto de dados por meio da limpeza do texto e conversão dos rótulos para formato numérico;
- Tokenização do texto de entrada utilizando o mesmo tokenizador empregado no treinamento inicial do modelo;
- Carregamento do modelo pré-treinado e substituição da camada de saída final por uma nova "cabeça" projetada para a tarefa específica;
- Treinamento do modelo nos seus dados utilizando uma taxa de aprendizado muito baixa para evitar o "esquecimento catastrófico" do conhecimento original;
- Avaliação do desempenho usando um conjunto de teste separado para garantir que o modelo generalize bem para novos textos.

## Compreendendo os Parâmetros Padrão da Arquitetura

Ao configurar um modelo Transformer, parâmetros específicos são utilizados para equilibrar desempenho e eficiência computacional:

* **Tamanho oculto**: Representa a dimensionalidade do vetor usado para representar cada token. 
* Um tamanho de `768` é o padrão para modelos "Base" para capturar padrões linguísticos complexos;
* **Cabeças de atenção**: Esse número determina quantas "perspectivas" diferentes o modelo utiliza para analisar relações entre palavras.
    - `12` cabeças permitem que o modelo foque em diversos aspectos gramaticais e semânticos simultaneamente;
* **Tamanho intermediário**: Geralmente definido como quatro vezes o tamanho oculto, neste caso `3072`, determina a largura das camadas da rede feed-forward;
* **Max position embeddings**: Esse valor define o comprimento máximo da sequência ou o total de tokens que o modelo pode processar em uma única entrada, geralmente `512`;
* **Vocab size `30522`**: Representa o número total de tokens únicos, incluindo palavras e subpalavras, que o modelo pode reconhecer e processar;
* **Learning rate `2e-5`**: Esse valor pequeno é ideal para ajuste fino, pois evita que o modelo sobrescreva o conhecimento útil adquirido durante o pré-treinamento.

O que o parâmetro "tamanho oculto" representa na arquitetura de um modelo Transformer?

Qual das alternativas a seguir NÃO é uma etapa recomendada no fluxo de trabalho de fine-tuning para Transformers?

Domine os fundamentos dos modelos Transformer em Python para processamento de linguagem natural. Descubra como construir, interpretar e aplicar Transformers a dados textuais do mundo real, com foco em habilidades práticas e compreensão do modelo.

Explore os fundamentos essenciais dos modelos Transformer, incluindo self-attention, codificação posicional e arquitetura. Construção de uma base conceitual e prática sólida para aplicações avançadas de PLN.

Domínio das habilidades necessárias para construir blocos fundamentais de Transformers, incluindo atenção multi-cabeça, camadas feed-forward e normalização, para processamento de texto eficaz.

Descubra como utilizar Transformers em tarefas reais de PLN, visualizar a atenção e interpretar as previsões do modelo para uma melhor compreensão de textos.

Como o Fine-Tuning Aprimora os Transformers

O Fluxo de Trabalho do Ajuste Fino

Compreendendo os Parâmetros Padrão da Arquitetura

1. O que o parâmetro "tamanho oculto" representa na arquitetura de um modelo Transformer?

2. Qual das alternativas a seguir NÃO é uma etapa recomendada no fluxo de trabalho de fine-tuning para Transformers?