Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**A Evolução dos Modelos de NLP**

Os primeiros modelos de NLP utilizavam redes neurais recorrentes (`RNN`s) e redes neurais convolucionais (`CNN`s). Enquanto as RNNs processam o texto de forma sequencial, frequentemente perdem o contexto de longa distância. As `CNN`s são eficazes na identificação de padrões locais, mas têm dificuldade em compreender o significado geral de sentenças complexas. Ambas as arquiteturas apresentam limitações quanto à velocidade de treinamento e à capacidade de aproveitar totalmente o hardware moderno.

**O Poder dos Transformers**

A arquitetura Transformer revolucionou a área ao introduzir o mecanismo de self-attention. Esse mecanismo permite:
- Analisar todas as palavras de uma sentença simultaneamente para capturar o contexto global;
- Treinar modelos de forma mais eficiente utilizando processamento paralelo;
- Alcançar precisão superior em tradução, sumarização e geração de texto;
- Dominar as habilidades necessárias para utilizar esses modelos modernos, que fornecem contexto mais profundo e resultados mais precisos para aplicações do mundo real.

Introduziu a arquitetura Transformer original, substituindo RNNs/CNNs por **self-attention** para modelagem de sequências. Possibilitou treinamento paralelo e melhor manejo de contexto.

2017: Attention is All You Need

Demonstrou como o **pré-treinamento** em grandes corpora de texto pode gerar representações universais de linguagem. A **atenção bidirecional** do BERT melhorou o desempenho em diversas tarefas de NLP.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Evidenciou o potencial de grandes **modelos de linguagem generativos** treinados com grandes volumes de dados. Os modelos GPT conseguem gerar textos coerentes e contextualmente relevantes.

2018 - 2019: GPT (Generative Pretrained Transformer)

Expandiu os Transformers para capturar dependências de longo prazo ao introduzir **recorrência em nível de segmento**, melhorando o desempenho em documentos extensos.

2019: Transformer-XL

Unificou diversas tarefas de NLP em um único framework ao tratar todas as tarefas como **problemas de texto para texto**, simplificando ainda mais o treinamento e a implantação dos modelos.

2020: T5 (Text-to-Text Transfer Transformer)

Cada marco expandiu os limites do que é possível realizar com dados de texto, tornando os modelos mais poderosos, flexíveis e aplicáveis a desafios reais de NLP.

Impacto dos Marcos dos Transformers

Qual das seguintes afirmações melhor explica por que a arquitetura Transformer substituiu RNNs e CNNs na NLP moderna?

Domine os fundamentos dos modelos Transformer em Python para processamento de linguagem natural. Descubra como construir, interpretar e aplicar Transformers a dados textuais do mundo real, com foco em habilidades práticas e compreensão do modelo.

Explore os fundamentos essenciais dos modelos Transformer, incluindo self-attention, codificação posicional e arquitetura. Construção de uma base conceitual e prática sólida para aplicações avançadas de PLN.

Domínio das habilidades necessárias para construir blocos fundamentais de Transformers, incluindo atenção multi-cabeça, camadas feed-forward e normalização, para processamento de texto eficaz.

Descubra como utilizar Transformers em tarefas reais de PLN, visualizar a atenção e interpretar as previsões do modelo para uma melhor compreensão de textos.

Como os Modelos de PLN Evoluíram