Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**La evolución de los modelos de PLN**

Los primeros modelos de PLN se basaban en redes neuronales recurrentes (`RNN`) y redes neuronales convolucionales (`CNN`). Mientras que las RNN procesan el texto de forma secuencial, a menudo pierden el contexto a larga distancia. Las `CNN` son eficaces para identificar patrones locales, pero tienen dificultades para captar el significado global de oraciones complejas. Ambas arquitecturas presentan limitaciones en la velocidad de entrenamiento y no aprovechan completamente el hardware moderno.

**El poder de los Transformers**

La arquitectura Transformer revolucionó el campo al introducir la auto-atención. Este mecanismo permite:
- Analizar todas las palabras de una oración simultáneamente para captar el contexto global;
- Entrenar modelos de manera más eficiente mediante procesamiento en paralelo;
- Lograr una mayor precisión en traducción, resumen y generación de texto;
- Adquirir habilidades para aprovechar estos modelos modernos, que proporcionan un contexto más profundo y resultados más precisos para aplicaciones reales.

Introducción de la arquitectura Transformer original, reemplazando RNN y CNN con **auto-atención** para el modelado de secuencias. Permitió el entrenamiento en paralelo y un mejor manejo del contexto.

2017: Attention is All You Need

Demostró cómo el **pre-entrenamiento** en grandes corpus de texto puede generar representaciones universales del lenguaje. La **atención bidireccional** de BERT mejoró el rendimiento en muchas tareas de PLN.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Demostró el potencial de los grandes **modelos generativos de lenguaje** entrenados con enormes cantidades de datos. Los modelos GPT podían generar texto coherente y relevante en contexto.

2018 - 2019: GPT (Generative Pretrained Transformer)

Extendió los Transformers para captar dependencias a más largo plazo mediante la introducción de **recurrencia a nivel de segmento**, mejorando el rendimiento en documentos extensos.

2019: Transformer-XL

Unificó muchas tareas de PLN bajo un solo marco al tratar todas las tareas como **problemas de texto a texto**, simplificando aún más el entrenamiento y la implementación de modelos.

2020: T5 (Text-to-Text Transfer Transformer)

Cada hito ha ampliado los límites de lo que se puede lograr con datos de texto, haciendo que los modelos sean más potentes, flexibles y aplicables a los desafíos reales del PLN.

Impacto de los hitos de los Transformers

¿Cuál de las siguientes afirmaciones explica mejor por qué la arquitectura Transformer reemplazó a las RNN y CNN en el procesamiento de lenguaje natural moderno?

Domina los conceptos esenciales de los modelos Transformer en Python para el procesamiento de lenguaje natural. Descubre cómo construir, interpretar y aplicar Transformers a datos de texto del mundo real, con énfasis en habilidades prácticas y comprensión del modelo.

Explora los conceptos esenciales de los modelos Transformer, incluyendo la auto-atención, la codificación posicional y la arquitectura. Construye una base conceptual y práctica sólida para aplicaciones avanzadas de PLN.

Domina las habilidades necesarias para construir los bloques fundamentales de los Transformers, incluyendo la atención multi-cabeza, capas feed-forward y normalización, para un procesamiento de texto efectivo.

Descubra cómo utilizar Transformers para tareas reales de PLN, visualizar la atención e interpretar las predicciones del modelo para una mejor comprensión del texto.

Cómo Han Evolucionado los Modelos de PLN