Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**L'evoluzione dei modelli NLP**

I primi modelli NLP si basavano su reti neurali ricorrenti (`RNN`) e reti neurali convoluzionali (`CNN`). Sebbene le RNN elaborino il testo in modo sequenziale, spesso perdono il contesto a lungo raggio. Le `CNN` sono efficaci nell'identificare pattern locali ma faticano a cogliere il significato complessivo di frasi complesse. Entrambe le architetture sono limitate da velocità di addestramento lente e dall'incapacità di sfruttare appieno l'hardware moderno.

**La potenza dei Transformer**

L'architettura Transformer ha rivoluzionato il settore introducendo il meccanismo di self-attention. Questo meccanismo consente di:
- Analizzare tutte le parole di una frase simultaneamente per catturare il contesto globale;
- Addestrare i modelli in modo più efficiente tramite elaborazione parallela;
- Raggiungere una precisione superiore in traduzione, sintesi e generazione di testo;
- Acquisire competenze per sfruttare questi modelli moderni, che offrono un contesto più profondo e risultati più precisi per applicazioni reali.

Ha introdotto l'architettura Transformer originale, sostituendo RNN/CNN con la **self-attention** per il modeling delle sequenze. Ha permesso l'addestramento parallelo e una migliore gestione del contesto.

2017: Attention is All You Need

Ha mostrato come il **pre-training** su grandi corpora testuali possa produrre rappresentazioni linguistiche universali. La **attenzione bidirezionale** di BERT ha migliorato le prestazioni in molti compiti NLP.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Ha dimostrato la potenza di grandi **modelli linguistici generativi** addestrati su enormi quantità di dati. I modelli GPT sono in grado di generare testo coerente e contestualmente rilevante.

2018 - 2019: GPT (Generative Pretrained Transformer)

Ha esteso i Transformer per catturare dipendenze a lungo termine introducendo la **ricorrenza a livello di segmento**, migliorando le prestazioni su documenti lunghi.

2019: Transformer-XL

Ha unificato molti compiti NLP sotto un unico framework trattando tutti i compiti come **problemi text-to-text**, semplificando ulteriormente l'addestramento e il deployment dei modelli.

2020: T5 (Text-to-Text Transfer Transformer)

Ogni traguardo ha ampliato i confini di ciò che è possibile ottenere con i dati testuali, rendendo i modelli più potenti, flessibili e applicabili alle sfide NLP reali.

Impatto delle tappe fondamentali dei Transformer

Quale delle seguenti affermazioni spiega meglio perché l'architettura Transformer ha sostituito le RNN e le CNN nell'NLP moderno?

Apprendere le basi essenziali dei modelli Transformer in Python per l'elaborazione del linguaggio naturale. Scoprire come costruire, interpretare e applicare i Transformer a dati testuali reali, con un focus sulle competenze pratiche e sulla comprensione dei modelli.

Esplora gli elementi essenziali dei modelli Transformer, inclusi self-attention, positional encoding e architettura. Costruisci una solida base concettuale e pratica per applicazioni NLP avanzate.

Padroneggiare le competenze necessarie per costruire i componenti fondamentali dei Transformer, inclusi multi-head attention, layer feed-forward e normalizzazione, per un'elaborazione efficace del testo.

Scopri come utilizzare i Transformers per compiti NLP reali, visualizzare l'attenzione e interpretare le predizioni del modello per una migliore comprensione del testo.

Come Si Sono Evoluti i Modelli NLP