Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**NLP-mallien kehitys**

Varhaiset NLP-mallit perustuivat rekursiivisiin neuroverkkoihin (`RNN`) ja konvoluutiohermoverkkoihin (`CNN`). Vaikka RNN:t käsittelevät tekstiä järjestyksessä, ne menettävät usein pitkän kantaman kontekstin. `CNN`:t tunnistavat tehokkaasti paikallisia rakenteita, mutta niiden on vaikea ymmärtää monimutkaisten lauseiden kokonaismerkitystä. Molempia arkkitehtuureja rajoittavat hitaat koulutusnopeudet ja kyvyttömyys hyödyntää nykyaikaista laitteistoa täysimääräisesti.

**Transformerien voima**

Transformer-arkkitehtuuri mullisti alan tuomalla mukanaan itsehuomion (self-attention). Tämä mekanismi mahdollistaa:
- Kaikkien sanojen samanaikaisen analysoinnin lauseessa globaalin kontekstin tavoittamiseksi;
- Mallien tehokkaamman kouluttamisen rinnakkaisprosessoinnin avulla;
- Paremmat tulokset käännöksissä, tiivistelmissä ja tekstin generoinnissa;
- Syvemmän kontekstin ja tarkemmat tulokset tosielämän sovelluksiin.

Esitteli alkuperäisen Transformer-arkkitehtuurin, joka korvasi RNN:t ja CNN:t **itsehuomiolla** sekvenssien mallinnuksessa. Mahdollisti rinnakkaisen koulutuksen ja paremman kontekstin hallinnan.

2017: Attention is All You Need

Osoitti, että **esikoulutus** suurilla tekstiaineistoilla voi tuottaa universaaleja kieliesityksiä. BERT:n **bidirektionaalinen huomio** paransi suorituskykyä monissa NLP-tehtävissä.

2018: BERT (Bidirectional Encoder Representations from Transformers)

Havainnollisti suurten, **generatiivisten kielimallien** voiman, jotka on koulutettu valtavilla tietomäärillä. GPT-mallit pystyivät tuottamaan johdonmukaista ja kontekstiin sopivaa tekstiä.

2018 - 2019: GPT (Generative Pretrained Transformer)

Laajensi Transformereita pidempien riippuvuuksien mallintamiseen tuomalla **segmenttitason rekurrenssin**, mikä paransi suorituskykyä pitkissä dokumenteissa.

2019: Transformer-XL

Yhdisti useita NLP-tehtäviä yhteen kehykseen käsittelemällä kaikki tehtävät **tekstistä tekstiin -ongelmina**, mikä yksinkertaisti mallien koulutusta ja käyttöönottoa.

2020: T5 (Text-to-Text Transfer Transformer)

Jokainen virstanpylväs on laajentanut tekstidatan mahdollisuuksia, tehden malleista tehokkaampia, joustavampia ja sovellettavampia todellisiin NLP-haasteisiin.

Transformer-virstanpylväiden vaikutus

Mikä seuraavista väittämistä selittää parhaiten, miksi Transformer-arkkitehtuuri korvasi RNN:t ja CNN:t nykyaikaisessa NLP:ssä?

Hallitse Transformer-mallien perusteet Pythonilla luonnollisen kielen käsittelyä varten. Opi rakentamaan, tulkitsemaan ja soveltamaan Transformereita todellisen maailman tekstiaineistoihin, painottaen käytännön taitoja ja mallin ymmärtämistä.

Tutustu Transformer-mallien perusteisiin, mukaan lukien itsehuomio, positionaalinen koodaus ja arkkitehtuuri. Rakenna vahva käsitteellinen ja käytännöllinen perusta edistyneille NLP-sovelluksille.

Hallitse taidot, joita tarvitaan ydinkomponenttien, kuten monipäähuomion, syötteen eteenpäin suuntautuvien kerrosten ja normalisoinnin, rakentamiseen tehokasta tekstinkäsittelyä varten.

Opi käyttämään Transformereita todellisissa NLP-tehtävissä, visualisoimaan attention-mekanismeja ja tulkitsemaan mallin ennusteita paremman tekstin ymmärtämisen saavuttamiseksi.

Kuinka NLP-mallit ovat kehittyneet