Summary  
This chapter explains how Transformer architectures employ self-attention to capture global context and enable efficient parallel training, overcoming the sequential limitations of RNNs and the local-pattern focus of CNNs.

General domain of usage  
Machine translation

**NLPモデルの進化**

初期のNLPモデルはリカレントニューラルネットワーク（`RNN`）や畳み込みニューラルネットワーク（`CNN`）に依存していました。RNNはテキストを逐次的に処理しますが、長距離の文脈を保持するのが困難です。`CNN`は局所的なパターンの識別に優れていますが、複雑な文の全体的な意味を捉えるのが苦手です。どちらのアーキテクチャも学習速度が遅く、最新のハードウェアを十分に活用できないという制約があります。

**トランスフォーマーの強み**

トランスフォーマーアーキテクチャは、自己注意機構の導入によって分野に革命をもたらしました。この仕組みにより、
- 文中のすべての単語を同時に解析し、グローバルな文脈を把握可能;
- 並列処理による効率的なモデル学習;
- 翻訳、要約、テキスト生成における高精度の実現;
- より深い文脈理解と高精度な結果を提供する最新モデルの活用に必要なスキルの習得が可能。

元祖トランスフォーマーアーキテクチャを導入し、RNN/CNNに代わる**自己注意**による系列モデリングを実現。並列学習と文脈処理能力の向上を達成。

2017年: Attention is All You Need

大規模テキストコーパスでの**事前学習**により、汎用的な言語表現を獲得できることを示した。BERTの**双方向注意**は多くのNLPタスクで性能を向上。

2018年: BERT (Bidirectional Encoder Representations from Transformers)

大規模な**生成型言語モデル**が膨大なデータで学習されることで、首尾一貫した文脈に沿ったテキスト生成が可能であることを実証。

2018年～2019年: GPT (Generative Pretrained Transformer)

**セグメントレベルでの再帰性**を導入し、長文ドキュメントにおける長期依存関係の把握を強化。

2019年: Transformer-XL

すべてのNLPタスクを**テキストからテキストへの問題**として統一し、モデル学習と展開をさらに簡素化。

2020年: T5 (Text-to-Text Transfer Transformer)

各マイルストーンはテキストデータ活用の可能性を拡大し、モデルの高性能化・柔軟性・実用性を向上させ、現実世界のNLP課題への適用範囲を広げている。

トランスフォーマーのマイルストーンの影響

次のうち、トランスフォーマーアーキテクチャが現代のNLPでRNNやCNNに取って代わった理由として最も適切な説明はどれですか？

自然言語処理のためのPythonにおけるTransformerモデルの基本を習得します。実際のテキストデータにTransformerを構築、解釈、適用する方法を学び、実践的なスキルとモデル理解に焦点を当てます。

自己注意機構、位置エンコーディング、アーキテクチャを含むTransformerモデルの基本を探求します。高度なNLPアプリケーションのための強固な概念的および実践的基盤を構築します。

効果的なテキスト処理のために、マルチヘッドアテンション、フィードフォワード層、正規化など、コアとなるTransformer構成要素を構築するために必要なスキルを習得します。

実際のNLPタスクにトランスフォーマーを活用する方法、アテンションの可視化、モデル予測の解釈によるテキスト理解の向上について学びます。