学ぶ RNNとCNNがNLPで十分でない理由 | トランスフォーマーの基礎理解

メニューを表示するにはスワイプしてください

自然言語処理においては、言語の構造や意味が長いテキスト全体にわたって広がることが多い。初期のディープラーニングモデルであるリカレントニューラルネットワーク（RNNs）や畳み込みニューラルネットワーク（CNNs）は、他の分野から逐次データを扱うために応用されたが、どちらの手法も言語に適用する際に重大なボトルネックに直面する。

RNNsは入力シーケンスを1トークンずつ処理し、隠れ状態を逐次的に更新する。この逐次的な性質により、時間ステップ間での計算を並列化できず、学習や推論の速度が低下する。さらに、シーケンスが長くなるにつれて、勾配が多くのステップを通じて指数関数的に減少する勾配消失問題が発生しやすい。このため、RNNsはシーケンス内の遠く離れた部分からの依存関係を学習するのが困難となり、特に文書分類や機械翻訳のようにテキストの初めの文脈が重要となるタスクで問題となる。

一方、CNNsは入力の固定サイズウィンドウに畳み込みフィルタを適用する。CNNsはある程度の並列化が可能で、局所的なパターンを効率的に捉えられるが、局所受容野のため各出力が限られたコンテキストウィンドウの影響しか受けない。より長い依存関係を捉えるには多くの畳み込み層を重ねたりフィルタサイズを大きくする必要があり、非効率的になるうえ、文中の離れた単語間の関係を捉えるのは依然として困難である。

これらのボトルネックは、実際のテキスト分類やシーケンス予測タスクで特に顕著になる。例えば、感情分析では文の冒頭と末尾の単語が感情を決定する場合がある。RNNsは勾配消失によりこれらの単語を結びつけるのが難しく、CNNsは受容野の外にある長距離の関係を見逃す可能性がある。

Transformersは、自己注意機構を用いることでこれらの制約を克服する。自己注意により、入力内のすべてのトークンがシーケンス内の他のすべてのトークンに直接注意を向けることができるため、長距離依存関係を効率的に捉えられる。また、シーケンス内のすべての位置で計算を並列化できるため、学習や推論の速度も大幅に向上する。

以下の表は、NLPタスクにおいて重要となる特性に関するRNNs、CNNs、Transformersの主な違いをまとめたものである。

この比較により、Transformers が現代のNLPアプリケーションにおいて選ばれるアーキテクチャとなった理由が明らかになります。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 1. 章 2

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1. 章 2