学ぶマルチヘッドアテンションとは何か | トランスフォーマーコンポーネントの構築

メニューを表示するにはスワイプしてください

マルチヘッドアテンションは、Transformerアーキテクチャの中心にある強力なメカニズム。主なアイデアは、モデルが文の異なる部分に同時に注目し、単語間のさまざまな関係を捉えることにある。このために、モデルは各単語の埋め込みを複数の小さなベクトル（**「ヘッド」**と呼ばれる）に分割する。各ヘッドは独自のアテンション計算を並列で実行する。つまり、あるヘッドは単語の直近の隣接語に注目し、別のヘッドは文の冒頭に注目し、さらに別のヘッドはより長い距離の関係を追跡することができる。

この並列アテンションにより、Transformerはテキストデータ内の多様なパターンや依存関係を捉えることが可能となる。例えば、"The cat, which was hungry, chased the mouse," のような文では、あるヘッドは主語と動詞（"cat" と "chased"）に注目し、別のヘッドは説明的な節（"which was hungry"）に注目することができる。すべてのヘッドの出力を組み合わせることで、モデルは単一のアテンションメカニズムよりもはるかに豊かな文全体の理解を構築する。

マルチヘッドアテンションの仕組みを視覚化するには、各行が入力文中の単語、各列がアテンションヘッドを表すグリッドを想像するとよい。このグリッドの各セルは、特定のヘッドがある単語に対してどの単語に注目しているかを示している。例えば、次の文の場合：

"She enjoys reading books at night"

3つのアテンションヘッドがあると仮定すると、視覚的なグリッドは次のようになる。

このグリッドでは、それぞれのヘッドが異なる関係性に注目するように学習しています。「ヘッド1」は文法的な流れを追跡し、「ヘッド2」は主語に注目し、「ヘッド3」は場所や時間に注意を払う場合があります。このような多様な注目が、マルチヘッドアテンションが複雑な言語構造を理解する強みとなっています。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 2. 章 1

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 2. 章 1