学ぶファインチューニングがトランスフォーマーを向上させる方法

メニューを表示するにはスワイプしてください

定義

ファインチューニングは転移学習の一種であり、事前学習済みのTransformer（すでに言語構造を理解しているモデル）を、より小規模でラベル付けされたデータセットで追加学習させる手法。これにより、モデルは一般的な知識をtext classification、sentiment analysis、named entity recognitionなどの特定タスクに適応できる。

ファインチューニングのワークフロー

事前学習済みモデルを効果的に適応させ、NLPにおける一般的な落とし穴を回避するための手順：

データセットのテキストをクリーニングし、ラベルを数値形式に変換する；
モデルの初期学習時と同じトークナイザーで入力テキストをトークン化する；
事前学習済みモデルを読み込み、最終出力層をタスク専用の新しい「ヘッド」に置き換える；
元の知識の「破滅的忘却」を防ぐため、非常に低い学習率でモデルを学習させる；
モデルが新しいテキストにも汎化できるかを確認するため、別のテストセットで性能を評価する。

標準的なアーキテクチャパラメータの理解

Transformerモデルを構成する際、性能と計算効率のバランスを取るために特定のパラメータが使用される：

Hidden size（隠れ層サイズ）: 各トークンを表現するベクトルの次元数。
768は「Base」モデルの標準値で、複雑な言語パターンを捉えることができる；
Attention heads（アテンションヘッド数）: モデルが単語間の関係を分析する際の異なる「視点」の数。
- 12ヘッドにより、文法的・意味的特徴を同時に捉えることが可能；
Intermediate size（中間層サイズ）: 通常はhidden sizeの4倍で、ここでは3072。フィードフォワードネットワーク層の幅を決定；
Max position embeddings（最大位置埋め込み数）: モデルが一度に処理できる最大シーケンス長、通常は512トークン；
Vocab size 30522: モデルが認識・処理できる単語やサブワードなど、ユニークなトークンの総数；
Learning rate 2e-5: ファインチューニングに最適な小さい値で、事前学習で得た有用な知識の上書きを防ぐ。

1. Transformerモデルアーキテクチャにおける「隠れ層サイズ」パラメータは何を表しますか？

2. 次のうち、Transformerのファインチューニングワークフローで推奨されないステップはどれですか？

すべて明確でしたか？

フィードバックありがとうございます！

セクション 3. 章 5

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 3. 章 5