ファインチューニングがトランスフォーマーを向上させる方法
メニューを表示するにはスワイプしてください
定義
ファインチューニングは転移学習の一種であり、事前学習済みのTransformer(すでに言語構造を理解しているモデル)を、より小規模でラベル付けされたデータセットで追加学習させる手法。これにより、モデルは一般的な知識をtext classification、sentiment analysis、named entity recognitionなどの特定タスクに適応できる。
ファインチューニングのワークフロー
事前学習済みモデルを効果的に適応させ、NLPにおける一般的な落とし穴を回避するための手順:
- データセットのテキストをクリーニングし、ラベルを数値形式に変換する;
- モデルの初期学習時と同じトークナイザーで入力テキストをトークン化する;
- 事前学習済みモデルを読み込み、最終出力層をタスク専用の新しい「ヘッド」に置き換える;
- 元の知識の「破滅的忘却」を防ぐため、非常に低い学習率でモデルを学習させる;
- モデルが新しいテキストにも汎化できるかを確認するため、別のテストセットで性能を評価する。
標準的なアーキテクチャパラメータの理解
Transformerモデルを構成する際、性能と計算効率のバランスを取るために特定のパラメータが使用される:
- Hidden size(隠れ層サイズ): 各トークンを表現するベクトルの次元数。
768は「Base」モデルの標準値で、複雑な言語パターンを捉えることができる;- Attention heads(アテンションヘッド数): モデルが単語間の関係を分析する際の異なる「視点」の数。
12ヘッドにより、文法的・意味的特徴を同時に捉えることが可能;
- Intermediate size(中間層サイズ): 通常はhidden sizeの4倍で、ここでは
3072。フィードフォワードネットワーク層の幅を決定; - Max position embeddings(最大位置埋め込み数): モデルが一度に処理できる最大シーケンス長、通常は
512トークン; - Vocab size
30522: モデルが認識・処理できる単語やサブワードなど、ユニークなトークンの総数; - Learning rate
2e-5: ファインチューニングに最適な小さい値で、事前学習で得た有用な知識の上書きを防ぐ。
1. Transformerモデルアーキテクチャにおける「隠れ層サイズ」パラメータは何を表しますか?
2. 次のうち、Transformerのファインチューニングワークフローで推奨されないステップはどれですか?
すべて明確でしたか?
フィードバックありがとうございます!
セクション 3. 章 5
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 3. 章 5