Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ ファインチューニングがトランスフォーマーを向上させる方法 | NLPタスクへのトランスフォーマーの応用
自然言語処理のためのトランスフォーマー

bookファインチューニングがトランスフォーマーを向上させる方法

メニューを表示するにはスワイプしてください

Note
定義

ファインチューニングは転移学習の一種であり、事前学習済みのTransformer(すでに言語構造を理解しているモデル)を、より小規模でラベル付けされたデータセットで追加学習させる手法。これにより、モデルは一般的な知識をtext classificationsentiment analysisnamed entity recognitionなどの特定タスクに適応できる。

ファインチューニングのワークフロー

事前学習済みモデルを効果的に適応させ、NLPにおける一般的な落とし穴を回避するための手順:

  • データセットのテキストをクリーニングし、ラベルを数値形式に変換する;
  • モデルの初期学習時と同じトークナイザーで入力テキストをトークン化する;
  • 事前学習済みモデルを読み込み、最終出力層をタスク専用の新しい「ヘッド」に置き換える;
  • 元の知識の「破滅的忘却」を防ぐため、非常に低い学習率でモデルを学習させる;
  • モデルが新しいテキストにも汎化できるかを確認するため、別のテストセットで性能を評価する。

標準的なアーキテクチャパラメータの理解

Transformerモデルを構成する際、性能と計算効率のバランスを取るために特定のパラメータが使用される:

  • Hidden size(隠れ層サイズ): 各トークンを表現するベクトルの次元数。
  • 768は「Base」モデルの標準値で、複雑な言語パターンを捉えることができる;
  • Attention heads(アテンションヘッド数): モデルが単語間の関係を分析する際の異なる「視点」の数。
    • 12ヘッドにより、文法的・意味的特徴を同時に捉えることが可能;
  • Intermediate size(中間層サイズ): 通常はhidden sizeの4倍で、ここでは3072。フィードフォワードネットワーク層の幅を決定;
  • Max position embeddings(最大位置埋め込み数): モデルが一度に処理できる最大シーケンス長、通常は512トークン;
  • Vocab size 30522: モデルが認識・処理できる単語やサブワードなど、ユニークなトークンの総数;
  • Learning rate 2e-5: ファインチューニングに最適な小さい値で、事前学習で得た有用な知識の上書きを防ぐ。

1. Transformerモデルアーキテクチャにおける「隠れ層サイズ」パラメータは何を表しますか?

2. 次のうち、Transformerのファインチューニングワークフローで推奨されないステップはどれですか?

question mark

Transformerモデルアーキテクチャにおける「隠れ層サイズ」パラメータは何を表しますか?

正しい答えを選んでください

question mark

次のうち、Transformerのファインチューニングワークフローで推奨されないステップはどれですか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 3.  5

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 3.  5
some-alt