学ぶチャレンジ：トランスフォーマーモデルの評価 | NLPタスクへのトランスフォーマーの応用

セクション 3. 章 6

single

メニューを表示するにはスワイプしてください

NLPタスクの評価指標

Transformerモデルのトレーニングが完了したら、タスクに対する性能を測定する必要があります。指標を計算するためには、TP、TN、FN、FPを算出する必要があります。

定義

TP (True Positive): 正のサンプルが正しく正と予測された数。 TN (True Negative): 負のサンプルが正しく負と予測された数。 FP (False Positive): 負のサンプルが誤って正と予測された数。 FN (False Negative): 正のサンプルが誤って負と予測された数。

Accuracy（正確率）：各クラスのサンプル数がほぼ同じでバランスの取れたデータセットに最適。
Precision（適合率）とRecall（再現率）：スパム検出のようにデータが不均衡な場合に重要。スパムメッセージを見逃す（偽陰性）場合と通常メッセージを誤ってスパムと判定する（偽陽性）場合でコストが異なるため。
F1スコア：適合率と再現率を1つの数値にまとめ、不均衡なタスクでモデルを比較しやすくする。
BLEUおよびROUGE：翻訳や要約など、出力がシーケンスとなるタスクで使用。
Perplexity（パープレキシティ）：シーケンス内の次の単語を予測する言語モデルで最も有用。

評価結果の解釈とモデル性能の向上

Transformerモデルの評価指標を算出した後は、その結果が何を意味するのか、そしてどのようにモデル改善に活用できるかを理解することが重要です。高い正確率はモデルが正しい予測をしていることを示しますが、データが不均衡な場合は適合率、再現率、F1スコアに注目してください。例えば、適合率が高く再現率が低いモデルは慎重で、確信がある場合のみ陽性と予測しますが、多くの真の陽性を見逃します。再現率が高く適合率が低い場合は、陽性の予測が多くなりますが、誤検知も増えます。

モデルの性能が満足できない場合、以下の方法を検討してください：

特に少数クラスのラベル付きデータを追加収集する；
ノイズ除去やクラスバランス調整など、異なる前処理を試す；
学習率、バッチサイズ、エポック数などのハイパーパラメータを調整する；
アテンションヘッドや層の追加など、モデルアーキテクチャを調整する；
データ拡張手法でデータセットの多様性を高める；
モデルが特定の入力タイプで苦戦していないかエラー分析を行う。

適切な指標を選択し結果を正しく解釈することで、モデルの弱点を診断し、最も重要な部分に改善の努力を集中できます。

タスク

スワイプしてコーディングを開始

前の章で学んだ知識を活用し、Transformerによるテキスト分類器の小規模な評価シナリオを完成させてください。

映画レビューが肯定的か否定的かを予測するモデルがあり、テストセット10件の結果は以下の通りです：
- 実際に肯定的なレビューが6件、否定的なレビューが4件
- モデルの予測：肯定的5件（うち4件が正解）、否定的5件（うち3件が正解）
肯定クラスについて、正解率（accuracy）、適合率（precision）、再現率（recall）、F1スコアを計算してください。
回答は小数点以下2桁に四捨五入して入力してください。

解答

実践的な練習のためにデスクトップに切り替える下記のオプションのいずれかを利用して、現在の場所から続行する

すべて明確でしたか？

フィードバックありがとうございます！

セクション 3. 章 6

single

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください