トレーニングセット
メニューを表示するにはスワイプしてください
教師あり学習または教師なし学習では、トレーニングセットは通常、表形式で提示される。
例として、diabetes dataset(糖尿病データセット)があり、これは人が糖尿病かどうかを予測するために使用される。このデータセットには、年齢、ボディマス指数、血圧などのパラメータを持つ768人の女性の記録が含まれている。これらのパラメータは特徴量と呼ばれる。
データセットには、対象者が糖尿病かどうかを示す'Outcome'列も含まれている。これはターゲット変数である。
表の各行はインスタンス(データポイントまたはサンプルとも呼ばれる)であり、1人の個人に関する情報を表している。
この表(トレーニングセット)にはターゲット列が含まれており、ラベル付きであることを意味する。
このタスクでは、MLモデルをこのトレーニングセットで学習させ、学習後は特徴量のみから他の人(新しいインスタンス)が糖尿病かどうかを予測できるようになる。
ノート
このトレーニングセットは、21歳以上の女性のみの情報を含むバイアスのあるデータセットの例である。そのため、モデルは男性や21歳未満の女性に対しては、十分に学習されていないため、予測精度が低下する可能性がある。
コーディング時には、特徴量の列は通常 X に、ターゲット列は y に割り当てられる。
新しいインスタンスの特徴量は X_new に割り当てられる。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 1. 章 3
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 1. 章 3