データの種類
メニューを表示するにはスワイプしてください
トレーニングセット内の各列(特徴量)には、それぞれデータ型が関連付けられています。これらのデータ型は、数値型、カテゴリ型、および日付・時刻型に分類されます。
ほとんどの機械学習アルゴリズムは数値データでのみ良好に動作するため、カテゴリ型や日時型の値は数値に変換する必要があります。
日付や時刻の場合、タスクに応じて 'year'、'month' などの特徴量を抽出できます。これらはすでに数値値であるため、そのまま利用できます。
カテゴリ型データの処理はやや難易度が高くなります。
カテゴリカルデータの種類
カテゴリカルデータは2種類に分類されます:
-
順序データ(オーディナルデータ):カテゴリに自然な順序があるデータ。例:学歴(小学校から博士号まで)、評価(非常に悪いから非常に良いまで)など。
-
名義データ(ノミナルデータ):カテゴリに自然な順序がないデータ。例:名前、性別、出身国など。
順序データと名義データを数値に変換するには異なる手法が必要なため、それぞれ別々に扱う必要があります。
さらに学ぶ
日付を数値に変換するより良い方法は、この入門コースの範囲を超えています。例えば、'month' 特徴量のみを使用すると、12月が実際には1月に近いことを考慮できません。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 1. 章 4
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 1. 章 4