データセットに慣れ親しむ
メニューを表示するにはスワイプしてください
前処理の開始として、データセットの探索。コース全体を通じて、penguin dataset を使用し、ペンギンの種を予測する課題。
機械学習では クラス と呼ばれることが多い、3つの選択肢。
特徴量は 'island'、'culmen_depth_mm'、'flipper_length_mm'、'body_mass_g'、'sex'。
データセットは penguins.csv ファイルに保存。pd.read_csv() 関数でリンクから読み込み、中身を確認可能。
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
このデータセットには、対処すべきいくつかの問題が存在します。
- 欠損データ
- カテゴリ変数
- 特徴量のスケールの違い
欠損データ
ほとんどの機械学習アルゴリズムは、欠損値を直接処理できないため、学習前に対応が必要です。欠損値は削除するか、補完(代替値で置き換える)する必要があります。
pandasでは、空のセルはNaNとして表現されます。多くの機械学習モデルは、データセットに1つでもNaNが含まれているとエラーを発生させます。
カテゴリカルデータ
このデータセットにはカテゴリカル変数が含まれており、機械学習モデルはこれらを直接処理できません。
カテゴリカルデータは数値形式にエンコードする必要があります。
異なるスケール
'culmen_depth_mm' の値は13.1から21.5の範囲ですが、'body_mass_g' の値は2700から6300の範囲です。そのため、一部の機械学習モデルは 'body_mass_g' 特徴量を 'culmen_depth_mm' よりもはるかに重要とみなす場合があります。
スケーリングはこの問題を解決します。詳細は後の章で説明します。
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください