Summary
This chapter covers data preprocessing techniques using pandas, including handling missing values, encoding categorical variables, and preparing features for consistent scaling.

General domain of usage
Machine learning

前処理の開始として、データセットの探索。 本コース全体を通じて、**penguin dataset** を使用し、ペンギンの種を予測する課題を扱う。

機械学習では **クラス** と呼ばれることが多い、3つの選択肢が存在。

特徴量は、`'island'`、`'culmen_depth_mm'`、`'flipper_length_mm'`、`'body_mass_g'`、`'sex'`。

データセットは `penguins.csv` ファイルに保存されている。`pd.read_csv()` 関数を使用してリンクから読み込み、その内容を確認できる。


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

このデータセットには、対処すべきいくつかの課題があります。

* 欠損データ
* カテゴリ変数
* 特徴量のスケールの違い


## 欠損データ

ほとんどの機械学習アルゴリズムは、欠損値を直接処理できないため、学習前に対応が必要です。欠損値は**削除**するか、**補完**（代替値で置き換える）する必要があります。

`pandas`では、空のセルは`NaN`として表されます。多くの機械学習モデルは、データセットに1つでも`NaN`が含まれているとエラーを発生させます。


## カテゴリカルデータ

このデータセットにはカテゴリカル変数が含まれており、機械学習モデルはこれらを直接処理できません。


カテゴリカルデータは**数値形式**にエンコードする必要があります。


## 異なるスケール

`'culmen_depth_mm'` の値は13.1から21.5の範囲であり、`'body_mass_g'` の値は2700から6300の範囲です。そのため、一部の機械学習モデルは `'body_mass_g'` 特徴量を `'culmen_depth_mm'` よりも**はるかに重要**とみなす場合があります。

**スケーリング**はこの問題を解決します。詳細は後の章で説明します。

機械学習は今やあらゆる場所で利用されています。自分で学びたいと思いませんか？このコースは、機械学習の世界への入門として、基本的な概念の習得、最も人気のあるMLライブラリであるScikit-learnの操作、そして最初の機械学習プロジェクトの構築を学ぶためのものです。
このコースは、Python、Pandas、Numpyの基礎知識を持つ学生を対象としています。

機械学習の概念とMLプロジェクトのワークフローについて学習します。

前処理は、MLプロジェクトにおいて最も重要な段階の一つです。本章では、ほぼすべてのデータセットに必要な前処理手順について解説します。

パイプラインは、すべての前処理ステップとモデルを組み合わせるための便利な方法です。パイプラインを使用することで、モデルの学習や利用がはるかに簡単になります。

モデリングはMLプロジェクトの中で最も楽しい段階です。モデルの構築、チューニング、評価方法を学びましょう。

データセットへの慣れ

欠損データ

カテゴリカルデータ

異なるスケール