Summary  
This chapter explains how to use an estimator’s `.fit()`, `.predict()`, and `.score()` methods to train a model, generate predictions, and evaluate its performance.  

General domain of usage  
Supervised machine learning

データ前処理とパイプライン構築の基本を学びました。次のステップは**モデリング**です。


Scikit-learnにおける**モデル**は、`.predict()`および`.score()`メソッドを提供する**推定器（estimator）**であり、すべての推定器から継承された`.fit()`メソッドも備えています。


## .fit() 

データの前処理が完了し、モデルに渡す準備ができたら、モデル構築の最初のステップは**モデルの学習**。これは `.fit(X, y)` を使用して実行。

**教師あり学習**（回帰、分類）の場合、`.fit()` には `X` と `y` の両方が必要。
**教師なし学習**（例：クラスタリング）の場合は、`.fit(X)` のみを呼び出す。`y` を渡してもエラーにはならず、単に無視される。

注意

学習中、モデルは予測に必要なパターンを**学習**。何を学習するか、学習にかかる時間はアルゴリズムによって異なる。特に大規模なデータセットでは、学習は機械学習の中で**最も時間がかかる部分**となることが多い。

## .predict()

トレーニング後、`.predict()` を使用して予測を生成:

```python
model.fit(X, y)
y_pred = model.predict(X_new)
```

## .score()

`.score()` は、通常 **テストセット** でトレーニング済みモデルを評価:

```python
model.fit(X, y)
model.score(X_test, y_test)
```

予測値と正解ターゲットを比較。デフォルトでは、分類の場合は **正解率** が指標。

`X_test` は、モデルのトレーニング後にパフォーマンスを評価するために使用されるデータセットのサブセットである**テストセット**を指します。これは**特徴量**（入力データ）を含みます。`y_test` は `X_test` に対応する**正解ラベル**のサブセットです。これらを組み合わせて、モデルが新しい未知のデータをどれだけ正確に予測できるかを評価します。

ノート

機械学習は今やあらゆる場所で利用されています。自分で学びたいと思いませんか？このコースは、機械学習の世界への入門として、基本的な概念の習得、最も人気のあるMLライブラリであるScikit-learnの操作、そして最初の機械学習プロジェクトの構築を学ぶためのものです。
このコースは、Python、Pandas、Numpyの基礎知識を持つ学生を対象としています。

機械学習の概念とMLプロジェクトのワークフローについて学習します。

前処理は、MLプロジェクトにおいて最も重要な段階の一つです。本章では、ほぼすべてのデータセットに必要な前処理手順について解説します。

パイプラインは、すべての前処理ステップとモデルを組み合わせるための便利な方法です。パイプラインを使用することで、モデルの学習や利用がはるかに簡単になります。

モデリングはMLプロジェクトの中で最も楽しい段階です。モデルの構築、チューニング、評価方法を学びましょう。