Summary  
This chapter explains how to detect and prevent model overfitting and underfitting by evaluating performance on separate training and test sets using a train-test split.  

General domain of usage  
Supervised machine learning

## 過学習
以下の2つの回帰直線を考える。どちらが優れているか？

指標によれば2番目のモデルの方が優れているため、`X_new = [0.2, 0.5, 2.7]` の予測に使用する。しかし、予測値と実際の値を比較すると、1番目のモデルの方が良い結果となる。

これは2番目のモデルが**過学習**しているために起こる。モデルが複雑すぎて訓練データに過度に適合し、新しいデータに対して一般化できなくなっている。

## アンダーフィッティング

**アンダーフィッティング**は、モデルが単純すぎて訓練データさえもうまく適合できない場合に発生し、未知のデータに対する予測精度も低下する現象。

モデルがアンダーフィットしているかオーバーフィットしているかを視覚的に判断することも可能。

高次元のモデルは可視化できないため、オーバーフィッティングやアンダーフィッティングを検出する別の方法が必要。

## 訓練データとテストデータの分割

未知のデータに対する性能を推定するため、データセットを既知のターゲットを持つ訓練セットとテストセットに分割。


訓練セットで学習を行い、訓練セットとテストセットの両方で指標を計算して性能を比較。



分割はランダムである必要がある。一般的に、テストセットには20～30％、訓練セットには70～80％を使用。Scikit-learnはこの処理を簡単に実行可能。


例えば、トレーニングセットを70%トレーニング／30%テストに分割するには、次のコードを使用します：
```python
from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
```

線形回帰は予測分析において重要な概念です。データサイエンティスト、データアナリスト、統計学者によって広く利用されており、構築と解釈が容易でありながら、多くのタスクに十分な強力さを持っています。

最も単純な線形回帰モデルから始めましょう。線形回帰の基本的な考え方と、Pythonで予測を行う方法について学びます。

ほとんどの実世界の予測タスクは複数の特徴量を含みます。複数の特徴量を用いた線形回帰の扱い方を学びます。

直線は常にデータを適切に表現するとは限りません。より複雑な予測モデルの構築方法を学びましょう。これが多項式回帰の適用分野です。

多くの線形回帰モデルを構築できるようになった今、最適なモデルを選択する方法が必要です。これは指標を使用することで実現可能です。本セクションでは、最もよく使われる指標と、それらを使用する際に直面する可能性のある課題について説明します。