Summary  
This chapter demonstrates how to implement a simple linear regression model by using NumPy’s polyfit function to calculate the best-fit line parameters, visualizing the data with a scatter plot and fitted line, and making predictions for new feature values.

General domain of usage  
Predicting child height from parental height data.

単回帰分析が何であるか、そしてデータに最も適合する直線の求め方についてはすでに理解しています。ここでは、実際のデータセットを用いて線形回帰モデルを構築する全てのステップを順に確認します。

## データの読み込み
例で使用したデータが含まれるファイル `simple_height_data.csv` があります。このファイルを読み込み、中身を確認します。

import pandas as pd

file_link = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/simple_height_data.csv'
df = pd.read_csv(file_link)	# Read the file

print(df.head())	# Print the first 5 instances from a dataset

このデータセットには2つの列があります。最初の列は`'Father'`で、**入力特徴量**です。2番目の列は`'Height'`で、こちらが**目的変数**となります。

目的変数の値を`y`変数に、特徴量の値を`X`に代入し、散布図を作成します。

import matplotlib.pyplot as plt

X = df['Father']	# Assign the feature
y = df['Height']	# Assign the target
plt.scatter(X,y)	# Build scatterplot
plt.show()

## パラメータの算出
NumPyには線形回帰のパラメータを求める便利な関数があります。

線形回帰は次数1の多項式回帰です（多項式回帰については後のセクションで説明します）。そのため、線形回帰のパラメータを取得するには `deg=1` を指定する必要があります。  
以下はその例です:

import numpy as np

beta_1, beta_0 = np.polyfit(X, y, 1)	# Get the parameters
print('beta_0 is', beta_0)
print('beta_1 is', beta_1)

`beta_1, beta_0 = np.polyfit(X,y,1)` という構文に馴染みがない場合、これはアンパッキングと呼ばれます。2つの要素を持つイテレータ（例：リスト、NumPy配列、pandasシリーズ）がある場合、
```python
a, b = my_iterator
```
は次のコードと同じ意味になります。
```python
a = my_iterator[0]
b = my_iterator[1]
```
また、`polyfit()` 関数の戻り値は2つの値を持つNumPy配列なので、このような書き方が可能です。

ノート

## 予測の実施
パラメータを使用して回帰直線を描画し、新しい変数の予測が可能。

plt.scatter(X,y)	# Build a scatter plot
plt.plot(X, beta_0 + beta_1 * X, color='red')	# Plot the line
plt.show()

パラメータが得られたので、線形回帰式を用いて新しい値の予測が可能。

X_new = np.array([65, 70, 75])	# Feature values of new instances
y_pred = beta_0 + beta_1 * X_new	# Predict the target
print('Predicted y: ', y_pred)

線形回帰のパラメータを取得するのは非常に簡単です。しかし、一部のライブラリでは追加情報も提供されます。

NumPyの関数を使って単回帰のパラメータを求めることができます。

線形回帰は予測分析において重要な概念です。データサイエンティスト、データアナリスト、統計学者によって広く利用されており、構築と解釈が容易でありながら、多くのタスクに十分な強力さを持っています。

最も単純な線形回帰モデルから始めましょう。線形回帰の基本的な考え方と、Pythonで予測を行う方法について学びます。

ほとんどの実世界の予測タスクは複数の特徴量を含みます。複数の特徴量を用いた線形回帰の扱い方を学びます。

直線は常にデータを適切に表現するとは限りません。より複雑な予測モデルの構築方法を学びましょう。これが多項式回帰の適用分野です。

多くの線形回帰モデルを構築できるようになった今、最適なモデルを選択する方法が必要です。これは指標を使用することで実現可能です。本セクションでは、最もよく使われる指標と、それらを使用する際に直面する可能性のある課題について説明します。

NumPyを使用した線形回帰の構築

データの読み込み

パラメータの算出

予測の実施