Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 代表値と散布度の理解 | 確率と統計
Pythonによるデータサイエンスのための数学

book代表値と散布度の理解

メニューを表示するにはスワイプしてください

平均(アベレージ)

Note
定義

平均とは、すべての値の合計を値の個数で割ったもの。データセットにおける**「中心」または「代表的」**な値を示す。

公式:

Mean=xin\text{Mean} = \frac{\sum x_i}{n}

例:
ウェブサイトの訪問者数が3日間で100、120、110人だった場合:

100+120+1103=110\frac{100 + 120 + 110}{3} = 110

解釈:
平均して、1日あたり110人の訪問者があったことになる。

分散

Note
定義

分散は、各値が平均からどれだけ離れているかを測定する指標。データがどれだけ**「広がっているか」**を示す。

公式:

σ2=(xiμ)2n\sigma^2 = \frac{\sum (x_i - \mu)^2}{n}

例(前述のデータを使用):

  • 平均 = 110;
  • (100110)2=100(100 − 110)^2 = 100;
  • (120110)2=100(120 − 110)^2 = 100;
  • (110110)2=0(110 − 110)^2 = 0

合計 = 200

Variance=200366.67\text{Variance} = \frac{200}{3} \approx 66.67

解釈:
平均からの二乗距離の平均値は約66.67。

標準偏差

Note
定義

標準偏差は分散の平方根。データの単位に戻して散らばりを示す指標。

公式:

σ=σ2\sigma = \sqrt{\sigma^2}

例:
分散が66.67の場合:

σ=66.678.16\sigma = \sqrt{66.67} \approx 8.16

解釈:
1日ごとの来訪者数は平均から約8.16離れている。

実世界の問題:ウェブサイトトラフィックの分析

問題:
データサイエンティストが5日間のウェブサイト訪問者数を記録:

120,150,130,170,140120, 150, 130, 170, 140

ステップ1 — 平均値:

120+150+130+170+1405=142\frac{120 + 150 + 130 + 170 + 140}{5} = 142

ステップ2 — 分散:

  • (120142)2=484(120 - 142)^2 = 484;
  • (150142)2=64(150 - 142)^2 = 64;
  • (130142)2=144(130 - 142)^2 = 144;
  • (170142)2=784(170 - 142)^2 = 784;
  • (140142)2=4(140 - 142)^2 = 4.
分散=484+64+144+784+45=14805=296\text{分散} = \frac{484+64+144+784+4}{5} = \frac{1480}{5} = 296

ステップ3 — 標準偏差:

σ=29617.2\sigma = \sqrt{296} \approx 17.2

結論:

  • 平均値 = 1日あたり142人の訪問者;
  • 分散 = 296;
  • 標準偏差 = 17.2。

ウェブサイトのトラフィックは平均日から約17.2人の範囲で変動している。

question mark

分散と標準偏差の関係は何ですか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 5.  7

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 5.  7
some-alt