Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 確率分布の理解 | 確率と統計
Pythonによるデータサイエンスのための数学

book確率分布の理解

メニューを表示するにはスワイプしてください

確率分布

確率分布は、さまざまな結果がどれだけ起こりやすいかを示すもの。 離散的な結果(例:「不良な棒の本数」)の場合、各可能な数に対して確率を列挙。 連続的な測定値(例:長さや重さ)の場合は、範囲全体にわたる密度で表現。

一般的な離散型と連続型の公式:

P(XA)=xAp(x)(discrete)P(aXb)=abf(x)dx(continious)P(X \in A) = \sum_{x \in A}p(x)\quad(\text{discrete}) \\[6pt] P(a \le X \le b) = \int_a^b f(x)dx \quad (continious)

例(簡単な確認):ある工程で49.5~50.5cmのすべての長さが等しく出現する場合、0.4cmの範囲に棒が入る確率は、その範囲の幅を1.0cmで割った値(これが一様分布の考え方。下で詳しく説明)。

二項分布

二項分布は、独立した試行(例:100本の棒)の中で、成功(例:不良な棒)が出る回数をモデル化。各試行の成功確率は同じ。

公式:

P(X=k)=(nk)pk(1p)nkP(X = k) = \begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}

例:

それぞれ独立に不良となる確率 p=0.02p=0.02 の棒が n=100n=100 本あるとき、ちょうど k=3k=3 本が不良となる確率は?

ステップ1 — 組み合わせの計算

(1003)=100!3!97!=161700\begin{pmatrix}100 \\ 3\end{pmatrix} = \frac{100!}{3!97!} = 161700

ステップ2 — 累乗の計算

p3=0.023=0.000008(1p)97=0.98970.1409059532p^3 = 0.02^3 = 0.000008 \\ (1-p)^{97} = 0.98^{97} \approx 0.1409059532

ステップ3 — すべてを掛け合わせる

P(X=3)=161700×0.000008×0.14090595320.182275941P(X = 3) = 161700 \times 0.000008 \times 0.1409059532 \approx 0.182275941

意味:100本中ちょうど3本が不良となる確率は約18.23%。3本の不良が出ても十分あり得る結果。

Note
注意

計算した確率が1より大きい、または負になる場合は、組み合わせや累乗の計算を再確認。二項分布のpmf値とcdf値を比較すると、「最大」や「最小」などの答えも確認可能。

一様分布

一様分布は、区間 [a,b] 内のすべての値が等しい確率で現れる連続的な測定値をモデル化します(例:棒の長さの許容範囲)。

式:

f(x)=1ba,axbf(x) = \frac{1}{b-a},\quad a \le x \le b

2点間の確率

P(lXu)=ulbaP(l \le X \le u) = \frac{u - l}{b - a}

例:

パラメータ: a=49.5, b=50.5。棒の長さ X が 49.8 から 50.2 の間にある確率は? 範囲の幅を計算:

ba=50.549.5=1.0b-a = 50.5 - 49.5 = 1.0

部分区間を計算:

ul=50.249.8=0.4u - l = 50.2 - 49.8 = 0.4

確率:

P(49.8X50.2)=0.41.0=0.4P(49.8 \le X \le 50.2) = \frac{0.4}{1.0} = 0.4

解釈:ランダムに測定した棒がこの狭い許容範囲に収まる確率は 40% です。

Note
注意

a<ba<b を必ず満たし、部分区間が [a,b][a,b] 内にあることを確認してください。そうでない場合は端点を切り詰め、範囲外は確率 0 として扱います。

正規分布

正規分布は、平均 μμ の周りに集まり、標準偏差 σσ で広がりを示す連続的な測定値を表します。多くの測定誤差や自然変動は、このベル型曲線に従います。

式:

f(x)=1σ2πe(xμ)22σ2f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

zスコアによる標準化:

z=xμσz = \frac{x-\mu}{\sigma}

2つの値の間の確率は累積分布関数(CDF)や標準的な場合の対称性を利用します:

P(aXb)=Φ(bμσ)Φ(aμσ)P(a \le X \le b) = \Phi\left(\frac{b-\mu}{\sigma}\right) - \Phi\left(\frac{a-\mu}{\sigma}\right)

ここで Φ\Phi は標準正規分布の累積分布関数です。

例 A:

パラメータ: μ=200μ=200, σ=5σ=5, P(195X205)P(195≤X≤205) を求める。

zスコア:

z1=1952005=1z2=2052005=1z_1 = \frac{195 - 200}{5} = -1 \\[6pt] z_2 = \frac{205 - 200}{5} = 1

正規分布の対称性を利用すると、1−1 から +1+1 標準偏差の間の確率はよく知られた値:

P(195X205)0.6826894921P(195 \le X \le 205) \approx 0.6826894921

解釈:棒の重さのおよそ 68.27% が平均値の±1標準偏差以内に収まります。これは有名な「68%ルール」です。

Note
注意

境界が を中心に対称である場合、既知の経験則(689599.768–95–99.7)を使用。その他の境界の場合は を計算し、表または計算機を使用。

question mark

X=195X=195μ=200μ=200σ=5σ=5 のときのZスコアは?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 5.  10

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 5.  10
some-alt