Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ サンプリングの理解 | 確率と統計
Pythonによるデータサイエンスのための数学

bookサンプリングの理解

メニューを表示するにはスワイプしてください

Note
定義

サンプリングは、より大きな母集団からデータのサブセットを選択し、全体についての洞察や推論を得るプロセス。母集団全体からデータを収集することが非現実的または不可能な場合が多いため、サンプリングによって効率的な分析が可能となり、結果の質と正確性を維持できる。

単純無作為抽出法

母集団のすべてのメンバーが等しい確率で選ばれる。
これは、帽子から名前を引くようなもの。

P(Select any individual)=1NP(\text{Select any individual}) = \frac{1}{N}

ここで:

  • NN = 母集団のサイズ。

例 1:

30人の学生がいるクラスがある。アンケートのために5人を無作為に選びたい。

解答: 1から30までの中から重複しない5つの数字をランダムに選ぶ乱数生成器を使用する。各学生が選ばれる確率は130\tfrac{\raisebox{1pt}{$1$}}{\raisebox{-1pt}{$30$}}

例2:

30人のクラスから5人を選んでアンケートに参加させる場合。

  • 母集団の総数: N=30N=30
  • サンプルサイズ: n=5n=5

アリスとボブの両方が選ばれる確率は?

30人から5人を選ぶ方法の総数:

(305)\binom{30}{5}

アリスとボブの両方を含むサンプルの数: アリスとボブを固定し、残り28人から3人を選ぶ:

(283)\binom{28}{3}

したがって、確率は次の通り:

P=(283)(305)P = \frac{\binom{28}{3}}{\binom{30}{5}}

層別抽出法(Stratified Sampling)

母集団を意味のある小集団(層)に分け、それぞれから無作為にサンプルを抽出。

nh=NhN×nn_h = \frac{N_h}{N} \times n

ここで:

  • NhN_h - 層hhのサイズ
  • NN - 母集団の総数
  • nn - サンプルの総数
  • nhn_{\raisebox{-1pt}{$h$}} - 層hhからのサンプル数

例:

あるクラスに30人(男子18人、女子12人)がいる。10人を比率に応じて抽出する場合:

  • 男子から: 1830×10=6\tfrac{\raisebox{1pt}{$18$}}{\raisebox{-1pt}{$30$}} \times 10 = 6
  • 女子から: 1230×10=4\tfrac{\raisebox{1pt}{$12$}}{\raisebox{-1pt}{$30$}} \times 10 = 4

利点:主要な小集団の代表性を確保できる。

クラスター抽出法(Cluster Sampling)

母集団をグループ(クラスター)に分け、クラスター単位で無作為に選択。

c=number of clusters to samplec = \text{number of clusters to sample}

ここで:

  • クラスターは既存のグループ(例:教室、チーム)
  • 個人ではなく、クラスター全体を無作為に選ぶ

例 1:

あなたの学校には5つの教室があります。25人の生徒をサンプルとして選びたいですが、個別に調査するのは時間がかかりすぎます。

解決策:各教室に約25人いるため、1つの教室を無作為に選び、その全員を調査します。

例 2:

大学には20棟の寮があり、それぞれ50人の学生が住んでいます。4つの寮を無作為に選び、その中の全員を調査します。

  • クラスター数: N=20N=20
  • 選ばれたクラスター数: n=4n=4
  • 各寮の学生数: M=50M=50
  • サンプルとなる学生の総数: n×M=200n \times M = 200

特定の学生(例:Sarah)が含まれる確率は? それは彼女の寮が選ばれる確率と等しいです:

P(Sarah selected)=420=0.2P(\text{Sarah selected}) = \frac{4}{20} = 0.2

複雑なケース: 10棟の寮には30人、残り10棟には70人の学生がいる場合、4つの寮を無作為に選ぶと期待されるサンプルサイズは?

定義:

  • D30=10D_{30} = 10(30人の寮)
  • D70=10D_{70} = 10(70人の寮)

期待されるサンプルサイズ:

E=1020(4×30)+1020(4×70)=200E = \frac{10}{20} \cdot (4 \times 30) + \frac{10}{20} \cdot (4 \times 70) = 200

クラスターのサイズが異なっていても、寮のタイプが均等であれば期待されるサンプルサイズは同じままです。

系統抽出法

リストからkk番目ごとに項目を選択。

k=Nnk = \frac{N}{n}

ここで:

  • NN - 母集団の総数
  • nn - 希望するサンプルサイズ
  • kk - 抽出間隔

例:

1000人の顧客リストから100人をサンプルとして選びたい場合:

k=1000100=10k = \frac{1000}{100} = 10

ランダムな開始点(例:7)を選び、10番目ごとに顧客を選択:7、17、27、など。

利点:実装が簡単で系統的。

すべての手法を1つの問題に適用

問題設定:
あなたは、10クラス(各クラス30人)に分かれた合計300人の生徒がいる学校のカフェテリア満足度を調査しています。30人のサンプルが必要です。

  • 単純無作為抽出法: 全生徒リストから無作為に30人を選ぶ;
  • 層別抽出法: もし60%が男子、40%が女子なら、男子18人・女子12人を抽出;
  • クラスター抽出法: 無作為に1クラス(30人)を選び、全員を調査;
  • 系統抽出法: 並べたリストから10人ごとに1人を選ぶ。

まとめ

  • サンプリングはデータ収集の労力を減らしつつ、一般化を可能にする;
  • 無作為抽出法と層別抽出法は精度が高い;
  • クラスター抽出法は効率的だが、クラスターが類似している場合に最適;
  • 系統抽出法はシンプルで実用的;
  • 利便抽出法はリスクが高く、可能な限り避けるべき;
  • 実際の分析では、必ずサンプリング手法を記録すること。
question mark

どの手法が、すべての個人に等しい選択の機会を保証しますか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 5.  5

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 5.  5
some-alt