手元にあるデータが分析対象の全てのデータなのか、分析対象から一部抽出したデータなのか、この点に注目すると多少分かりやすい。
母集団と標本
母集団と標本という言葉について、まずは理解しよう。
例えば、「20歳以上の日本人男性」の平均身長を知りたいとする。
このとき、平均身長を調べるために「20歳以上の日本人男性」全員に何らかの方法で調査するのはコストが掛かりすぎて現実的ではない。
そこで、ランダムに「20歳以上の日本人男性」を100人選んで身長を聞き出せたとする。
この100人の身長データから「20歳以上の日本人男性」全体の平均身長を推測しようというのが、いわゆる「推測統計学」というものである。
(豆知識:推測統計学と対極にあるのは記述統計学というものだ。)
推測統計学で、この例の「20歳以上の日本人男性」全体のように本来調べたい対象全体のことを「母集団」という。
この例のように母集団の一部からランダムにデータを取ってきたものを「標本」という。
通常の「分散」と「不偏分散」
調べたい対象全体、つまり母集団が40人クラス全員で、数学のテストの点数だとする。
このときは、母集団全体を調べるのは比較的容易なので、推測統計学の出番は無く、記述統計学の出番だ。
40人の数学のテストの点数の分散は、下のように通常の「分散」で求められるし、この分散に意味がある。
$$
S^2 = \frac{1}{n} \{ (x_1-\bar{x})^2 + (x_2-\bar{x})^2 + \ldots + (x_n-\bar{x})^2 \}
$$
調べたい対象全体、つまり母集団が全てのデータを集めるのが困難な場合、ランダムにサンプリングした標本\( X_1, X_2, \ldots, X_n \)から母集団の分散を推測したい場合、この場合は不偏分散を使わなくてはならない。
$$
U^2 = \frac{1}{n-1} \{ (X_1-\bar{X})^2 + (X_2-\bar{X})^2 + \ldots + (X_n-\bar{X})^2 \}
$$
この不偏分散は名前の通り、「不偏性」を持った分散で、母集団の分散を大きく見積もったり、小さく見積もったり、つまり偏りなく推測できる。
コメント