この記事では、母集団・標本・統計量・標本分布について注意すべき点などを解説します。
間違いなどありましたらコメントで教えていただけると幸いです。
母集団と標本
例として、日本人成人男子の身長について興味がある場合を考えましょう。
この時、母集団とは日本人成人男子全員のことです。
この母集団の平均や分散は母数(ぼすう)と呼ばれており、それぞれ、母平均\( \mu \)、母分散\( \sigma^2 \)と表されます。
豆知識1:母数は\( \mu \)や\( \sigma^2 \)などギリシャ文字で表されることが多い。
注意1:母数の母平均\( \mu \)や母分散\( \sigma^2 \)は確率変数のようにゆらぐ値ではなく、母集団のすべての情報を使って計算して確定できる定数である。ただし、実際には母集団すべての情報を得る(日本人成人男子全員に聞いてまわる)ことは難しいので、未知の値となる。
この未知の値である母数を推定しよう、というのがここからの話である。
そのために標本を使う。標本とは母数を推定するために母集団からランダムに抽出されたサンプルのことである。
例えば、母平均(日本人成人男子の平均の身長)を推定するために、日本人成人男子からランダムに10人抽出して身長を聞き出したとする。この10人の身長が標本である。
豆知識2:標本というと、母集団すべての情報を得られないので、現実的なコストで集められる個数のデータを集めた感じと、ランダムに抽出したイメージを持って欲しい。
ここで、多くの書籍でn個の標本は\( X_1, X_2, X_3, \cdots, X_n \)のように書いてあることが多いが、ここに大きな注意点がある。
注意2:この\( X_1, X_2, X_3, \cdots, X_n \)は確率変数である。標本を取るたびに1人目の身長\( X_1 \)、2人目の身長\( X_2 \)などはランダムに変わるので、確率変数で表される。ある1回の標本抽出で得られた実際の1人目の身長の実現値は\( x_1 \)など、小文字で表される。
豆知識3:確率変数はX, Y, Zなど、アルファベットの大文字、その実現値はx,y,zなどアルファベットの小文字で表されることが多い。
統計量・標本分布
統計量とは、標本から計算される、母数を推定するための計算式(関数)のことである。
母平均を推定するための統計量には標本平均\( \bar{X} \)があり、以下の式で表される。
$$
\bar{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}
$$
実際にこの数式を使うときは、以下のように標本(サンプル)の実現値で計算する。
$$
\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n}
$$
この実現値の計算結果がおおよそ母平均に近いということである。
注意3:実現値を入れる前の統計量(標本平均\( \bar{X} \)など)は、確率変数である。ここが注意が必要な点で、標本\( X_1, X_2, X_3, \cdots, X_n \)が確率変数であるから、それの関数である統計量も確率変数である。
標本から計算される統計量が確率変数である、ということは、統計量は確率分布を持つということである。
その統計量の確率分布が標本分布である。(標本から作られる統計量の確率分布だから)
コメント