確率変数についての基本的な内容は下の記事で解説しています。
この記事では、離散型と連続型の確率変数、および確率分布について解説します。
離散型確率変数 / 連続型確率変数
離散という言葉と、連続という言葉のイメージを先に作るべきだと思う。
離散型の変数と言った場合、その変数が取りうる値は、例えば整数のように-2、-1、0、1、2、3と飛び飛びの値になる。注意点としては、離散型の変数の取りうる値として、整数全体のように無限個の要素を持つ集合を指定しても良い。厳密でないが、感覚として飛び飛びであれば良い。
連続型の変数と言った場合、実数のように、ある値(例えば5)にどれだけ近い値(5.1や5.0000001)も取る可能性を考慮する。
離散型確率変数と連続型確率変数は、取りうる値(実現値)が離散か連続かの違いだ。
ここで1つ重要な例を示す。離散型確率変数Xがx=5という実現値を取る確率が1/10という状況はあり得て、数式で次のように表現される。
$$
P(X=5) = \frac{1}{10}
$$
ただし、0~1の実数値を取りうる連続型の確率変数Yの場合、y=0.5という実現値を取る確率は次のようになる。
$$
P(Y=0.5) = 0
$$
つまり、連続型の確率変数の場合は、実現値y=0.5完全ピッタリという値を確率変数Yが取る確率は0だと考えるのだ。
しかし、それだけだと連続型の確率変数について、どの値を取る確率も0なので何も表現できない。
離散型確率分布 / 連続型確率分布
そこで、連続型確率変数については、下のような性質を持つ関数\( f(x) \)が重要になってくる。
$$
P(a \leq X \leq b) = \int_a^b f(x) dx
$$
この数式の意味は、連続型確率変数Xがa以上b以下の値を取る確率が、常に\( f(x) \)という関数のaからbまでの定積分で表されるということだ。
この関数\( f(x) \)を、連続型確率変数Xの確率密度関数という。
(豆知識:確率密度関数は英語でprobability density functionと言い、頭文字を取ってpdfなどと表現されることがある。英語の資料を読んでいる時に、なんでいきなりPDF文書の話になるんだろう、なんて思わないように・・・)
コメント