測度論から見た離散分布と連続分布

測度論の本を読んだ。

はじめての確率論 測度から確率へ
佐藤 坦
4320014731

朱鷺の杜Wikiの確率の記法ページ にも書かれているが、確率論の難しさの1つに数式の厳密な意味を理解する困難さが挙げられると思うが、この本には確率論を厳密に記述するための足場となる測度論について書かれている。

例えば、wikipediaには正規分布について以下のように書かれている。

\[f(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2} \right)\]

一方の二項分布はこうだ。

\[P[X=k]={n\choose k}p^k(1-p)^{n-k}\quad\mbox{for}\ k=0,1,2,\dots,n\]

どちらも分布の説明なのに、書式が全然違う。wikipediaは\(f(x)\)を使っているが、代わりに\(p(x)\)を使うこともよくある。これと\(P[X=k]\)と書くこととの違いはなんだろうか。

実は正規分布の方の式は、確率分布ではなく、確率密度関数と呼ばれるものだ。確率分布は標本空間の要素ではなく、部分集合をとる関数である。踏まえた上で、正規分布について二項分布と同じように確率分布を書いてみるとこうなる。

\[P[X \in (a, b]] = \int_a^b \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2} \right) dx\]

二項分布と違い、正規分布の方にはリーマン積分が現れる。これは二項分布は離散型、正規分布は連続型の分布であることに起因する。二項分布が離散型なのは、分布関数\(P[(\infty, x]]\)が不連続であることに起因する。正規分布の方はリーマン積分と書いたが、本来はルベーグ積分となる。しかし、正規分布の場合は被積分関数が連続なためリーマン積分とルベーグ積分は一致する。このように離散型と連続型の分布は別のものと分けて解説されることは多いが、本来、測度論の上ではどちらも同じように部分集合から実数値への関数として記述される。利便性のため連続な分布をリーマン積分を使った書式で書いているわけだ。

ここまでの記述の中でもう一点モヤっとする部分がある。左辺にだけ現れて使われていない\(X\)とはなんなのか。このXは確率変数を表し、等式が\(X\)の確率分布であることを示している。もう少し正確に書くとこうなる。

\[P[ \{ \omega \in \Omega | X(\omega) \in [a, b) \} ] = \int_a^b \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2} \right) dx\]

この記述から2点わかることがある。まず、\(P\)\(\mathbb{R}\)の部分集合ではなく、標本空間である\(\Omega\)の部分集合を取るということ。もうひとつ、確率変数\(X\)とは、標本空間\(\Omega\)の元を\(\mathbb{R}\)にマップさせるもの、つまり、関数であるということだ。よく、2つの確率変数の和を\(X+Y\)と書くが、正確な意味は\((X+Y)(\omega) \overset{\mathrm{def}}{=} X(\omega) + Y(\omega)\)となるわけである。

期待値の定義でも離散分布では\(\sum\)、連続分布では\(\int\)を使って考えたほうが便利ではあるが、測度論の上ではどちらも単関数列の極限で定義できる。単関数であれば同じ値をとるような標本空間上の部分集合をまとめられるので、その集合を測度\(P\)で測って掛け算してあげればいいという考え方である。

こんな雰囲気で測度論の定義から確率論を構成していき、中心極限定理までを証明する。本書は解析的な内容にはほとんど触れられていないため具体的な計算手法については学ぶことはできないが、確率論の構成要素となる背景の理論を知ることは、確率論を理解する強力な後ろ盾になるだろう。