離散型統計分布：二項分布、幾何分布、ポアソン分布

キーワード

ベルヌーイ試行、二項分布、負の二項分布、幾何分布、超幾何分布、ポアソン分布

参照：JavaScriptの計算プログラム

硬貨やサイコロを投げるというようかことを試行といいます。このとき、
　・二値性：試行の結果は、ある事象が起こるか起こらないかの２つの状態になる。
　・独立性：次の試行の結果は、これまでの試行の結果とは無関係である。
という条件を満たす試行のことをベルヌーイ試行といいます。
以降での試行とは、すべてベルヌーイ試行です。

１回の試行で硬貨で表がでるか、サイコロで１の目がでるかというような事象が発生する確率が既知であるとして、数回の試行をしたときに、それらの事象が何回起こるかというような問題を取り扱うのが二項分布です。
ここでは、二項分布およびそれに関連するいくつかの確率分布について学習します。

二項分布

ある事象が起こる確率がｐの試行をｎ回行ったとき、その事象がｘ回起こる確率Ｐ(x)は、次の二項分布になる。
　　　Ｐ(x)＝_nＣ_xｐ^x(１－ｐ)^n-x
　　　　　平均：ｎｐ　　分散：ｎｐ(１－ｐ)

例題: 硬貨を５回投げたとき、２回が表になる確率を求めよ。
解答: ｐ＝１／２、ｎ＝５、ｘ＝２を公式に代入する。
Ｐ(２)＝_５Ｃ_２(１／２)^２(１－１／２)^５－２
　　　＝１０×(１／２)^５＝５／１６＝０.３１２５
解説: _nＣ_xに関しては「順列・組合せ」（stat-pc）、二項分布の公式に関しては「確率の基礎的例題」（stat-kakuritu-reidai）を参照のこと。
なお、例題でｘ＝０～５について計算すると次のようになります。
　　　　　　確率密度　　　　累積確率
　　　ｘ　　　Ｐ(x)　　　　　∑Ｐ(x)
　　　０　０.０３１２５　０.０３１２５
　　　１　０.１５６２５　０.１８７５
　　　２　０.３１２５　　０.５
　　　３　０.３１２５　　０.８１７５
　　　４　０.１５６２５　０.９６８７５
　　　５　０.０３１２５　１
　ここで、「二項」分布といわれる理由を簡単に示します。
　ある事象が起こることをａ、起こらないことをｂとし、それをｎ回行うとすれば、（ａ＋ｂ）ⁿ と関係がありそうです。これを展開したときのａ^xｂ^n-x の係数は、_nＣ_x を二項係数といいます。このようなことから二項分布という名称になったのです。
二項分布と正規分布: 二項分布は、平均＝ｎｐ、分散＝ｎｐ(１－ｐ) になります。
ｎｐが大きいときには、二項分布は、平均＝ｎｐ、分散＝ｎｐ(１－ｐ) の正規分布で近似できます。
Ｅｘｃｅｌの関数: 二項分布で、ｘを与えて確率密度Ｐ(x)と累積確率∑Ｐ(x)を求める。
　　　BINOMDIST(x,n,p,FALSE/TRUE)　　　FALSE：Ｐ(x)、TRUE：∑Ｐ(x)
　例：BINOMDIST(2,5,0.5,FALSE)＝0.3125
　　　BINOMDIST(2,5,0.5,TRUE)＝0.5
二項分布の累積確率Ｐを与えて、Ｐ≦∑Ｐ(x)となるｘを求める。
　　　CRITBINOM(n,p,∑P)
　例：CRITBINOM(5, 0.5, 0.9)＝4

二項分布の計算プログラム

負の二項分布

ある事象が起こる確率がｐのとき、ｎ回投げたときに、その事象がはじめてｘ回発生する確率Ｐ(ｎ)は、次の負の二項分布になる。
　　　Ｐ(n)＝_n-1Ｃ_x-1ｐ^x(１－ｐ)^n-x
　　　　　平均：ｘ(１－ｐ)／ｐ　　分散：ｘ(１－ｐ)／ｐ²

例題: 硬貨を投げて、５回投げたときに、はじめて表が３回になる確率を求めよ。
解答: ｎ＝５、ｘ＝３、ｐ＝１／２を公式に代入。
Ｐ(5)＝_5-1Ｃ_3-1(１／２)³(１－１／２)^5-3
　　＝₄Ｃ₂(１／２)⁵
　　＝６／３２＝３／１６＝０.１８７５
解説: ｎ回の試行ではじめてｘ回になるということは、
ｎ－１回まででｘ－１回起こっていた
　　この確率は二項分布の公式で、ｎ→ｎ－１、ｘ→ｘ－１とした確率であるから、
　　　　_n-1Ｃ_x-1ｐ^x-1(１－ｐ)^n-x
　　になります。
そして、ｎ回目にその事象が起こった
　　その確率はｐ
これから、負の二項分布の公式が得られます。
二項分布との関係: 二項分布では、試行回数ｎが先にあって、事象が起こる確率などを求めました。負の二項分布では、事象が起こる回数ｘが先にあります。ここで試行回数を時間だと考えれば、事象がｘ回起こるまでの時間を問題にしていることになります。
なお、どうして「負」の二項分布というのかの説明は省略します。
Ｅｘｃｅｌの関数: 負の二項分布の確率Ｐ(n)を求める。
　　　NEGBINOMDIST(ｎ－ｘ,ｘ,ｐ)
　例：NEGBINOMDIST(2,3,0.5)＝0.1875

負の二項分布の計算プログラム

幾何分布

ある事象が起こる確率がｐのとき、ｎ回の試行により、はじめてその事象が起こる確率Ｐ(n)は、次の幾何分布になる。
　　　Ｐ(n)＝(１－ｐ)^n-1ｐ
　　　　　平均：(１－ｐ)／ｐ　　分散：２*μ²
（負の二項分布で、x＝１とおくと、幾何分布に一致する）

例題: サイコロを３回目に投げたときにはじめて１の目が出る確率を求めよ。
解答: ２回目までは、１の目が出ない確率：（１－１／６)^２＝２５／３６
次に投げたときに１の目が出る確率：１／６
従って、Ｐ(３)＝（２５／３６）×（１／６）＝２５／２１６＝０.１１６
解説: この公式が成立する理由は、上の解答からも自明でしょう。
なぜ「幾何」分布というのかの説明は省略します。

幾何分布の計算プログラム

超幾何分布

ｎ個のなかにＡがａ個、Ｂがｂ（＝ｎ－ａ）個ある。ｎ個からｘ個を取り出したとき、Ａがα個である（Ｂがβ（＝ｘ－α）個である）確率Ｐ(x)は、超幾何分布になる。
　　　　　　　　_aＣ_α×_bＣ_β
　　　Ｐ(x)＝─────────
　　　　　　　　　　_nＣ_x
　　　　　平均：ｘａ/ｎ　　分散：ａ(ａ－１)ｘ(ｘ－１)／ｎ(n-1)

例題: 袋の中に赤玉が３つ、白玉が４つ入っている。玉を２つ取り出したとき、赤玉と白玉が１つずつである確率を求めよ。
解答: 赤玉をＡ、白玉をＢとすると、ｎ＝７、ａ＝３、ｂ＝４、ｘ＝２、α＝１、β＝１である。
これを公式に代入すると、
　　　　　　　₃Ｃ₁×₄Ｃ₁　　　　３×４
　　Ｐ(x)＝─────────＝────
　　　　　　　　　₇Ｃ₂　　　　　　２１
　　　　＝４／７＝０.５７１４
詳しい説明は、「確率の基礎的例題」（stat-kakuritu-reidai）を参照のこと。
Ｅｘｃｅｌの関数: 超幾何分布で、Ｐ(x)を求める。
　　　HYPGEOMDIST(α,ｘ,ａ,ｎ)
　例：HYPGEOMDIST(1,2,3,7)＝0.5714

超幾何分布の計算プログラム

ポアソン分布

単位時間中にある事象が発生する平均回数をλとするとき、単位時間中にその事象がｘ回発生する確率密度Ｐ(x)は、ポアソン分布に従う。
　　　　　　　λ^x
　　　Ｐ(x)＝──ｅ^－λ　　　ｅは自然対数の底＝２.７１８
　　　　　　　x！
　　　　　平均：λ　　分散：λ²

例題: ある店では、１時間に平均５人の客が来る。客の来かたはランダムだとするとき、１時間に３人の客が来る確率を求めよ。
解答: λ＝５［人／時間］、ｘ＝３［人／時間］を公式に代入する。
　　　　λ^x　　　　　　５³　　　　　　１２５
Ｐ(x)＝──ｅ^－λ＝──────ｅ^－５＝───×０.００６７３８
　　　　x！　　　　３×２×１　　　　　６
　　＝０.１４０４
解説: この公式の証明は、数学的に高度なので省略します。また、計算も面倒ですので、数表や表計算ソフトを用いることにします。
なお、ポアソン分布は、平均＝λ、分散＝λになります。平均＝分散の関係があるのが特徴です。
Ｅｘｃｅｌの関数: ポアソン分布の確率密度Ｐ(x)と累積確率∑Ｐ(x)を求める。
　　　POISSON(ｘ,λ,FALSE/TRUE)　　　FALSE：Ｐ(x)、TRUE：∑Ｐ(x)
　例：POISSON(3,5,FALSE)＝0.1404
　　　POISSON(3,5,TRUE)＝0.2650
ポアソン分布のグラフ: 発生頻度の平均λを変えて、発生頻度ｘとその確率Ｐ(x) のグラフを描くと右図のようになります。ｘ＝λのときに最大になりますが、λが小さいときは左寄りの山になり、λが大きくなると左右対称になり正規分布のようになります。
これは次のように解釈できます。１時間を単位にとれば、来客数は平均１０人程度で、毎時間の来客数は１０人のまわりに正規分布すると考えてもよいでしょう。ところが、１分単位にすれば、客は来るか来ないかのどちらかになり、２人以上来る確率は非常に低くなります、λ＝１がそのような状況を示しているのだといえます。
このように、ある事象をとらえるには時間の単位が重要であり、それによって正規分布として考えるかポアソン分布として考えるのが適切かが変わってくるのです。

ポアソン分布の計算プログラム

「確率・統計」の目次