Web教材一覧統計・確率

ベイズの定理

キーワード

ベイズの定理


公式

 事象Bが発生する確率(事前確率)を P(B)
 事象Aが起きた後での、Bが発生する確率(事後確率)を P(B|A)
とすると、
 事象Bが起きた後での、Aが発生する確率 P(A|B)は
          P(B) P(A|B)
   P(B|A) = ────────              (1)
            P(A)

               P(B) P(A|B)
        = ───────────────────   (2)
          P(B) P(A|B) + P() P(A|)
と表すこともできます。
(1)、(2)をベイズの定理といいます。そして、
  P(B)を事前確率
  P(B|A)を事後確率
といいます。

数値例

ベイズの定理を理解するため、その証明もかねて、数値例を掲げます。

●問題

下表の構成であるグループから、1人を取り出したら女性であったとき、この人が成年である確率を求めよ。
       グループ構成(人)     対総数比率(確率)
      成人 未成年  合計    成人  未成年 合計
  男性  30  10  40    30/110 10/110 40/110
  女性  20  50  70    20/110 50/110 70/110
  合計  50  60 110    50/110 60/110 1

●解答

難しい計算をするまでもなく、女性70人のうち、成人は20人なのですから、求める確率は 20/70 であることがわかります。

上の表の確率を用いて計算します。

公式での計算
 女性であることがわかってから成人であるかどうかを求めるので、
  事象A:1人を取り出したとき女性である事象。その確率:P(A)=70/110
  事象B:1人を取り出したとき成人である事象。その確率:P(B)=50/110
となります。これらは、「女性である」ことを知らない事前に計算できるので、事前確率です。
 そして、問題は、事後にわかった事実「女性である」ことから、事後確率
  P(B|A):女性だとわかった後での、成人である確率
を求めることになります。

「20/110」は、どのようにして求められるでしょうか。
  「成人である確率」=「成人であることを知ってから、女性である確率」×「女性である確率」
ですから、式で表現すれば、
  P(A|B) P(B)
となります。そして、
  P(A|B) =「女性の成人」/「成人全体」=20/50
ですから、
  P(A|B)×P(B) = (20/50)×(50/110)=20/110
となります。
 そして、P(A)=70/110なのですから、(1)式から、
  P(B|A) =(20/110)/(70/110)=20/70
が得られます。

(2)式の分母の説明をします。
(1)式との関係から、   P(A)=P(B) P(A|B) + P() P(A)|)
の右辺の意味を説明して、その値が70/110になることを示せばよいことになります。
 とは、「Bではない」すなわち「未成年である」ことです。
 上の表で、(女性、成人)の確率 20/110 がP(B)×P(A|B) であることは先に説明しました。
 それと同様に(女性、未成年)の確率 50/110 は、P() P(A)|)になります。
 これにより、上の式の右辺は、(20/110)+(50/110)=70/110になります。

実際の計算では、公式を用いるよりも上の表を作成するほうが、わかりやすいし簡単です。

例題

先の数値例では、この公式の効果が示せませんでしたので、どのように利用できるかを例題で示します。

●問題

本社から工場まで車で行くのに、一般道路では80分かかる。高速道路を利用すると、混雑していなければ50分、混雑していれば100分かかる。交通情報が「順調」ならば高速道路を利用し、「渋滞」ならば一般道路を利用するとき、期待できる平均所要時間は約何分か。ここで、高速道路の混雑具合の確率は、混雑している状態が0.4、混雑していない状態が0.6とし、高速道路の真の状態に対する交通情報の発表の確率は表のとおりとする。
            高速道路の真の状態
          混雑している 混雑していない
    交通 渋滞   0.9     0.2
    情報 順調   0.1     0.8

ア 62  イ 66  ウ 68  エ 72

(上級システムアドミニストレータ試験、平成20年度、問48)

●解答

交通情報が「渋滞」であったとき、真に「混雑」している確率はいくらか(およびその逆)を求めることがポイントになります。
 「混雑」している事象が事象A、「渋滞」と発表する事象が事象Bであり、交通情報を知る前での「混雑」確率と交通情報の正確性の確率が事前確率、「渋滞」と知ってからの「混雑」の確率が事後確率になります。
 数値例の「表による計算」に準じた方法で解きます。

 

      混雑している       混雑していない    合計
渋滞  0.4×0.9=0.36  0.6×0.2=0.12  0.48←「渋滞」と発表される確率
順調  0.4×0.1=0.04  0.6×0.8=0.48  0.52←「順調」と発表される確率
            ───           ───   ───
合計         0.40         0.60  1.00

「渋滞」と発表される確率
  = 真は混雑しており。渋滞と発表する確率   =0.4×0.9=0.36
   +真は混雑していないのに渋滞と発表される確率=0.6×0.2=0.12
  =0.36+0.12
  =0.48
「順調」と発表される確率
  =0.4×0.1+0.6×0.8
  =0.52

「順調」と発表されているが、真は混雑している確率=0.04/0.52=0.077
「順調」と発表されており、真も混雑していない確率=0.48/0.52=0.923
                                  ─────
                                  1.000
    (ここまでが、ベイズの定理に関する部分です)
「渋滞」のときの所要時間
  一般道路利用→80分
「順調」のときの所要時間
  高速道路利用→100×0.077+50×0.923=53.8分

期待値=80×0.48+53.85×0.52=66.4分 →イ

計算プログラム

事象数 調査数
事象1事象2事象3事象4事象5
事前確率→ 合計=1
調査結果1
調査結果2
調査結果3
調査結果4
調査結果5
合計11111

ベイズ理論の特徴と応用

ベイズの理論は、事前確率と事後確率の考え方、主観確率と客観確率との組み合わせができることが特徴です。

  1. 「混雑」のような主観確率に、「交通情報」のような客観的な確率を加えて、より客観性の高い確率を求める方法だと解釈できます。
  2. 逆に、「混雑」は頻度主義的な客観確率であり、「交通情報」の信頼性が主観確率だということもできます。客観確率を主観確率を加えることにより、確率の精度を高める方法だと解釈できます。

そのため、多様な分野で応用されています。

ITでの応用
件名や本文に含まれる単語、発信者名や発信ドメイン名などにより、スパムメールかどうかを判断する機能があります。該当する単語(例えば「交際」など)を含むメールのうち、スパムメールである確率(事前確率)として与え、新しくきたメールに「交際」があったとき、それがスパムメールである確率(事後確率)を求めることができます。
同様な考え方を、カナ漢字変換や検索エンジンなどにも適用しています。
医療での応用
ある病気に感染しているかどうかを検査するとき、真には感染しているのに陰性となったり、感染していないのに陽性となる(偽陽性という)ことがあります。もし病気が稀なものならば、陽性の結果の多くが偽陽性ということもあります。その程度を把握するために利用されています。

「確率・統計」の目次