スタートページWeb教材一覧オペレーションズリサーチゲームの理論と期待値

決定理論

学習のポイント

相手が景気や天候などのような自然であり,その好況・不況,晴・雨の確率も予測できない場合のがわかっているときの意思決定に関する考え方を理解します。

キーワード

決定理論,確率未知,ラプラスの原理,マクシマックス原理,ミニマックス原理(マクシミン原理),ハーヴィッツの原理,リグレット・ミニマックス原理

参照:JavaScriptの計算プログラム


問題の理解

景気と設備投資の関係を例にします。好況・不況になる確率がわかっているときには,私のとれる戦略(積極案・消極案)のうちから期待値の最大のものを選択しましたが,ここでは,その確率もわかっていない場合を考えます。このような問題に関する考え方を(狭義の)決定理論といいます。

    

ケースA 景気
好況不況
私の戦略積極案10
消極案

  

ケースB 景気
好況不況
私の戦略積極案10-3
消極案

ケースAの場合を考えます。好況のときは積極案(10)>消極案(5)ですし,不況のときも積極案(3)>消極案(2)なので,どちらになっても消極案は不利です。このように,ある戦略がすべての状況において他のある戦略よりも不利なとき,不利になる戦略を削除します。この場合は次のようになり,残った戦略は一つですから,自動的に積極案を採用することになります。

それに対してケースBのときは,好況のときは積極案(10)>消極案(5)ですが,不況のときは積極案(-3)<消極案(2)ですから,削除する戦略はありません。ここではケースBについて考えます。

代表的な決定理論

ケースBのような問題での意思決定での代表的な考え方に,ラプラスの原理,マクシマックス原理,ミニマックス原理(マクシミン原理),ハーヴィッツの原理,リグレット・ミニマックス原理などがあります。

「原理」とは,その主張が正しいことが証明される性質のものではなく,一般的に考えることができるという意味で使われます。

ラプラスの原理

確率がわからないのであれば,どの事象の発生する確率も等しいとするのも一つの考え方でしょう。それをラプラスの原理といいます。この場合では,好況になる確率=0.5,不況になる確率=0.5になります。

その確率を用いれば,期待値最大の考え方が使えます。
   積極案:10×0.5-3×0.5=3.5
   消極案: 5×0.5+2×0.5=3.5
となり,どちらも期待値が同じなので,「どちらを選択しても同じ」ことになります。

マクシマックス原理

マクシマックス 景気最大値評価
好況不況
私の戦略積極案★10-3★10←最大
消極案★5   

非常に強気の人や楽観的な人は,景気すら自分の思うようになると考えます。自分が積極案を選択すれば,積極案の行で最大の利益(10)の期待できる好況になるし,消極的な戦略をとったときは,その行で最大の利益(5)になる好況になると考えます。そして,その最大値を比較すると積極案の10が最大なので積極案を選択することになります。

各戦略(行)について,各状況(列)のうち最大(マックス)のものを選び,さらにその最大のものから最大になる戦略を選ぶ(最大-最大)ので,この考え方をマクシマックス原理といいます。

ミニマックス原理(マクシミン原理)

ミニマックス 景気最小値評価
好況不況
私の戦略積極案10★-3-3 
消極案★2★2←最小

逆に慎重な人や悲観的な人は,「とかく物事は悪くなる」ので,積極案を選択すると不況になり,消極案にすれば不況になると考えるでしょう。積極案の行から最小(ミニマム)の列(不況の-3)を,消極案の行から最小の列(不況の2)を選び,その最小値のうち被害最小(利益最大)になる戦略である消極案を選択する(最小-最大)ので,このような考え方をミニマックス原理(マクシミン原理)といいます。

貧乏神が私に取り付いていますと,私が損をするように景気を左右します。そのような意地悪をされても,最大限の利益を得ようとするのが,このミニマックス原理です。また,私が投資の決定する前に,貧乏神が景気の予定を決定をするとすれば,私の利益を最小にしようと行動するでしょう。このような考え方はゲームの理論につながります。

ハーヴィッツの原理

ハーヴィッツ 景気最大値最小値合計
好況不況
私の戦略積極案10-310-310α-3(1-α)=13α-3
消極案 5α+2(1-α)= 3α+2

通常では極端に楽観的・悲観的な人はいません。そこで楽観指数(?)をαとしましよう。その人は次のような考え方をするでしょう。各戦略を選択したときの最大値にα,最小値に(1-α)をかけたものの合計を求めて,そのうちの最大のものを得る戦略を選択するという考え方です。これをハーヴィッツの原理といいます。

たとえば,α=0.7の人(やや楽観的な人)は,積極案を選択すると13×0.7-3=6.1,消極案を選択すると3×0.7+2=5.1ですから積極案を選択するであろうということになります。
 また,13α-3=3α+2とすると,α=0.5になるので,楽観指数が0.5以上の人は積極案,それ以下の人は消極案を選択するであろうということになります。

リグレット・ミニマックス原理

リグレット
ミニマックス
景気最小値評価
好況不況
私の戦略積極案★-5-5←最小
消極案★-5-5←最小

リグレットとは反省とか後悔という意味です。積極案を選択したのに不況になったとしたら,「あのとき消極案を選択していればよかったのに」と後悔することが多いですが,「後悔を最小にする」考え方をリグレット・ミニマックス原理といいます。

この原理では,「結果として最善の案を選択したときの結果を0とする」ために,要素の値から各列の最大値を引くことにより,後悔値(それを機会損失といいます)の表にします。例えば好況になったときは,積極案を選択するときの10が最大値ですので,積極案を選択していれば後悔しなかった(10-10=0)のに,消極案を選択していたら5-10=-5の後悔をするというように考えます。そのようにして修正したペイオフ・マトリクスに対してミニマックス原理を適用します。たまたまこのときは最小値が同じ値になりましたので,どちらが有利とはいえないことになりました。


理解度チェック

第1問

次のペイオフ・マトリクスが与えられているとき,傘を持っていくかどうかについて,各種の原理を適用しなさい。

  天候
傘を 持つ-1
持たない-3
  1. ラプラスの原理
    ラプラス
    の原理
    天候期待値評価
    0.50.5
    傘を 持つ-1-1×0.5+1×0.5=0.0←最大
    持たない-32×0.5-3×0.5=-0.5 
  2. マクシマックス原理
    マクシマックス 天候最大値評価
    傘を 持つ-1★1 
    持たない★2-3★2←最大
  3. ミニマックス原理(マクシミン原理)
    ミニマックス 天候最小値評価
    傘を 持つ★-1★-1←最大
    持たない★-3-3 
  4. ハーヴィッツの原理(α=0.7とする)
    ハーヴィッツ 天候最大値最小値合計評価
    傘を 持つ-1-11×0.7-1×0.3=0.4 
    持たない-3-32×0.7-3×0.3=0.5←最大
  5. リグレット・ミニマックス原理
    リグレット
    ミニマックス
    天候最小値評価
    傘を 持つ★-3★-2←最大
    持たない★-4-4