決定理論＜決定理論とゲームの理論＜オペレーションズ・リサーチ＜Ｗｅｂ教材＜木暮仁

景気と設備投資の関係を例にします。好況・不況になる確率がわかっているときには，私のとれる戦略（積極案・消極案）のうちから期待値の最大のものを選択しましたが，ここでは，その確率もわかっていない場合を考えます。このような問題に関する考え方を（狭義の）決定理論といいます。

ケースＡ		景気
ケースＡ		好況	不況
私の戦略	積極案	１０	３
私の戦略	消極案	５	２

ケースＡの場合を考えます。好況のときは積極案（１０）＞消極案（５）ですし，不況のときも積極案（３）＞消極案（２）なので，どちらになっても消極案は不利です。このように，ある戦略がすべての状況において他のある戦略よりも不利なとき，不利になる戦略を削除します。この場合は次のようになり，残った戦略は一つですから，自動的に積極案を採用することになります。

それに対してケースＢのときは，好況のときは積極案（１０）＞消極案（５）ですが，不況のときは積極案（－３）＜消極案（２）ですから，削除する戦略はありません。ここではケースＢについて考えます。

代表的な決定理論

ケースＢのような問題での意思決定での代表的な考え方に，ラプラスの原理，マクシマックス原理，ミニマックス原理（マクシミン原理），ハーヴィッツの原理，リグレット・ミニマックス原理などがあります。

「原理」とは，その主張が正しいことが証明される性質のものではなく，一般的に考えることができるという意味で使われます。

ラプラスの原理

ケースＢ	景気
好況	不況
私の戦略	積極案	１０	－３
消極案	５	２

確率がわからないのであれば，どの事象の発生する確率も等しいとするのも一つの考え方でしょう。それをラプラスの原理といいます。この場合では，好況になる確率＝０.５，不況になる確率＝０.５になります。

その確率を用いれば，期待値最大の考え方が使えます。
　　　積極案：１０×０.５－３×０.５＝３.５
　　　消極案：　５×０.５＋２×０.５＝３.５
となり，どちらも期待値が同じなので，「どちらを選択しても同じ」ことになります。

マクシマックス原理

マクシマックス		景気		最大値	評価
マクシマックス		好況	不況	最大値	評価
私の戦略	積極案	★１０	－３	★１０	←最大
私の戦略	消極案	★５	２	５

非常に強気の人や楽観的な人は，景気すら自分の思うようになると考えます。自分が積極案を選択すれば，積極案の行で最大の利益（１０）の期待できる好況になるし，消極的な戦略をとったときは，その行で最大の利益（５）になる好況になると考えます。そして，その最大値を比較すると積極案の１０が最大なので積極案を選択することになります。

各戦略（行）について，各状況（列）のうち最大（マックス）のものを選び，さらにその最大のものから最大になる戦略を選ぶ（最大－最大）ので，この考え方をマクシマックス原理といいます。

ミニマックス原理（マクシミン原理）

ミニマックス		景気		最小値	評価
ミニマックス		好況	不況	最小値	評価
私の戦略	積極案	１０	★－３	－３
私の戦略	消極案	５	★２	★２	←最小

逆に慎重な人や悲観的な人は，「とかく物事は悪くなる」ので，積極案を選択すると不況になり，消極案にすれば不況になると考えるでしょう。積極案の行から最小（ミニマム）の列（不況の－３）を，消極案の行から最小の列（不況の２）を選び，その最小値のうち被害最小（利益最大）になる戦略である消極案を選択する（最小－最大）ので，このような考え方をミニマックス原理（マクシミン原理）といいます。

貧乏神が私に取り付いていますと，私が損をするように景気を左右します。そのような意地悪をされても，最大限の利益を得ようとするのが，このミニマックス原理です。また，私が投資の決定する前に，貧乏神が景気の予定を決定をするとすれば，私の利益を最小にしようと行動するでしょう。このような考え方はゲームの理論につながります。

ハーヴィッツの原理

ハーヴィッツ		景気		最大値	最小値	合計
ハーヴィッツ		好況	不況	最大値	最小値	合計
私の戦略	積極案	１０	－３	１０	－３	１０α－３(１－α)＝１３α－３
私の戦略	消極案	５	２	５	２	５α＋２(１－α)＝　３α＋２

通常では極端に楽観的・悲観的な人はいません。そこで楽観指数（？）をαとしましよう。その人は次のような考え方をするでしょう。各戦略を選択したときの最大値にα，最小値に（１－α）をかけたものの合計を求めて，そのうちの最大のものを得る戦略を選択するという考え方です。これをハーヴィッツの原理といいます。

たとえば，α＝０.７の人（やや楽観的な人）は，積極案を選択すると１３×０.７－３＝６.１，消極案を選択すると３×０.７＋２＝５.１ですから積極案を選択するであろうということになります。
　また，１３α－３＝３α＋２とすると，α＝０.５になるので，楽観指数が０.５以上の人は積極案，それ以下の人は消極案を選択するであろうということになります。

リグレット・ミニマックス原理

リグレットミニマックス		景気		最小値	評価
リグレットミニマックス		好況	不況	最小値	評価
私の戦略	積極案	０	★－５	－５	←最小
私の戦略	消極案	★－５	０	－５	←最小

リグレットとは反省とか後悔という意味です。積極案を選択したのに不況になったとしたら，「あのとき消極案を選択していればよかったのに」と後悔することが多いですが，「後悔を最小にする」考え方をリグレット・ミニマックス原理といいます。

この原理では，「結果として最善の案を選択したときの結果を０とする」ために，要素の値から各列の最大値を引くことにより，後悔値（それを機会損失といいます）の表にします。例えば好況になったときは，積極案を選択するときの１０が最大値ですので，積極案を選択していれば後悔しなかった（１０－１０＝０）のに，消極案を選択していたら５－１０＝－５の後悔をするというように考えます。そのようにして修正したペイオフ・マトリクスに対してミニマックス原理を適用します。たまたまこのときは最小値が同じ値になりましたので，どちらが有利とはいえないことになりました。

		天候
		晴	雨
傘を	持つ	－１	１
傘を	持たない	２	－３

ラプラスの原理		天候		期待値	評価
		晴	雨
		０.５	０.５
傘を	持つ	－１	１	－１×０.５＋１×０.５＝０.０	←最大
傘を	持たない	２	－３	２×０.５－３×０.５＝－０.５

リグレットミニマックス		天候		最小値	評価
リグレットミニマックス		晴	雨	最小値	評価
傘を	持つ	★－３	０	★－２	←最大
傘を	持たない	０	★－４	－４

決定理論

学習のポイント

キーワード

参照：JavaScriptの計算プログラム

問題の理解