２人零和ゲーム

学習のポイント

ゲームの理論での最も単純なモデルである２人零和ゲームについて考察します。

キーワード

優越戦略と劣等戦略，鞍点、純粋戦略、混合戦略

参照：JavaScriptの計算プログラム

問題の理解

Ａのペイオフ・マトリクス		Ｂの戦略
Ａのペイオフ・マトリクス		Ｂ１	Ｂ２
Ａの戦略	Ａ１	１	－３
Ａの戦略	Ａ２	－２	４

右のペイオフ・マトリクスは，ＡにはＡ１とＡ２の戦略があり，ＢにはＢ１とＢ２の戦略があり，ＡがＡ１を選択してＢがＢ１を選択したとき，Ａには１の利益がありＢには１の損失があることを示しています。すなわち，これはＡから見た利失を表しています。

Ａは，このペイオフ・マトリクスにより利益が最大になるようにＡ１・Ａ２の戦略を選択し，ＢはＡの利益が最小になるようにＢ１・Ｂ２の戦略を選択します。このような敵対関係にあるときの戦略選択の方法を考える手法がゲームの理論です。
　ゲームの理論では，互いに相手が論理的な戦略を採ることを前提にしています。もし，Ｂがペイオフ・マトリクスを知っているのに，最善の戦略（すなわちＡの利益を最小にする手）を採らないこともあるとすると，以下の論理は存在しないことになります。

ゲームの理論のうち，最も単純なのが，この例のように関係者がＡとＢの２人だけで，Ａの利益はＢの損失であり２人の利失の合計は０である場合です。それを２人零和ゲームといいます。

優越戦略と劣等戦略

ケース１		Ｂの戦略
ケース１		Ｂ１	Ｂ２	Ｂ３	Ｂ４
Ａの戦略	Ａ１	１	－２	－１	２
	Ａ２	－２	４	５	０
	Ａ３	－３	２	２	－１

　→　

ケース２		Ｂの戦略
ケース２		Ｂ１	Ｂ２	Ｂ３	Ｂ４
Ａの戦略	Ａ１	１	－２	－１	２
Ａの戦略	Ａ２	－２	４	５	０

　→　

ケース３		Ｂの戦略
ケース３		Ｂ１	Ｂ２
Ａの戦略	Ａ１	１	－３
Ａの戦略	Ａ２	－２	４

ケース１のペイオフ・マトリクスがあるとします。Ａ３の各要素はＡ２の各要素よりも劣っています。このような関係があるとき，Ａ２はＡ３に対して優越戦略であり，Ａ３はＡ２に対して劣等戦略であるといいます。Ａは絶対にＡ３を選択することはありませんから，Ａ３の行は削除しますと，ケース２になります。

すると，Ｂから見たときには，Ｂ３はＢ２に対して劣等戦略でありＢ４はＢ１に対して劣等戦略です。ＢがＢ３やＢ４を選択するはずがありません。それでこれらを削除します。その結果，ケース３になりますが，これらには優越・劣等の関係はないので，これ以上削除する行や列はありません。

鞍点がある場合－純粋戦略

鞍点あり		Ｂの戦略			最小値
鞍点あり		Ｂ１	Ｂ２	Ｂ３	最小値
Ａの戦略	Ａ１	３	－１	－２	－２
	Ａ２	－１	０	４	－１
	Ａ３	２	１	２	１
最大値		３	１	２

右のペイオフ・マトリクスのケースを考えます。たまたまＡがＡ３を選択すると，ＢはＡ３の行のうちの最小の１にさせようとしてＢ２を選択します。するとＡはＢ２の列での最大の１を得るためにＡ３を選択します。結局はＡはＡ３，ＢはＢ２を選択することで落ち着きます。（Ａ３，Ｂ２）の値１は，ＡとＢが適切な行動をしたとき，Ａが少なくとも確保できる利益であるともいえます。その値のゲームの解といいます。

「少なくとも確保できる利益」とは，ミニマックス原理の概念でもあります。Ａがミニマックス原理で行動すれば，各行の最小値のうち最大のものを選ぶので３を選択します。Ｂもミニマックス原理で行動すれば，ペイオフ・マトリックスの値の符号が逆転するのですから，各列の最大値のうち最小のものを選ぶのでＢ２を選択します。

（Ａ３，Ｂ２）のような点を鞍点（あんてん）といいます。鞍点は「その行の最小値であり，かつ，列の最大値である点」です。そのような点があるとき，「鞍点を持つ」といいます（鞍点という名称は馬具の鞍の形が横からみれば凹型の曲線，前から見れば凸型の曲線ですが，凹型曲線の最小値であり凸型曲線の最大値である点があることからつけられたものです）。また，鞍点が存在するときには，両者が唯一の戦略を選択しますが，それを純粋戦略といいます。

以上のことを整理すると，「行の最小値であり，かつ，列の最大値である点が存在するとき，その点を鞍点という。両者はその鞍点を持つ戦略を選択するが，それを純粋戦略という。ゲームの値は鞍点の値になる。」といえます。

鞍点がない場合－混合戦略

鞍点なし		Ｂの戦略		最小値
鞍点なし		Ｂ１	Ｂ２	最小値
Ａの戦略	Ａ１	１	－３	－３
Ａの戦略	Ａ２	－２	４	－２
最大値		１	４

右のペイオフ・マトリクスでは鞍点がありませんので，純粋戦略にはなりません。
　ＡがＡ１を選択する確率をｐ，ＢがＢ１を選択する確率をｑとすると，
　　　（Ａ１，Ｂ１）での期待値：　　１ｐｑ
　　　（Ａ１，Ｂ２）での期待値：　－３ｐ(１－ｑ)
　　　（Ａ１，Ｂ１）での期待値：　－２(１－ｐ)ｑ
　　　（Ａ１，Ｂ１）での期待値：　　４(１－ｐ)(１－ｑ)
ですから，全体でのゲームの値Ｖは，
　　　Ｖ＝１ｐｑ－３ｐ(１－ｑ)－２(１－ｐ)ｑ＋４(１－ｐ)(１－ｑ)
　　　　＝１０ｐｑ－７ｐ－６ｑ＋４
　　　　＝１０(ｐ－０.６)(ｑ－０.７)－０.２
となります。

ここで，もしＡがｐ＝０.８（＞０.６）の戦略をとれば，ＢはＶを小さくしたいのですからｑ＝０とするでしょう。またＡがｐ＝０.４（＜０.６）の戦略をとればＢはｑ＝１とするでしょう。そのようなことをさせないために，Ａがｐ＝０.６とすれば，Ｂがｑをどのような値にしても，－０.２の値を確保することができます。
　逆にＢとしては，ｑ－０.７＞０とすればＡはｐ＝１，ｑ－０.７＜０とすればＡはｐ＝０にするので，Ｖは－０.２よりも大になってしまいます。それを防ぐためには，ｑ＝０.６とすればよいことになります。

結論として，ＡはＡ１を０.６，Ａ２を０.４の確率で選択し，ＢはＢ１を０.７，Ｂ２を０.３の確率で選択することにより，ゲームの値を－０.２にすることができます。このように，戦略が確率になる場合を混合戦略といいます。

２人零和ゲームと線形計画法

２人零和ゲームは線形計画法（ＬＰ：リニア・プログラミング）により解くことができます。線形計画法に関しては別章で取り扱いますので，ここでは説明を省略します。「鞍点なし」のケースを例にします。

ＢがＢ１を選択する確率をｑとして，ゲームの値をＶとすると，ＡがＡ１を選択したとき，その期待値は１ｑ－３(１－ｑ)＝４ｐ－３ですが，Ｂはその期待値よりもＶの　　　４ｐ－３≧Ｖ同様にＡ２を選択したときには，－２ｑ＋４(１－ｑ)＝－６ｑ＋４≧Ｖとなります。そしてＢはＶの値を最小にしたいのです。

これをまとめると，
　　　制約条件
　　　　　０≦ｑ≦１
　　　　　４ｐ－３≧Ｖ
　　　　－６ｑ＋４≧Ｖ
　　　目的関数　　　　　Ｖ　→　最小
と定式化されます。

これを図式解法により解くと右図から，ｑ＝０.７のときＶは最小値－０.２となり，前述の結果と同じになります。

理解度チェック

第１問

次のペイオフ・マトリクスから劣等戦略を削除しなさい。 ☆

　Ｂの戦略

Ｂ１Ｂ２Ｂ３Ｂ４

Ａの戦略Ａ１－１－２１０

Ａ２０－１２１

Ａ３４２－１－３

Ａ４２１－２－４

Ａから見て，Ａ１はＡ２に対して劣等戦略，Ａ４はＡ３に対して劣等戦略ですから，Ａ１とＡ４の行を削除します。次にＢから見ると，Ｂ１はＢ２に対して劣等戦略，Ｂ３はＢ４に対して劣等戦略ですのでＢ１の列とＢ３の列を削除します。

　Ｂの戦略

Ｂ１Ｂ２Ｂ３Ｂ４

Ａの戦略Ａ２０－１２１

Ａ３４２－１－３

　→　

　Ｂの戦略

Ｂ２Ｂ４

Ａの戦略Ａ２－１１

Ａ３２－３
次のペイオフ・マトリクスから，ＡおよびＢの戦略およびゲームの値を求めなさい。 ☆

　Ｂの戦略

Ｂ１Ｂ２

Ａの戦略Ａ１－１１

Ａ２２－３

鞍点なしＢの戦略最小値

Ｂ１Ｂ２

Ａの戦略Ａ１－１１－１

Ａ２２－３－３

最大値２１　

鞍点があるかどうかを調べます。右図から鞍点がないので，混合戦略になることがわかります。それで，Ａ１の確率をｐ，Ｂ１の確率をｑとすると，ゲームの値Ｖは，
　　　Ｖ＝－１ｐｑ＋１ｐ(１－ｑ)＋２(１－ｐ)ｑ－３(１－ｐ)(１－ｑ)
　　　　＝－７(ｐ－５／７)(ｑ－４／７)＋１／７
となるので，ｐ＝５／７，ｑ＝４／７のときＶ＝１／７になります。

線形計画法に定式化すれば，
　　　制約条件
　　　　－１ｑ＋１(１－ｑ)＝－２ｑ＋１≧Ｖ
　　　　　２ｑ－３(１－ｑ)＝　５ｑ－３≧Ｖ
　　　　　０≦ｑ≦１
　　　目的関数　Ｖ　→　最小
となり，これからも上と同じ結果が得られます。