２人非零和ゲーム

学習のポイント

互いの利失が異なるゲームを非零和ゲームといいます。これには多くのバラエティがありますが，なかでも囚人のジレンマというモデルにおける協調や裏切りなどは，実社会での戦略を理解するのにも有効な考え方です。

キーワード

非零和ゲーム，説得，脅迫，協力，裏切り，ナッシュ均衡，囚人のジレンマ

参照：JavaScriptの計算プログラム

（Ａ，Ｂ）		Ｂの戦略
（Ａ，Ｂ）		Ｂ１	Ｂ２
Ａの戦略	Ａ１	（　３，　１）	（－１，－３）
Ａの戦略	Ａ２	（－２，－２）	（　１，　２）

右のペイオフ・マトリクスの左側はＡの利失で右側はＢの利失です。例えばＡがＡ１の戦略を選択してＢがＢ１の戦略を選択したとき，Ａは３の利益になり，Ｂは１の利益になります。このように，Ａの利失とＢの利失との和が０にならないモデルを非零和ゲームといいます。

多様な戦略

上のペイオフ・マトリクスを用いて，説得，脅迫，協力などの概念を説明します。

他人のペイオフ・マトリクスを知らないとき

ＡとＢが単独に意思決定するとすれば，そのペイオフ・マトリクスは次のようになります。

　　　　Ａのペイオフ・マトリクス　　　　　　　　　Ｂのペイオフ・マトリクス
　　　　　　　　　　　　　　　　　　　　　　　　　　（行と列を入れ替えた）
　　　　　　　　　Ｂ１(ｑ)　Ｂ２(１－ｑ)　　　　　　　　　　Ａ１(ｐ)　Ａ２(１－ｐ)
　　Ａ１(ｐ)　　　　　３　　　　－１　　　　　Ｂ１(ｑ)　　　　　１　　　　－２
　　Ａ２(１－ｐ)　　－２　　　　　１　　　　　Ｂ２(１－ｑ)　　－３　　　　　２

Ａのペイオフ・マトリクスを考えましょう。ＡがＡ１を選択する確率をｐ，ＢがＢ１を選択する確率をｑとすると，ゲームの値ＶＡは，
　　　ＶＡ＝３ｐｑ－１ｐ(１－ｑ)－２(１－ｐ)ｑ＋１(１－ｑ)(１－ｑ)
　　　　　＝７(ｐ－3/7)(ｑ－2/7)＋1/7
ですから，Ａはｐ＝３／７の混合戦略を選択することにより，少なくとも１／７の利益が確保できます。
　同様にＢのペイオフ・マトリクスについては，
　　　ＶＢ＝１ｐｑ－２(１－ｐ)ｑ－３ｐ(１－ｑ)＋２(１－ｑ)(１－ｑ)
　　　　　＝８(ｐ－1/2)(ｑ－5/8)－1/2
より，Ｂはｑ＝5/8の混合戦略により－１／２の利益を確保します。
　すなわち，両者の間にどのような交渉があるにせよ，Ａは１／７，Ｂは－１／２以上の利益（すなわち，右図の青の範囲）がなければ交渉に応じないことになります。それにしてもＨ点は，Ｇ１やＧ２に比べると利益が少ないですね。ここに駆け引きが生じます。

ＡがＢのペイオフ・マトリクスを知っているとき

ＡはＢのペイオフ・マトリクスを知っているが，ＢはＡのそれを知らないときに，Ａはどのような戦略を選択するでしょうか？

Ｂを束縛しない: ＡはＢがｑ＝５／８の混合戦略を選択ことを知っています。そのときの期待値は，
　　　Ａ１：　３×(５／８)－１×(３／８)＝１２／８＝１.５
　　　Ａ２：－２×(５／８)＋１×(３／８)＝－７／８
になりますので，Ａ１を選択することにより，１／７よりも高い利益，しかも（Ａ１，Ｂ１）以外では最高の利益を得ることができます。
説得: ＡはＢのゲームの値－１／２を知っています。－１／２よりも高い利益を保証すれば，Ｂはそれに応じるでしょう。（Ａ１，Ｂ１）をＢに提示することにより，Ａは３の利益を得ることができます。よしんば（Ａ２,Ｂ２）になったとしても１／７よりも高い利益が得られます。
脅迫: Ｂを説得するのではなく，一方的にＡ１を選択することをＢに伝えることにより，Ｂは－３を回避するためにＢ１を選択させます。これにより間違いなく最大利益４を確保することができます。

両者が互いのペイオフ・マトリクスを知っているとき

脅迫: ＡがＡ１を選択して脅迫することもできますが，逆にＢがＢ２を選択することをＡに伝えて脅迫することもできます。その点では互角ですが，Ａは「自分が損失になってもかまわないのでＡ１を選択する。そうしたらＢは重大な損失になる」と逆脅迫する手段が残っています。
協力: 両者の利益合計は（Ａ１,Ｂ１）のときが最大値４になります。交渉によりＡからＢにいくらかの利益を渡すことにも考えられます。その渡す額をいくらにすればよいかに関しても多様な考え方がありますが，ここでは省略します。

有名なゲーム理論モデル

ナッシュ均衡

最適反応とは、「相手の戦略を所与として、自分から戦略を変えても得をしない状態」のことです。そして、Ａの取った戦略Ａ１がＢの取った戦略Ｂ１に対して最適反応であり、Ｂ１もＡ１に対して最適反応であるとき、戦略の組（Ａ１,Ｂ１）をナッシュ均衡といいます。ナッシュ均衡が得られれば、Ａ・Ｂが互いにとっで最適反応なので、戦略を変更する必要がありません。

（Ａ，Ｂ）		Ｂの戦略
（Ａ，Ｂ）		Ｂ１	Ｂ２
Ａの戦略	Ａ１	（　３，　１）	（－１，－３）
Ａの戦略	Ａ２	（－２，－２）	（　１，　２）

Ａ・Ｂの双方が右のペイオフ・マトリクスを知っているとします。
　純粋戦略（確率的選択をしない）ならば、
　　Ａの戦略
　　　　ＢがＢ１を採れば、Ａ１を選択　利益３
　　　　ＢがＢ２を採れば、Ａ２を選択　利益１　最悪でも１の利益はある
　　Ｂの戦略
　　　　ＡがＡ１を採れば、Ｂ１を選択　利益１　最悪でも１の利益はある
　　　　ＡがＡ２を採れば、Ｂ２を選択　利益２
になります。
　すなわち（Ａ１，Ｂ１）か（Ａ２，Ｂ２）のいづれかになります。これをナッシュ均衡といいます。
ナッシュ均衡とは、互いに他者の利益も考慮したときの状態だといえます。

混合戦略ならば、
　　ＡがＡ１を選択する確率をｐとしたときのＢの純粋戦略での利益は、
　　　　Ｂ１：１ｐ－２（１－ｐ）３ｐ－２
　　　　Ｂ２：－３ｐ＋２（１－ｐ）＝－５ｐ＋２
　　　Ｂ１＝Ｂ２とすればｐ＝１／２、そのときのＢの利益は－１／２
　　　すなわち、Ａは確率１／２でＡ１を採ることにより、Ｂの利益－１／２を保証できます。
　　ＢがＢ１を選択する確率をｑとしたときのＡの純粋戦略での利益は、
　　　　Ａ１：３ｑ－１（１－ｑ）＝４ｑ－１
　　　　Ａ２：－２ｑ＋１（１－ｑ）＝－３ｑ＋１
　　　Ａ１＝Ａ２とすればｑ＝２／７、そのときのＡの利益は１／７
　　　すなわち、Ｂは確率２／７でＢ１を採ることにより、Ａの利益１／７を保証できます。
この場合は、(１／７、－１／２）がナッシュ均衡となります。
（この値は「他人のペイオフ・マトリクスを知らないとき」の最適解と同じです。互いに自社戦略を示すことにより、双方が利益を上げることができる例になりました。)

右図での黄色の四角の頂点は純粋戦略で選択できる戦略の組で、四角の中が混合戦略で選択できる領域です。緑の部分は、Ａ・Ｂ双方が許容できる領域です。ナッシュ均衡は純粋戦略での（Ａ１，Ｂ１）か（Ａ２，Ｂ２）になります。どちらになるかは両社の力関係によりますが、両社合計の利益は (3,1) が最大なので、（Ａ１，Ｂ１）を選び、ＡからＢへ何らかの供与をすることで決着するのが平和的な解決でしょう。

協調ゲーム

単純なケースでは、両者が互いのペイオフ・マトリクスを示して、ナッシュ均衡を探す方法です。

囚人のジレンマ

（Ａ，Ｂ）		Ｂの戦略
（Ａ，Ｂ）		Ｂ１	Ｂ２
Ａの戦略	Ａ１	（０，　０）	（－３，　１）
Ａの戦略	Ａ２	（１，－３）	（－１，－１）

非零和ゲームで有名なモデルに囚人のジレンマがあります。右図のようなペイオフ・マトリクスになります。

二人の囚人ＡとＢが共犯の罪で取り調べを受けています。Ａ１とＢ１はそれぞれが自白すること，Ａ２とＢ２は自白しないこととします。（Ａ１，Ｂ１）は両者が自白しないときで，そのときは軽微な罪に問われるだけだとして，これを基準として利益０とします。（Ａ２，Ｂ２）は両者が自白したときで，罪に服することになります。（Ａ１，Ｂ２）と（Ａ２，Ｂ１）は一方が自白して他方が自白しないときで，自白者は協力したことにより刑を免れ他者は重刑になるとします。なお，両者ともこのペイオフ・マトリクスは知っているものとします。

単独行動をとるとき: Ａのペイオフ・マトリクスだけを取り出すと次のようになります。
　　　Ａ１：　０　－３
　　　Ａ２：　１　－１
Ａ２はＡ１に優越していますから，ＡはＡ２を選択（自白する）します。
　ところが同様にＢもＢ２を選択しますので，結果として（－１，－１）になってしまいます。これが好ましい結果とはいえません。
協力: ＡとＢが相談する機会があれば，（Ａ１，Ｂ１）になるように約束するでしょう。
裏切り: しかし，その約束は守れらるとはかぎりません。Ａは約束に従ってＡ１を選択（自白しない）したのに，Ｂは裏切ってＢ２を選択（自白する）するかもしれないのです。そうなったら，Ａは重罪（－３）になってしまいます。

さらに取調官がこのゲームに参画すると，Ａに「Ｂは自白したが，Ａは自白しないのか」という虚偽の情報を伝えることにより，（Ａ２，Ｂ２）に誘導することも考えられます。

冷戦当時のアメリカとソ連の核戦略を考えましょう。両国とも核を廃絶したいと思っているのですが，自国が廃絶したのに相手が廃絶しなかったら非常な危険があります。しかも，両国が相手を信用していないのですから，いつになっても核を保有し続けることになります。
　このように，囚人のジレンマは，互いに最良な事態にする方法を理解しておりその実現を望んでいるのに，相手が信用できないがために，悪い状況から抜け出せないでいる悲劇を説明したり，互いの信用を得ることが重要であることの説明をするのによく用いられています。

トピックス：「買いだめパニック」のゲーム理論的解釈

ゲームの理論は，単なる計算手法は実際の意思決定には役立つことは少ないでしょう。しかし，このような発想方法は，問題を解決するのに非常に役立ちます。

ときどき「トイレットペーパーが買えなくなる」という噂に踊らされて大勢が買いだめに走り、その結果「買えなくなる」現象が実際に発生して、社会問題になることがあります。多くの原因があるでしょうが、ここでは消費者の心理による行動を、協調ゲームや囚人のジレンマから考察します。

　　　　　　　　　　　　　　　　　　　　　　自分が思う他人の行動
　　　　　　　　　　　　　　　　　　　買いだめをしない　買いだめをする
　　　自分の行動　買いだめをしない　　　　　Ａ　　　　　　　　Ｂ
　　　　　　　　　買いだめをする　　　　　　Ｃ　　　　　　　　Ｄ

実は「メーカーには十分な在庫がある」ことは、ほとんどの人が理解しているでしょう。協調ゲームで考えるならば、他人もそのような噂を信じないだろうから、Ａ・Ｃになる。それなら自分も買いだめをする必要はないので、Ａになり、実際にパニックは発生しません。
ところが、他人はこのような噂を信じるものだと考えるとＢ・Ｄになります。トイレットペーパーは日常的にないと困るものだし、それほど高価なものではありません。当面は不要だとしても、買い物ついでに買っておこうかという行動になります。それが他人からはＢ・Ｄに見えます。
（このような「ついで買い」を防ぐ（Ｃを防ぐ）には、一時的に価格を極端に上げればよいという意見があります。社会的にはどうかと思いますが、ゲームの理論からは正論だともいえましょう。）
スーパーでは、資金管理の面から余計な在庫は持たないし、棚の制限もあるので体積の大きな商品を店頭に並べるには制約があります。数人の人が買いだめをするだけで、一時的であっても品切れ状態になります。
空の棚を見た人は、他人は買いだめをしていると信じ、大変だとして複数のスーパーを走り回り、できるだけ多くの買いだめをします。これがマスコミで流れると、さらにそう考えがちです。他人は買いだめをしないと理解していても、現実の空き棚を見ると、不安に駆られてＣの行動をとります。すなわち、囚人のジレンマの裏切りの状態になります。
また、スーパーからメーカーへ注文が殺到します。メーカーには在庫があっても流通が追いつきません。緊急配送のため、むしろ効率は低下します。そのため店頭にはなかなか届かず、届いても直ちに買いだめされてしまいます。
スーパーが「１人１ケース」などの制限をしても、必死になったお客は多数の店舗を走り回るので、ますます事態は深刻になります。

このようにパニックは、疑心暗鬼と過剰な反応に起因します。それを防ぐためにもゲームの理論の考え方を普及する必要があるのでは？