囚人のジレンマ ―― 裏切りのインセンティブ ―― 囚人のジレンマ ―― 裏切りのインセンティブ ―― 宮野 哲史 平野研究室 2009年度 夏合宿
今日お話しすること ゲーム理論 複数の行為主体が各自の目的のために行動を起こすとき、利害の対立と協力が生ずる(ゲーム的状況) ゲーム的状況において、どのような意思決定をすることが合理的であるか? 囚人のジレンマ 本日のメイントピック ゲーム理論における、ひとつの重要な帰結 個々の最適な選択が、全体としての最適な選択とはならない状況のこと
以下では、プレイヤーが2人の場合についてみていく。 「ゲーム」の構成要素 プレイヤー(Player) 合理的であり、自己の利得を最大化することを前提とする 戦略(Strategy) プレイヤーがとる行動のこと 利得(Payoff) ある戦略を実行したときに得られる結果を数値化 以下では、プレイヤーが2人の場合についてみていく。
「ゲーム」の例 AliceとBobは、トランプのKとQを一枚ずつもっています。 出したカードに応じて、お金がもらえるゲームです。 ^o^ ^ω^ K Q K Q 出したカードに応じて、お金がもらえるゲームです。 プレイヤー → 「Aさん」と「Bさん」 戦略 → 「K」か「Q」か 利得 →もらえる金額
「ゲーム」の例 AliceとBobは、トランプのKとQを一枚ずつもっています。 出したカードに応じて、お金がもらえるゲームです。 ^o^ ^ω^ K Q K Q 出したカードに応じて、お金がもらえるゲームです。 A=K, B=K → Aは5000円、Bは2000円もらえる A=K, B=Q → Aは7000円、Bは4000円もらえる A=Q, B=K → Aは4000円、Bは7000円もらえる A=Q, B=Q → Aは3000円、Bは8000円もらえる なんだか わかりづらい。。。
いまの例から利得行列をつくると、上記のようになる。 A,Bの戦略と、利得の関係を行列として表す 行はAの戦略、列はBの戦略 各成分は (Aの利得, Bの利得) Bの戦略 K Q Aの戦略 K (5000, 2000) (7000, 4000) Q (4000, 7000) (3000, 8000) いまの例から利得行列をつくると、上記のようになる。
例)利得行列を使った分析 ――Aの立場に立って Bの戦略 K Q Aの戦略 K (5000,2000) (7000,4000) Q (4000,7000) (3000,8000) 相手(B)の出方を予測 Bはクイーンを出したほうが利得が高い 自分以外のすべてのプレイヤーの戦略が与えられたとき, これに対して自分の利得が最大になるような戦略を最適反応という. 他のプレイヤーがとる戦略の組のすべてに対して最適反応となっているような戦略を支配戦略という. 自分(A)の利得を高める戦略を考える Aはキングを出したほうが利得が高い 相手の出方に対して、最も利得を高める戦略を選ぶ・・・最適反応
例)利得行列を使った分析 ――Bの立場に立って K Q Aの戦略 K (5000,2000) (7000,4000) Q (4000,7000) (3000,8000) 相手(A)の出方を予測 Aはキングを出したほうが利得が高い 自分以外のすべてのプレイヤーの戦略が与えられたとき, これに対して自分の利得が最大になるような戦略を最適反応という. 他のプレイヤーがとる戦略の組のすべてに対して最適反応となっているような戦略を支配戦略という. 自分(B)の利得を高める戦略を考える Bはクイーンを出したほうが利得が高い この場合の支配戦略は、Alice:K, Bob:Q 最適反応が一致 →
ゲームの分類 各プレーヤーが事前に話し合いを持たずに、各自の戦略を自ら決定する 非協力ゲーム 協力ゲーム ある1人の利益が、必ずしも他者の損失にならない (Aの利得+Bの利得≠0) 非zero-sumゲーム zero-sumゲーム プレーヤーは同時に戦略を決定する 同時進行ゲーム 交互進行ゲーム
強盗を犯した二人組(AliceとBob)が逮捕され、 囚人のジレンマ 問題設定 強盗を犯した二人組(AliceとBob)が逮捕され、 別々の部屋で尋問されている。 アタシ 黙秘 ていうか やってないし みたいな わたしが やりました 戦略・・・「自白」or「黙秘」のふたつ それぞれの戦略をとったときに、 二人とも黙秘・・・二人とも懲役2年 どちらかが自白・・・自白したほうは懲役1年、黙秘したほうは20年 二人とも自白・・・二人とも懲役5年 いま支配戦略は何だろうか?
囚人のジレンマ (-5, -5) (-1, -20) (-20, -1) (-2, -2) 利得行列 (懲役は損だからマイナスとして書いた) Bの戦略 自白 黙秘 Aの戦略 (-5, -5) (-1, -20) 自白 (-20, -1) (-2, -2) 黙秘 Bobが自白を選ぶと仮定 →Aliceは自白したほうが得 支配戦略は ふたりとも自白 Bobが黙秘を選ぶと仮定 →Aliceは自白したほうがやっぱり得
自分の利得のみを追求した結果たがいに損をしてしまう! 囚人のジレンマ 利得行列 (懲役は損だからマイナスとして書いた) Bの戦略 自白 黙秘 Aの戦略 (-5, -5) (-1, -20) 自白 和=-10 (-20, -1) (-2, -2) 黙秘 和=-4 支配戦略にしたがって、結果はふたりとも懲役5年 しかし、ふたりとも黙秘していれば懲役2年で済んだ 全体の利得を最大にする方法があるのに、 自分の利得のみを追求した結果たがいに損をしてしまう!
S < P < R < T, 2 R > S + T 囚人のジレンマ 問題を一般化 Bの戦略 裏切り 協調 Aの戦略 (P, P) (T, S) 裏切り (S, T) (R, R) 協調 利得の条件 S < P < R < T, 2 R > S + T S : 裏切られて俺だけ大損 P : 裏切りあってみんな損 R : 信じあってみんな得 T : 裏切って俺だけウハウハ
結局、各国は軍拡を選択し、国際緊張に陥ってしまう 例)軍拡競争における「囚人のジレンマ」 適用例 プレイヤー S P R T 軍拡競争 国家 弱小化 軍拡 国際緊張 軍縮協定 協定違反 強大化 自国は軍縮せず、相手国は協定に誠実に軍縮している状態がもっともいい(T) それに次ぐのは両国が軍縮している状態(R)、その次は両国が軍縮しない状態である(P) 最悪はその国は誠実に軍縮しているのに相手国はしていない状態である(S) 結局、各国は軍拡を選択し、国際緊張に陥ってしまう
誰もが裏切りのインセンティブ(動機、誘因)を持ち、 まとめ 「自分だけ裏切れば得をする」という状況では、 誰もが裏切りのインセンティブ(動機、誘因)を持ち、 そして実行してしまう こういった状況は現実社会にもよく見られる 適用例 プレイヤー S P R T 軍拡競争 国家 弱小化 軍拡 国際緊張 軍縮協定 協定違反 強大化 環境問題 企業 競争力低下 環境悪化 環境保護 競争力上昇 秩序問題 ヒト 生命の危機 自然状態 社会状態 優越 表の出典:計量社会科学ワークショップ(http://www.qmss.jp/qmss/)
参考文献 J. von Neumann et.al. , “Theory of Games and Economic Behavior”, 1944 まじめに勉強したい方はフォンノイマンの本を読んでみよう! ぼくもいつか読んでみたいです THE END