論理と確率についての推理を導く心の中のゲーム 日本認知科学会第32回大会 2015年9月18日―20日千葉大学 The 32st Annual Meeting of the Japanese Cognitive Science Society, 18-20 Sep 2015, Chiba University 論理と確率についての推理を導く心の中のゲーム Games in Mind Which Yield Reasoning on Logic and Probability 犬童 健良 (関東学園大学) Kenryo Indo (Kanto Gakuen University) kindo@kanto-gakuen.ac.jp モデル Abstract This study presents an application of game theory to the cognitive modeling of human reasoning especially for the four card selection task and for the problem of three prisoners. Keywords ― game theory, four-card selection task, problem of three prisoners 概要 本論文ではゲーム理論を人間の思考のモデルに応用す る.心の中のエージェントの最適反応ルールは情報反応モデル と呼ばれ,それによって,論理や確率についての現実の人々の 思考を記述する.また均衡点の移動はフレーム理論の下で解釈 される.具体的な応用として,4枚カードの選択課題と3囚人問題 を論じる. 定義(エージェント) 思考を構成するある要素が特定のシンボ ルに対応する意識表象として区分できるとき,その意識的な活動 の単位をエージェントと呼ぶ. 定義(ゲーム) 非協力ゲームは,エージェントの集合,各エー ジェントの戦略,およびゲームの結果から成り立つ.またエージェ ント同士はゲームをプレイすること以外にコミュニケーション手段 をもたない.以降,たんにゲームと呼ぶ. 定義(行列ゲーム) ゲームの結果が各エージェントのペイオフ 表として書けるようなゲームを行列ゲーム(標準形ゲーム)と呼ぶ. 定義(均衡点) ゲームの均衡点はエージェントの最適反応の 組である. 戦略を確率でランダム化すると行列ゲームの均衡点はつねに存 在する(Nash, 1951).また双行列ゲームでは,均衡点の必要十分 条件は完全ラベルである(Shapley, 1974) .フレームシステム (Minsky, 1973)はラベリングシステムの認知的な解釈である. (情報反応モデル) 認知活動(思考)は,あるゲームの一つの均 衡点(デフォールト)から別の均衡点への移動として表現したもの, あるいはその最適反応の組のことを,情報反応モデルと呼ぶ.不 足するラベルはまだ答えが見つからない質問であり,それによる 不安定さを除去するため,情報の探索が起こる(情報反応仮説). 本論文のアプローチの特色: ・ ゲームとは,人々の意識的な目標追求が促されるような状況,あるいは実用的な思考のためのスキーマ(ないしフレーム)の総称である. ・ 均衡点は意識的な目標追求の到達点.ゲーム理論は均衡点を見出すマルチエージェント計算を抽象化する. ・ 均衡点では人々がそれ以上追加的な思考努力をしようとしない認知的に安定した状態(満足化された状態)である. ・ メカニズムデザイン論の流儀にしたがい,ゲームとその均衡点によって知的活動を近似する.ただし予測力はデフォールトの均衡点の選び方に依存する.
応用:4枚カード選択課題 応用:3囚人問題 4 Q A 7 A B C 協調原理を満たし,かつ直観解を導くゲーム. qがT ⇒ pはTかF, 机の上に並べられた4枚のカードを裏返して,「もしカードの一方の面が英文字の母音の文字なら,もう一方の面には偶数が記入されている」というルールが正しいかどうか確かめなさい.ただし裏返すのは調べる必要のあるカードだけにしてください. 正答はA( p)と7(not q).現実の回答はAや4が多い.結論を否定ムードに変えると顕著に正答率が向上する. A,B,Cがそれぞれ独房に収監され,近々3人とも処刑される予定だった.しかし恩赦により1人だけ釈放されることになった.Aは恩赦の件を知り,看守に自分以外の2人のうち処刑される1人の名前を教えてほしいと頼んだ.看守は翌朝Aに対して「Bは処刑される」と伝えた.Aは自分 の釈放確率をどう考えただろうか? 当初1/3の均等確率とし,べイズの定理を用いると,Aの釈放確率は1/3のままであり,Cは倍の2/3になる.典型的な誤答は1/2と考えてしまう.これを直観解と呼ぶ. 4 Q A 7 A B C 協調原理: ・嘘はつかない(質の格率). ・聞き手が正しく信じているときは黙っている(量の格率). ・聞き手の信念が誤っていると思えたら訂正する(関係の格率). ・簡潔で,曖昧性・多義性がない(様態の格率). 例1 マッチングバイアス(pとqの選択)を再現するゲーム.デフォールトFFとすると,オモテがpやqのときTTへの移動が試みられる. q T F p 1, 1 0, 0 1, 1/2 情報反応モデル: pがT ⇒ qはT, pがF ⇒ qはF, qがT ⇒ pはTかF, qがF ⇒ pはF. 均衡点 FF* TT ** (1/3, 1) *デフォールト **到達点 例3 協調原理を満たし,かつ直観解を導くゲーム. 看守の最適反応 結論が否定ムードのときのゲーム.均衡点の集合は条件命題p→ not qの真理値割当と一致する.またデフォールトFFは無シグナル・無成果状態として自然に解釈できる. 例2 q T F p 0, 0 1, 1 情報反応モデル: pがT ⇒ qはF, pがF ⇒ qはTかF, qがT ⇒ pはF, qがF ⇒ pはTかF. 均衡点 FF * TF ** FT ** *デフォールト **到達点 看守の最適反応メッセージは弱い意味で守秘義務を満足するが,もしAが自分の釈放を信じることにコミットすれば,情報を暴露するプロトコルが得られる(Aの釈放の列 𝜃 𝐴 は他の2列を優越するため,看守はその意図を理解しうる). 看守と囚人Aの確率空間を領域に分け,相手の最適反応と自分の不使用戦略でラベルを貼ると,均衡点は完全なラベルをもつ.2値でベイズ解のゲームモデルはない(実験によって確認). Nashの連続写像.例1(左)と例2(右).図は確率を用いた戦略空間を表す.横軸(縦軸)はp(q)が用いるTの確率である.線で結ばれる点は連続写像による戦略組の移動を意味する.均衡点はこの写像の不動点である.例1ではFF=(0,0)とTT=(1,1)以外に(p, 1), p≧1/3が均衡点となる.FTのペイオフを歪めたため,均衡点FTは消えている. ラベリングシステム.看守のラベル(左),Aのラベル(右).