新ゲーム理論ゼミ 第5章 「繰り返しゲーム」 M1 松村 草也.

Slides:



Advertisements
Similar presentations
最上 亮.  近年標的型と呼ばれるサイバー攻撃が増え、大 企業や、政府機関が情報窃取型の標的型メール 攻撃の被害を受けている。  標的型メール攻撃による個人情報漏えいは、企 業に莫大な損失を与えるとともに、信頼を失う。  現在サイバー攻撃における攻撃者、防御者の戦 略をゲーム理論的にモデル化する研究がおこな.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
ゲーム理論の誕生と発展 von Neumann & Morgenstern The Theory of Games and Economic Behavior.
新ゲーム理論 第Ⅰ部 非協力ゲームの理論 第2章 戦略形ゲームのナッシュ均衡
2行+αチョンプに関する考察 京都大学 ○後藤順一 伊藤大雄.
ゲーム理論・ゲーム理論Ⅰ(第2回) 第2章 戦略形ゲームの基礎
人工知能概論 第4回 探索(3) ゲームの理論.
内容 部分ゲーム完全均衡点 -部分ゲーム -部分ゲーム完全均衡点 -2段階完全情報ゲーム シュタッケルベルク均衡点
シミュレーション論Ⅰ 第13回 意思決定とシミュレーション.
独占と寡占.
ゲーム理論・ゲーム理論Ⅰ (第8回) 第5章 不完全競争市場の応用
© Yukiko Abe 2014 All rights reserved
上級価格理論II 第3回 2011年後期 中村さやか.
ゲーム理論・ゲーム理論Ⅰ (第6回) 第4章 戦略形ゲームの応用
経済学A ミクロ経済学(第4回) 費用の構造と供給行動
「生き残り競争」から抜け出したい! -ゲーム理論入門- 東京国際大学オープンキャンパス (2014年8月23日) 経済学部体験授業
アルゴリズムイントロダクション第5章( ) 確率論的解析
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
人 工 知 能 第3回 探索法 (教科書21ページ~30ページ)
寡占理論(Oligopoly Theory) 第11講 Collusion
初級ミクロ経済学 -ゲーム理論入門- 2014年12月19日 古川徹也 2014/12/19.
法と経済学(file 6) ゲーム理論2 今日の講義の目的 (1)展開型ゲームという考え方を理解する (2)後方帰納法の考え方を理解する
10.Private Strategies in Games with Imperfect Public Monitoring
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
政策決定のプロセス 政策過程論 公共選択 ゲームの理論.
モンテカルロ法によるミニ囲碁 増井拓視 情報理論工学研究所.
第2章補足Ⅱ 2項分布と正規分布についての補足
初級ミクロ経済学 -ゲーム理論入門- 2014年12月15日 古川徹也 2014年12月15日 初級ミクロ経済学.
ランダムウォークに関するいくつかの話題 ・ランダムウォークの破産問題 ・ランダムウォークの鏡像原理 1 小暮研究会Ⅰ 11月12日
ゲーム理論・ゲーム理論Ⅰ(第3回) 第2章 戦略形ゲームの基礎
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
Probabilistic Method 6-3,4
集団における適応 知識構造論講座 下嶋研究室          M1 関本 和弘.
ネットワーク上を拡散する 技術革新のシミュレーション 日本大学文理学部 情報システム解析学科 谷研究室 安藤勇希 帆苅裕貴
当選確率が50%と5%の宝くじ どっちを買うべき?
慶應義塾大学経済学部 グレーヴァ香子 Takako Fujiwara-Greve
新ゲーム理論 第Ⅰ部 非協力ゲームの理論 第1章 非協力ゲームの戦略形
第13章 フォンノイマン/モルゲンシュテイン解
シミュレーション論Ⅰ 第11回 意思決定とシミュレーション.
パソコンでゲームの理論 第1,2章 ゼロ和2人ゲーム ゼミ合宿 東京理科大学理学部第2部数学科・統計学ゼミ
第Ⅱ部 協力ゲームの理論 第9章 シャープレイ値.
第Ⅱ部 協力ゲームの理論 第7章 交渉問題 2008/07/01(火) ゲーム理論合宿 M1 北川直樹.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
シミュレーション論 Ⅱ 第15回 まとめ.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
論文紹介 Query Incentive Networks
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
間接互恵性の成立 ー進化シミュレーションを用いた選別的利他戦略の検討ー
7.4 Two General Settings D3 杉原堅也.
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
第Ⅱ部 協力ゲームの理論 第10章 コア 2008/07/01(火) ゲーム理論合宿.
意外と身近なゲーム理論 へなちょこ研究室 p.
25. Randomized Algorithms
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
第Ⅱ部 協力ゲームの理論 第16章 破産問題 2008/07/02(水) ゲーム理論合宿 M1 浦田淳司.
中級ミクロ経済(2004) 授業予定.
所属集団の変更できる社会的ジレンマ実験について2
モンテカルロ法を用いた 立体四目並べの対戦プログラム
第Ⅱ部 協力ゲームの理論 第11章 仁(nucleolus) 2008/07/02(水) ゲーム理論合宿 M1 浦田淳司 nucleolus
第3章 線形回帰モデル 修士1年 山田 孝太郎.
第Ⅱ部 協力ゲームの理論 第7章 提携形ゲームと配分 2008/07/01(火) ゲーム理論合宿 M1 藤井敬士.
Max Cut and the Smallest Eigenvalue 論文紹介
第Ⅱ部 協力ゲームの理論 第14章 交渉集合.
プログラミング言語論 第10回 情報工学科 篠埜 功.
囚人のジレンマ ―― 裏切りのインセンティブ ――
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
第Ⅰ部 非協力ゲームの理論 第6章 情報の価値 2008/07/01(火) ゲーム理論合宿 M2 渡辺美穂.
人工知能概論 第4回 探索(3) ゲームの理論.
Time Reversal E-Text: pp.80-83(PDF: pp.49-50) FM08002 太神 諭
Presentation transcript:

新ゲーム理論ゼミ 第5章 「繰り返しゲーム」 M1 松村 草也

第5章 - 目次 有限繰り返しゲーム 無限繰り返しゲーム フォーク定理 囚人のジレンマの無限繰り返しゲーム 錯誤と寛容 繰り返しゲームの要素 支配型固定型戦略 トリガー戦略(永久処罰引き金内蔵戦略) 反射戦略(しっぺ返し戦略) 仏の顔も3度まで戦略 錯誤と寛容 フォーク定理 繰り返しゲームの要素

有限繰り返しゲーム limited repeated game

チェーンストア・パラドックスから 小売店が市場に参入してくる状況を想定する.1度ならば協調的行動をとった方が利得が大きいことが予想される.しかし,何度もそれを許すことは,チェーン店としての牙城を危ぶませるものである. 同じゲームでも,1度きりなのか,大きな流れの中での1度なのかによって,プレイヤーが選択する行動は異なってくるに違いない. この章では,同一のゲームが繰り返される場合について考えてみる.

例1:囚人のジレンマの2回繰り返しゲーム ペイオフマトリックス ルール 1回目はプレイヤー1,2は互いに独立に自分の戦略を選択する。 協調行動C 競争行動D 2,2 0,3 3,0 1,1 ルール 1回目はプレイヤー1,2は互いに独立に自分の戦略を選択する。 2回目は1回目の各プレイヤーの戦略と得られた利益を知った上で互いに独立に戦略を選択する。 繰り返しゲームにおけるプレイヤーの利得は2回の成分ゲームの合計。 各プレイヤーは2回で終了することを知っている。

例1:囚人のジレンマの2回繰り返しゲーム では,前回のゲームとの関連によって 戦略を分類するとどうなるか? Q:プレイヤーは純戦略をいくつもっている? P1 P2 P1 P2 1度目のゲームでは情報集合は1 2度目のゲームでは情報集合は4 合わせて5つの情報集合が存在. 25 = 32 の純戦略をそれぞれ持っている. (CCCCC),(CCCCD),(CCCDC),...,(DDDDD) では,前回のゲームとの関連によって 戦略を分類するとどうなるか?

有限繰り返しゲーム - 戦略の組み合わせで考える 2回目ゲーム時の純戦略を4つに分類 1回目の結果に無関係に常にCを取る。(CCCC) 1回目に相手のプレイヤーが取った行動と同じ行動を取る。 1回目に相手のプレイヤーが取った行動と違う行動を取る。 1回目の結果に無関係に常にDを取る。(DDDD) C1 C2 C3 C4 D1 D2 D3 D4 4,4 2,5 0,6 3,3 1,4 5,2 4,1 2,2 6,0 2,2* C D 均衡点は((D4),(D4))になる.つまり(DDDDD).

有限繰り返しゲーム - まとめ 最後のゲームについては,1回きりのゲームと同じように考え,支配戦略を取る. 頂点から底点に向かって,逆戻り推論法を適用することが出来るのが特徴. 有限回であるという共通認識がある限り同じことが起こる. 有限回ならチェーン店も許してくれるということか? ん?

無限繰り返しゲーム endless repeated game

観測されている事実 囚人のジレンマの均衡利得はパレート最適ではないが,囚人のジレンマ的状況が繰り返されるとプレーヤ間に暗黙の協調が生まれ,協調的行動がとられ,パレート最適な利得ベクトルが実現することが観察されている. 「無限に繰り返す」という状況下で行う意思決定を考えることで,より現実的な考察が可能になるのではないだろうか?

例1:囚人のジレンマの無限繰り返しゲーム 1回目のプレイにおいて、プレイヤーは他のプレイヤーと独立に自分の行動を選択。 ペイオフマトリックス 協調行動C 競争行動D 5,5 0,8 8,0 2,2 ルール 1回目のプレイにおいて、プレイヤーは他のプレイヤーと独立に自分の行動を選択。 t+1回目のプレイでは、これまでに各プレイヤーが取った戦略と利益を知った上で独立に行動を選択。 プレイヤーのゲーム全体としての利益は毎回の利益の平均とする。

無限繰り返しゲーム - 4つの戦略例 α:支配戦略固定型戦略 β:トリガー戦略 γ:反射戦略(しっぺ返し戦略) δ:仏の顔も3度まで戦略 無限に繰り返すため,純戦略の列挙は不可能. 行動パターンも無限に存在するが,その中からいくつかを挙げて考える. α:支配戦略固定型戦略 β:トリガー戦略 γ:反射戦略(しっぺ返し戦略) δ:仏の顔も3度まで戦略

無限繰り返しゲーム - 戦略の内容比較 α 支配戦略固定型戦略 β トリガー戦略 γ 反射戦略 δ 仏の顔も3度まで戦略 1回目 Dを選択 Cを選択 2回目以降 反射行動 相手がDを 選択したら それ以降 Dを選択 反射行動 (次はD) 3回まではCを選択 それ以降は反射行動

無限繰り返しゲーム - 均衡点への到達 正確に戦略を保つならば, (α,α),(β,β),(γ,γ),(δ,δ),(β,γ),(β,δ),(γ,δ) の戦略組み合わせはどれも均衡点. 相手が裏切りを行った際の仕返しの方法が異なる. ⇒3回目のゲームで裏切りを行い,その後元の戦略に 戻ると仮定した場合の,戦略ごとの仕返し機能を比較 してみる.

無限繰り返しゲーム - 戦略の仕返し機能比較 【α:支配戦略固定型戦略】 【β:トリガー戦略】 【γ:反射戦略】 【δ:仏の顔も3度まで戦略】

シミュレーション 各プレイヤは10個ずつの戦略を持っている. 戦略が指示する行動と異なる行動を0.03の確率で行う(偶然手番の導入) Dを行うべきときに確率pでCを行う.(混合戦略) ゲームの繰り返し回数は200回

例3.1人vs不特定多数の繰り返しゲーム 警察官が不特定多数のドライバーに対して取り締まりを行う状況を仮定する. 警察官はT:取り締まる,N:放置するの2つの行動をとり,ドライバーはこれを知った上でS:慎重に運転する,D:無法運転をするという選択を行う. ドライバーは慎重に運転していても過失をp(0<p<0.5)の確率で行う(偶然手番と考える)

1回限りの取り締まりゲームの場合 ペイオフマトリックス SS SD DS DD T:取り締まり 4-3p,3-2p 1,2 N:放置 4-p,3+p 2,4 0<p<0.5 (T,SD),(N,DD)という2つの均衡点は警察が取り締まりを行うならば慎重に運転を行い,行わなければ違法運転を行うことを意味する.

繰り返し取り締まりゲームのシミュレーション ドライバーが過失を起こす確率をα=0.1とする. 警察は定常戦略T,Nの他に,状態反応戦略A(a)を有する.aを超えたら取り締まる. 200回のシミュレーションを行った結果から平均利得を用いる. :ドライバーが慎重に運転してもt-1回目までに起こす交通違反回数の期待値 :ドライバーがt-1回目までに起こした交通違反回数 =

繰り返し取り締まりゲームのシミュレーション シミュレーション結果の利得行列 SS SD DS DD T:取り締まり 3.73,2.82 1.00,2.00 A(1) 3.84,2.99 3.69,2.85 1.99,2.36 1.01,2.01 A(1.2) 3.91,3.09 3.67,2.87 A(3) 3.33,3.11 N:放置 2.00,4.00 (A(1.2),SS)は実際の交通違反回数が期待値の1.2倍を上回ったら取り締まりを行うという戦略. この時の均衡利得(3.91,3.09)はパレート最適で,常に取り締まるか取り締まらないかよりも望ましい戦略となっている.

フォークの定理 fork theory

繰り返しゲームの表現方法 成分ゲームG=(N,S,F) ただしNはプレイヤー集合,Sは戦略集合,Fは利得関数 繰り返される回数 成分ゲームGはT回繰り返される. 戦略 成分ゲームGの戦略を「行動」と,繰り返しゲームΓの戦略と区別して呼ぶことが多い. ゲームの経歴 t回目のプレイの結果をまとめてベクトルで示したもの(1≤t≤T) 平均利得と割引利得 平均利得 割引利得 rは割引率

フォークの定理 「1回限りの場合必ずしもパレート最適な利得が得られないゲームでも,無限回繰り返すことによって,パレート最適な利得を実現する戦略が存在する.」

保留点(ミニマックス点) 保留点(ミニマックス点)を以下のように定義する. 相手に対して最小プレイヤーかのごとく振る舞った場合に,相手の利得を抑えられうる最小の値.逆に言えばそのプレイヤーにとって最小限の利得として保留される値. なお,一般的にミニマックス値≥マックスミニ値になることが知られている.

個人合理的実現可能集合 無限繰り返しゲームΓの利得ベクトルxが保留点vをパレート支配するとき,xは個人合理的であるという. ゲームΓの実現可能集合に属しつつ,個人合理的な利得ベクトルの集合を, 個人合理的実現可能集合という.

図解 左のゲームの保留点はv=(5,6)である. P2 左のゲームの保留点はv=(5,6)である. 左下の図の個人合理的実現可能集 合内の任意の点が,部分ゲーム完 全均衡点をつくる戦略の組によっ て実現されることを保証するのが, フォークの定理である. 4,8 6,4 3,6 2,0 4,6 6,1 5,3 7,5 0,6 P1 ゲームΓの成分ゲーム v(5,6) 個人合理的実現可能集合 ゲームΓの実現可能集合

補足 - フォークの定理の成立条件 プレイヤーは将来の利得をあまり割り引かない.(rは十分0にちかい) Siはユークリッド空間におけるコンパクトな部分集合である FiはS上の連続な実数値関数である. 成分ゲームGにおいて,混合戦略の範囲で考えた時の個人合理的集合はn次元である.この条件はn人ゼロ和ゲームでは実現可能集合はn-1次元だが,そのような場合を除くことを意味している.