新ゲーム理論ゼミ第５章「繰り返しゲーム」 M1 松村草也.

Slides:

Advertisements

Similar presentations

最上亮.  近年標的型と呼ばれるサイバー攻撃が増え、大企業や、政府機関が情報窃取型の標的型メール攻撃の被害を受けている。  標的型メール攻撃による個人情報漏えいは、企業に莫大な損失を与えるとともに、信頼を失う。  現在サイバー攻撃における攻撃者、防御者の戦略をゲーム理論的にモデル化する研究がおこな.

Advertisements

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

ゲーム理論の誕生と発展 von Neumann & Morgenstern The Theory of Games and Economic Behavior.

新ゲーム理論第Ⅰ部非協力ゲームの理論第2章戦略形ゲームのナッシュ均衡

２行＋αチョンプに関する考察京都大学 ○後藤順一伊藤大雄.

ゲーム理論・ゲーム理論Ⅰ（第２回）第2章戦略形ゲームの基礎

人工知能概論第4回探索（３）ゲームの理論.

内容部分ゲーム完全均衡点 -部分ゲーム -部分ゲーム完全均衡点 -2段階完全情報ゲームシュタッケルベルク均衡点

シミュレーション論Ⅰ 第13回意思決定とシミュレーション.

独占と寡占.

ゲーム理論・ゲーム理論Ⅰ （第８回）第５章不完全競争市場の応用

© Yukiko Abe 2014 All rights reserved

上級価格理論ＩＩ第3回 2011年後期中村さやか.

ゲーム理論・ゲーム理論Ⅰ （第６回）第４章戦略形ゲームの応用

経済学A ミクロ経済学（第４回）費用の構造と供給行動

「生き残り競争」から抜け出したい！－ゲーム理論入門－東京国際大学オープンキャンパス（201４年8月23日）経済学部体験授業

アルゴリズムイントロダクション第５章( ) 確率論的解析

Effect　sizeの計算方法標準偏差が正確に求められるほど症例数が十分ないときは､測定しえた症例の中で､最大値と最小値の値の差を4で割り算した値を代用することが出来る｡この場合には正規分布に従うことを仮定することになる｡

人工知能第3回探索法（教科書21ページ～30ページ）

寡占理論(Oligopoly Theory) 第11講 Collusion

初級ミクロ経済学－ゲーム理論入門－ 2014年12月19日古川徹也 2014/12/19.

法と経済学(file 6) ゲーム理論２今日の講義の目的（１）展開型ゲームという考え方を理解する（２）後方帰納法の考え方を理解する

10.Private Strategies in Games with Imperfect Public Monitoring

先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning

政策決定のプロセス政策過程論公共選択ゲームの理論.

モンテカルロ法によるミニ囲碁増井拓視情報理論工学研究所.

第2章補足Ⅱ 2項分布と正規分布についての補足

初級ミクロ経済学－ゲーム理論入門－ 2014年12月15日古川徹也 2014年12月15日初級ミクロ経済学.

ランダムウォークに関するいくつかの話題・ランダムウォークの破産問題・ランダムウォークの鏡像原理１小暮研究会Ⅰ 11月12日

ゲーム理論・ゲーム理論Ⅰ（第３回）第2章戦略形ゲームの基礎

エージェントアプローチ人工知能　21章 B4　片渕聡.

Probabilistic Method 6-3,4

集団における適応知識構造論講座　下嶋研究室　　　　　　　　　Ｍ１　関本　和弘.

ネットワーク上を拡散する技術革新のシミュレーション日本大学文理学部情報システム解析学科谷研究室安藤勇希帆苅裕貴

当選確率が５０％と５％の宝くじどっちを買うべき？

慶應義塾大学経済学部グレーヴァ香子 Takako Fujiwara-Greve

新ゲーム理論第Ⅰ部非協力ゲームの理論第1章非協力ゲームの戦略形

第13章フォンノイマン/モルゲンシュテイン解

シミュレーション論Ⅰ 第11回意思決定とシミュレーション.

パソコンでゲームの理論第1,2章ゼロ和２人ゲームゼミ合宿東京理科大学理学部第２部数学科・統計学ゼミ

第Ⅱ部　協力ゲームの理論第9章　シャープレイ値.

第Ⅱ部　協力ゲームの理論第7章　交渉問題 2008/07/01(火) ゲーム理論合宿Ｍ１　北川直樹.

発表日：平成１５年４月２５日担当者：時田陽一担当箇所：第３章誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則

シミュレーション論 Ⅱ 第１５回まとめ.

協調機械システム論 ( ，本郷）協調機械システム論東京大学　人工物工学研究センター淺間　一.

論文紹介 Query Incentive Networks

ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94

間接互恵性の成立ー進化シミュレーションを用いた選別的利他戦略の検討ー

7.4 Two General Settings D3 杉原堅也.

情報理工学系研究科数理情報学専攻数理第四研究室博士三年指導教員：駒木文保准教授鈴木大慈 2008年8月14日

第Ⅱ部　協力ゲームの理論第10章　コア 2008/07/01(火) ゲーム理論合宿.

意外と身近なゲーム理論へなちょこ研究室 p.

25. Randomized Algorithms

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

第Ⅱ部　協力ゲームの理論第16章　破産問題 2008/07/02(水) ゲーム理論合宿Ｍ１　浦田淳司.

中級ミクロ経済(2004) 授業予定.

所属集団の変更できる社会的ジレンマ実験について２

モンテカルロ法を用いた立体四目並べの対戦プログラム

第Ⅱ部協力ゲームの理論第11章仁（nucleolus） 2008/07/02(水) ゲーム理論合宿Ｍ１浦田淳司 nucleolus

第3章　線形回帰モデル修士1年山田　孝太郎.

第Ⅱ部　協力ゲームの理論第7章　提携形ゲームと配分 2008/07/01(火) ゲーム理論合宿Ｍ１　藤井敬士.

Max Cut and the Smallest Eigenvalue 論文紹介

第Ⅱ部　協力ゲームの理論第14章　交渉集合.

プログラミング言語論第１０回情報工学科　篠埜　功.

囚人のジレンマ ―― 裏切りのインセンティブ ――

コストのついたグラフの探索分枝限定法 A*アルゴリズム.

第Ⅰ部　非協力ゲームの理論第6章　情報の価値 2008/07/01(火) ゲーム理論合宿Ｍ２　渡辺美穂.

人工知能概論第4回探索（３）ゲームの理論.

Time Reversal E-Text: pp.80-83(PDF: pp.49-50) FM08002 太神諭

Presentation transcript:

新ゲーム理論ゼミ第５章「繰り返しゲーム」 M1 松村草也

第５章 - 目次有限繰り返しゲーム無限繰り返しゲームフォーク定理囚人のジレンマの無限繰り返しゲーム錯誤と寛容繰り返しゲームの要素支配型固定型戦略トリガー戦略（永久処罰引き金内蔵戦略）反射戦略（しっぺ返し戦略）仏の顔も３度まで戦略錯誤と寛容フォーク定理繰り返しゲームの要素

有限繰り返しゲーム limited repeated game

チェーンストア・パラドックスから小売店が市場に参入してくる状況を想定する．１度ならば協調的行動をとった方が利得が大きいことが予想される．しかし，何度もそれを許すことは，チェーン店としての牙城を危ぶませるものである．同じゲームでも，１度きりなのか，大きな流れの中での１度なのかによって，プレイヤーが選択する行動は異なってくるに違いない．この章では，同一のゲームが繰り返される場合について考えてみる．

例１：囚人のジレンマの２回繰り返しゲームペイオフマトリックスルール１回目はプレイヤー1,2は互いに独立に自分の戦略を選択する。協調行動C 競争行動D 2,2 0,3 3,0 1,1 ルール１回目はプレイヤー1,2は互いに独立に自分の戦略を選択する。２回目は１回目の各プレイヤーの戦略と得られた利益を知った上で互いに独立に戦略を選択する。繰り返しゲームにおけるプレイヤーの利得は２回の成分ゲームの合計。各プレイヤーは２回で終了することを知っている。

例１：囚人のジレンマの２回繰り返しゲームでは，前回のゲームとの関連によって戦略を分類するとどうなるか？ Q：プレイヤーは純戦略をいくつもっている？ P1 P2 P1 P2 １度目のゲームでは情報集合は１２度目のゲームでは情報集合は４合わせて５つの情報集合が存在． 25 = 32 の純戦略をそれぞれ持っている． (CCCCC),(CCCCD),(CCCDC),...,(DDDDD) では，前回のゲームとの関連によって戦略を分類するとどうなるか？

有限繰り返しゲーム - 戦略の組み合わせで考える２回目ゲーム時の純戦略を４つに分類１回目の結果に無関係に常にCを取る。(CCCC) １回目に相手のプレイヤーが取った行動と同じ行動を取る。１回目に相手のプレイヤーが取った行動と違う行動を取る。１回目の結果に無関係に常にDを取る。(DDDD) C1 C2 C3 C4 D1 D2 D3 D4 4,4 2,5 0,6 3,3 1,4 5,2 4,1 2,2 6,0 2,2* C D 均衡点は((D4),(D4))になる．つまり(DDDDD)．

有限繰り返しゲーム - まとめ最後のゲームについては，１回きりのゲームと同じように考え，支配戦略を取る．頂点から底点に向かって，逆戻り推論法を適用することが出来るのが特徴．有限回であるという共通認識がある限り同じことが起こる．有限回ならチェーン店も許してくれるということか？ん？

無限繰り返しゲーム endless repeated game

観測されている事実囚人のジレンマの均衡利得はパレート最適ではないが，囚人のジレンマ的状況が繰り返されるとプレーヤ間に暗黙の協調が生まれ，協調的行動がとられ，パレート最適な利得ベクトルが実現することが観察されている．「無限に繰り返す」という状況下で行う意思決定を考えることで，より現実的な考察が可能になるのではないだろうか？

例１：囚人のジレンマの無限繰り返しゲーム１回目のプレイにおいて、プレイヤーは他のプレイヤーと独立に自分の行動を選択。ペイオフマトリックス協調行動C 競争行動D 5,5 0,8 8,0 2,2 ルール１回目のプレイにおいて、プレイヤーは他のプレイヤーと独立に自分の行動を選択。 t+1回目のプレイでは、これまでに各プレイヤーが取った戦略と利益を知った上で独立に行動を選択。プレイヤーのゲーム全体としての利益は毎回の利益の平均とする。

無限繰り返しゲーム - ４つの戦略例 α：支配戦略固定型戦略 β：トリガー戦略 γ：反射戦略（しっぺ返し戦略） δ：仏の顔も３度まで戦略無限に繰り返すため，純戦略の列挙は不可能．行動パターンも無限に存在するが，その中からいくつかを挙げて考える． α：支配戦略固定型戦略 β：トリガー戦略 γ：反射戦略（しっぺ返し戦略） δ：仏の顔も３度まで戦略

無限繰り返しゲーム - 戦略の内容比較 α 支配戦略固定型戦略 β トリガー戦略 γ 反射戦略 δ 仏の顔も３度まで戦略１回目 Dを選択 Cを選択２回目以降反射行動相手がDを選択したらそれ以降 Dを選択反射行動（次はD）３回まではCを選択それ以降は反射行動

無限繰り返しゲーム - 均衡点への到達正確に戦略を保つならば，（α,α）,（β,β）,（γ,γ）,（δ,δ）,（β,γ）,（β,δ）,（γ,δ）の戦略組み合わせはどれも均衡点．相手が裏切りを行った際の仕返しの方法が異なる． ⇒３回目のゲームで裏切りを行い，その後元の戦略に戻ると仮定した場合の，戦略ごとの仕返し機能を比較してみる．

無限繰り返しゲーム - 戦略の仕返し機能比較【α：支配戦略固定型戦略】【β：トリガー戦略】【γ：反射戦略】【δ：仏の顔も３度まで戦略】

シミュレーション各プレイヤは10個ずつの戦略を持っている．戦略が指示する行動と異なる行動を0.03の確率で行う（偶然手番の導入） Dを行うべきときに確率pでCを行う．（混合戦略）ゲームの繰り返し回数は200回

例３.１人vs不特定多数の繰り返しゲーム警察官が不特定多数のドライバーに対して取り締まりを行う状況を仮定する．警察官はT：取り締まる，N：放置するの２つの行動をとり，ドライバーはこれを知った上でS：慎重に運転する，D：無法運転をするという選択を行う．ドライバーは慎重に運転していても過失をp(0<p<0.5)の確率で行う（偶然手番と考える）

１回限りの取り締まりゲームの場合ペイオフマトリックス SS SD DS DD T：取り締まり 4-3p,3-2p 1,2 N：放置 4-p,3+p 2,4 0<p<0.5 (T,SD)，(N,DD)という２つの均衡点は警察が取り締まりを行うならば慎重に運転を行い，行わなければ違法運転を行うことを意味する．

繰り返し取り締まりゲームのシミュレーションドライバーが過失を起こす確率をα=0.1とする．警察は定常戦略T,Nの他に，状態反応戦略A(a)を有する．aを超えたら取り締まる． 200回のシミュレーションを行った結果から平均利得を用いる．：ドライバーが慎重に運転してもt-1回目までに起こす交通違反回数の期待値：ドライバーがt-1回目までに起こした交通違反回数＝

繰り返し取り締まりゲームのシミュレーションシミュレーション結果の利得行列 SS SD DS DD T：取り締まり 3.73,2.82 1.00,2.00 A(1) 3.84,2.99 3.69,2.85 1.99,2.36 1.01,2.01 A(1.2) 3.91,3.09 3.67,2.87 A(3) 3.33,3.11 N：放置 2.00,4.00 (A(1.2),SS)は実際の交通違反回数が期待値の1.2倍を上回ったら取り締まりを行うという戦略．この時の均衡利得(3.91,3.09)はパレート最適で，常に取り締まるか取り締まらないかよりも望ましい戦略となっている．

フォークの定理 fork theory

繰り返しゲームの表現方法成分ゲームG=(N,S,F) ただしNはプレイヤー集合，Sは戦略集合，Fは利得関数繰り返される回数　成分ゲームGはT回繰り返される．戦略　成分ゲームGの戦略を「行動」と，繰り返しゲームΓの戦略と区別して呼ぶことが多い．ゲームの経歴　t回目のプレイの結果をまとめてベクトルで示したもの(1≤t≤T) 平均利得と割引利得平均利得割引利得 rは割引率

フォークの定理「１回限りの場合必ずしもパレート最適な利得が得られないゲームでも，無限回繰り返すことによって，パレート最適な利得を実現する戦略が存在する．」

保留点（ミニマックス点）保留点（ミニマックス点）を以下のように定義する．相手に対して最小プレイヤーかのごとく振る舞った場合に，相手の利得を抑えられうる最小の値．逆に言えばそのプレイヤーにとって最小限の利得として保留される値．なお，一般的にミニマックス値≥マックスミニ値になることが知られている．

個人合理的実現可能集合無限繰り返しゲームΓの利得ベクトルxが保留点vをパレート支配するとき，xは個人合理的であるという．ゲームΓの実現可能集合に属しつつ，個人合理的な利得ベクトルの集合を，個人合理的実現可能集合という．

図解左のゲームの保留点はv=(5,6)である． P2 左のゲームの保留点はv=(5,6)である．左下の図の個人合理的実現可能集合内の任意の点が，部分ゲーム完全均衡点をつくる戦略の組によって実現されることを保証するのが，フォークの定理である． 4,8 6,4 3,6 2,0 4,6 6,1 5,3 7,5 0,6 P1 ゲームΓの成分ゲーム v(5,6) 個人合理的実現可能集合ゲームΓの実現可能集合

補足 - フォークの定理の成立条件プレイヤーは将来の利得をあまり割り引かない．(rは十分0にちかい) Siはユークリッド空間におけるコンパクトな部分集合である FiはS上の連続な実数値関数である．成分ゲームGにおいて，混合戦略の範囲で考えた時の個人合理的集合はn次元である．この条件はn人ゼロ和ゲームでは実現可能集合はn-1次元だが，そのような場合を除くことを意味している．