混合戦略ナッシュ均衡とは？表を出す裏を出す（１，－１）（－１，１）

Slides:

Advertisements

Similar presentations

2014/08/03 ＯＣ体験授業 1 サッカーとゲーム理論東京国際大学オープンキャンパス（ 201 ４年 8 月 3 日）経済学部体験授業東京国際大学経済学部古川徹也.

Advertisements

統計学第３回西山. 第２回のまとめ確率分布＝決まっている分布の形期待値とは平均計算平均＝合計 ÷ 個数から卒業！平均＝割合 × 値の合計同じ平均値でも同じ分散や標準偏差でも.

新ゲーム理論第Ⅰ部非協力ゲームの理論第2章戦略形ゲームのナッシュ均衡

２行＋αチョンプに関する考察京都大学 ○後藤順一伊藤大雄.

ゲーム理論・ゲーム理論Ⅰ（第２回）第2章戦略形ゲームの基礎

人工知能概論第4回探索（３）ゲームの理論.

内容部分ゲーム完全均衡点 -部分ゲーム -部分ゲーム完全均衡点 -2段階完全情報ゲームシュタッケルベルク均衡点

経済統計学第２回４/２４ Business Statistics

確率と統計平成23年12月8日 (徐々に統計へ戻ります).

近似アルゴリズム第１０章終了時刻最小化スケジューリング

独占と寡占.

ゲーム理論・ゲーム理論Ⅰ （第８回）第５章不完全競争市場の応用

© Yukiko Abe 2014 All rights reserved

統計学１０/25（木）鈴木智也.

ゲーム理論・ゲーム理論Ⅰ （第６回）第４章戦略形ゲームの応用

「生き残り競争」から抜け出したい！－ゲーム理論入門－東京国際大学オープンキャンパス（201４年8月23日）経済学部体験授業

11.確率モデル確率・・・不確実性の経済学や金融やファイナンスで重要密度関数がある場合に期待値を取る計算を中心に、紹介.

初級ミクロ経済学－ゲーム理論入門－ 2014年12月19日古川徹也 2014/12/19.

論理式の表現を数学的に取り扱いやすくするために代数学の助けを借りる.

確率･統計Ⅱ 第7回.

法と経済学(file 6) ゲーム理論２今日の講義の目的（１）展開型ゲームという考え方を理解する（２）後方帰納法の考え方を理解する

10.Private Strategies in Games with Imperfect Public Monitoring

政策決定のプロセス政策過程論公共選択ゲームの理論.

第2章補足Ⅱ 2項分布と正規分布についての補足

初級ミクロ経済学－ゲーム理論入門－ 2014年12月15日古川徹也 2014年12月15日初級ミクロ経済学.

ゲーム理論・ゲーム理論Ⅰ（第３回）第2章戦略形ゲームの基礎

第2章確率と確率分布統計学　2006年度.

統計学 11/08（木）鈴木智也.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

最尤推定によるロジスティック回帰対数尤度関数の最大化.

当選確率が５０％と５％の宝くじどっちを買うべき？

OR手法「ゲームの理論」社会情報特講Ⅲ 大堀隆文(非常勤).

慶應義塾大学経済学部グレーヴァ香子 Takako Fujiwara-Greve

新ゲーム理論第Ⅰ部非協力ゲームの理論第1章非協力ゲームの戦略形

第13章フォンノイマン/モルゲンシュテイン解

パソコンでゲームの理論第1,2章ゼロ和２人ゲームゼミ合宿東京理科大学理学部第２部数学科・統計学ゼミ

第Ⅱ部　協力ゲームの理論第9章　シャープレイ値.

第Ⅱ部　協力ゲームの理論第7章　交渉問題 2008/07/01(火) ゲーム理論合宿Ｍ１　北川直樹.

ボンドの効果 ―法と経済学による分析― 桑名謹三法政大学政策科学研究所

数理統計学第4回西山.

第3回確率変数の平均確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

シャノンのスイッチングゲームにおけるペアリング戦略の複雑さについて

６．大人数クラスの運営法ゲーム理論出席の取り方まわし方（４通り） →出席表を２回まわす１回目１０：５０～２回目１１：２０～

3. 可制御性・可観測性.

１.標本平均の特性値２.母分散既知の標本平均の分布 3.大数法則と中心極限定理

論文紹介 Query Incentive Networks

確率･統計Ⅰ 第3回確率変数の独立性／確率変数の平均ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

確率論の基礎「ロジスティクス工学」第3章鞭効果第4章確率的在庫モデル補助資料

7.4 Two General Settings D3 杉原堅也.

Basic Tools B4 　八田　直樹.

6. ラプラス変換.

１.標本平均の特性値２.母分散既知の標本平均の分布 3.大数法則と中心極限定理

標本分散の標本分布標本分散の統計量　　　の定義　　　の性質分布表の使い方　　　分布の信頼区間　

25. Randomized Algorithms

Selfish Routing and the Price of Anarchy 4.3

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈報告書の作成標本デザイン、データ収集

第Ⅱ部　協力ゲームの理論第16章　破産問題 2008/07/02(水) ゲーム理論合宿Ｍ１　浦田淳司.

JavaScript プログラミング演習－じゃんけんゲーム－「ホームページを動的に制御したい…」

様々な情報源（４章）.

クロス表とχ2検定.

第Ⅱ部　協力ゲームの理論第7章　提携形ゲームと配分 2008/07/01(火) ゲーム理論合宿Ｍ１　藤井敬士.

第３日目第４時限の学習目標第１日目第３時限のスライドによる、名義尺度２変数間の連関のカイ２乗統計量についての復習

第Ⅱ部　協力ゲームの理論第14章　交渉集合.

確率と統計2007（最終回）平成20年1月17日(木) 東京工科大学亀田弘之.

or-8. ゲーム理論（オペレーションズリサーチを Excel で実習するシリーズ）

４．プッシュダウンオートマトンと文脈自由文法の等価性

Chapter5 Systems of Distinct Representatives

第Ⅰ部　非協力ゲームの理論第6章　情報の価値 2008/07/01(火) ゲーム理論合宿Ｍ２　渡辺美穂.

ゲーム理論ー駆け引きの科学－ (1) 戦略形のゲーム

人工知能概論第4回探索（３）ゲームの理論.

Presentation transcript:

混合戦略ナッシュ均衡とは？表を出す裏を出す（１，－１）（－１，１）（１）ナッシュ均衡が存在しないゲームが結構ある。たとえば、コイン合わせゲーム。どの戦略の組み合わせにも逸脱のインセンティブがある。　　　　　プレイヤー２プレイヤー１表を出す裏を出す（１，－１）（－１，１）

じゃんけんゲームにもナッシュ均衡が存在しない。グーチョキパー０，０１，－１－１，１１．－１

戦略集合の拡張とは？　今までは表をだすか、あるいは裏を出すかという２者択一の選択であったが、両方の戦略の混合を考えることができる。たとえば、さいころを振り、出た目によって戦略を決めるような方法もある。ただし、各戦略には自由に確率（あるいは確率分布）を与えることができると考えます。すなわち、表を出す戦略に確率ｐを、裏を出す戦略に確率１－ｐを与えると考えます。たとえば、表を出す戦略に確率１／３（さいころの目が１と２が出たら）で、裏を出す戦略に確率２／３（さいころの目が３，４，５，６が出たら）で採用すると考えます。混合戦略と呼ばれます。

混合戦略のもう一つの考え方ナッシュ均衡が存在しない場合、どんな戦略をとっても、少なくとも一人のプレーヤーが違う戦略に変えることで負けから勝ちに変わって利得を増加することができる。このような状況では、自分の手を読まれないにすることが肝心である。たとえば、テニスのサーブの時、相手のフォアを狙うか、バックを狙うか読まれないようにするのがよいとのと同じ考え方である。お互い相手の手がわからなければ、どちらにも対応できるように中間的に構えるとすると、こちらの手も読まれないので、戦略的に安定的になる。

期待値の考え方：具体例：くじA,B を考える・これらを比較する方法（の1 つ）として考えられるのが，期待値（確率変数の平均値）を計算する方法である。期待値の公式・確率的にあらわれる数値，あるいは確率的にあらわれる状態に対して数値を割り当てる関数を，確率変数と呼ぶ。（例：サイコロの目）・それぞれの確率変数に，それがどれくらいの確率であらわれるかを掛けたものを合計して、

足したものを期待値（平均値）と呼ぶ。くじAとくじBの期待値くじA から得られる利得の期待値：100 万円×0. 05＋0 万円×0 足したものを期待値（平均値）と呼ぶ。くじAとくじBの期待値くじA から得られる利得の期待値：100 万円×0.05＋0 万円×0.95＝5 万円くじBから得られる利得の期待値：8 万円×0.2＋4 万円×0.8＝4.8 万円サイコロの目（サイコロの目を賞金額とすれば）の期待値(平均賞金額) 1×1/6＋2×1/6＋・・・＋6×1/6＝21/6＝3.5

ペナルティキック（（相手に手を読まれないようにする戦略））ペナルティキックはキッカーとキーパーの１対１。キーパーはボールの方向を読む。キッカーはキーパーの読みを外そうとする。　　　　　キッカーキーパー左右（１，－１）（－１，１）

たとえば、ならば、キーパーは確率１／２で左に、確率１／２で右に飛ぶ。キッカーは確率１／２で左にけり、確率１／２で右にける。キーパーの混合戦略は、キッカーの混合戦略は、たとえば、　　　　　　　　　　　　　ならば、キーパーは確率１／２で左に、確率１／２で右に飛ぶ。キッカーは確率１／２で左にけり、確率１／２で右にける。

各セルの確率の積は、そのセルが起きる確率ペナルティキック‧ゲーム各セルの確率の積は、そのセルが起きる確率　　　　　キッカーキーパー　　左　　　右　　右

両プレイヤーが混合戦略を採用する場合は、各プレイヤーは、自らの期待利得を最大にするように、混合戦略を決める。キッカーが混合戦略をとったときのキーパーの期待利得は、しかし、キーパーの期待利得はキーパーの混合戦略に依存していない。

もし　　、（キッカーが左にキックする確率を１／２以下にするとき）ならば、キッカーが左にキックする確率が１／２より小さい時、キーパーは右に飛ぶ。ただし、１／２は

もし　　、ならば、キッカーが左にキックする確率が１／２より大きい時、キーパーは左に飛ぶ。

キッカーが左にキックする確率が１／２の時、キーパーは左に飛ぶことと、右に飛ぶことが無差別である。もし　　、ならば、キッカーが左にキックする確率が１／２の時、キーパーは左に飛ぶことと、右に飛ぶことが無差別である。

キーパーの最適反応関数（左に飛ぶ確率）は、キーパーの最適反応関数（左に飛ぶ確率　　　　）は、（どの戦略　でもよい）

もし　　、（キーパーが左に飛ぶ確率）ならば、キーパーが左に飛ぶ確率が１／２より小さい時、キッカーは左に蹴る。もし、　　　　　　　ならば、キーパーが左に飛ぶ確率が１／２より大きい時、キッカーは右に蹴る。

キッカーの最適反応関数（左に蹴る確率）は、（どの戦略　でもよい）

２人の最適反応関数の図示キッカーの左へ蹴る確率キッカーの反応関数１キーパーの反応関数１/2 キーパーの左へ飛ぶ確率１/2 １

混合戦略ナッシュ均衡（交点に対応）ナッシュ均衡の期待利得の最大化と予想と実際に一致（予想の一貫性）を満足している。さらに、お互いが最適反応になっている。

混合ナッシュ均衡（１／２，１／２）はナッシュ均衡の定義２に一致する。ナッシュ均衡は次のような性質を満たす戦略のペア　　　　　　　　　　　　　　　　　　　　　　である。　ただし、

さらに、混合戦略ナッシュ均衡の定義１も満足する。戦略の組合わせがすべてのプレイヤーの最適反応になっている時かつその時のみナッシュ均衡である。すなわち、すべての　　　　　　　に対しておよびすべてプレイヤーI　に対し混合戦略ナッシュ均衡は２つの純戦略から得られる利得を等しくすることによって得られているからである。

もし　　　（キーパーが左に飛ぶ確率）ならば、キッカーはどのように戦略　　　　　　　　　　　　を変更しても、期待利得は変化しない。したがって、を満足する。ただし、　　　は混合戦略

もし　　　（キッカーが左に蹴る確率）ならば、キーパーはどのように戦略　　　　　　　　　を変更しても、期待利得は変化しない。　　　　　　　　　　　　　　なぜなら、期待ペイオフは　　　依存していない。したがって、を満足する。戦略を変えるインセンティブはない。ただし、　　　は混合戦略

恋愛ゲームの混合戦略ナッシュ均衡野球観戦ディズニーランド（２，１）（０，０）（１，２）男性計算を簡単にするために、前出の恋愛ゲームをより簡単にしている。　　　　　女性男性野球観戦ディズニーランド（２，１）（０，０）（１，２）

両プレイヤーが混合戦略を採用する場合は、各プレイヤーは自らの期待利得を最大にするように、混合戦略を決める。男性の期待利得は２つの戦略が等しい期待利得を与える確率は

男性の最適反応関数（野球に行く確率　　）は

女性の期待利得は、２つの戦略が等しい期待利得を与える確率は

女性の最適反応関数（野球に行く確率　　）は、

２人の最適反応関数の図示女性の野球の確率１女性の反応関数男性の反応関数１/３男性の野球の確率２/３１

混合戦略ナッシュ均衡は２つの最適反応関数混合戦略ナッシュ均衡の交点に対応する。混合戦略ナッシュ均衡は、男性はどちらかというと野球に行きたい。したがって、相対的に高い確率で野球を選択する。一方、女性はどちらかというとディズニーランドに行きたい。したがって、相対的に高い確率でディズニーランドを選択する。

期待利得は同じ

したがって、３つのナッシュ均衡が存在する。残り均衡は純戦略ナッシュ均衡したがって、３つのナッシュ均衡が存在する。

タカ‧ハトゲームの利得表　　ハト　　タカ　ハト（２，２）（１，３）　タカ（３，１）（０，０）

プレイヤー１の期待利得は、２つの戦略が等しい期待利得を与える確率は

プレイヤー１の最適反応関数（ハトをとる確率　　）は、

プレイヤー２の期待利得は、２つの戦略が等しい期待利得を与える確率は

プレイヤー２の最適反応関数（ハトをとる確率　　）は、

２人の最適反応関数の図示プレイヤー２の反応関数１ハトプレイヤー１の反応関数１/２ハト１タカ１/２

２つの純戦略ナッシュ均衡と１つの混合戦略ナッシュ均衡

混合戦略ナッシュ均衡における期待利得

じゃんけんゲームにおける混合戦略ナッシュ均衡純戦略ナッシュ均衡は存在しないが、混合戦略ナッシュ均衡は存在する。グーチョキパー０，０１，－１－１，１０，　０１．－１

じゃんけんゲームにも純粋ナッシュ均衡は存在しない。しかし、混合戦略ナッシュ均衡は存在するグーチョキパー０，０１，－１－１，１１．－１

プレイヤー１は、プレイヤー２は、という混合戦略をとる。期待値は同じになる

混合戦略ナッシュ均衡は一つであり、期待利得は同じになるので、これにどのような確率を割り振っても同じ期待ペイオフになる。

ナッシュは次の定理も証明した。有限ゲームにおいて、混合戦略ナッシュ均衡の混合戦略を構成する純戦略は他のプレイヤーの混合戦略に対して最適戦略になっている。なぜなら、混合戦略ナッシュ均衡を構成する純戦略は同じ期待利得を与えるからです。

ナッシュは次の定理も証明した。戦略の数が有限である有限ゲームおいて、戦略集合を混合戦略まで含めると、この有限ゲームには必ずナッシュ均衡が存在する。