混合戦略ナッシュ均衡とは? 表を出す 裏を出す (1,-1) (-1,1)

Slides:



Advertisements
Similar presentations
2014/08/03 OC体験授業 1 サッカーとゲーム理論 東京国際大学オープンキャンパス ( 201 4年 8 月 3 日) 経済学部体験授業 東京国際大学経済学部 古川徹也.
Advertisements

統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
新ゲーム理論 第Ⅰ部 非協力ゲームの理論 第2章 戦略形ゲームのナッシュ均衡
2行+αチョンプに関する考察 京都大学 ○後藤順一 伊藤大雄.
ゲーム理論・ゲーム理論Ⅰ(第2回) 第2章 戦略形ゲームの基礎
人工知能概論 第4回 探索(3) ゲームの理論.
内容 部分ゲーム完全均衡点 -部分ゲーム -部分ゲーム完全均衡点 -2段階完全情報ゲーム シュタッケルベルク均衡点
経済統計学 第2回 4/24 Business Statistics
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
独占と寡占.
ゲーム理論・ゲーム理論Ⅰ (第8回) 第5章 不完全競争市場の応用
© Yukiko Abe 2014 All rights reserved
統計学 10/25(木) 鈴木智也.
ゲーム理論・ゲーム理論Ⅰ (第6回) 第4章 戦略形ゲームの応用
「生き残り競争」から抜け出したい! -ゲーム理論入門- 東京国際大学オープンキャンパス (2014年8月23日) 経済学部体験授業
11.確率モデル 確率・・・不確実性の経済学や金融やファイナンス で重要 密度関数がある場合に期待値を取る計算を中心に、紹介.
初級ミクロ経済学 -ゲーム理論入門- 2014年12月19日 古川徹也 2014/12/19.
論理式の表現を数学的に取り扱いやすくするために代数学の助けを借りる.
確率・統計Ⅱ 第7回.
法と経済学(file 6) ゲーム理論2 今日の講義の目的 (1)展開型ゲームという考え方を理解する (2)後方帰納法の考え方を理解する
10.Private Strategies in Games with Imperfect Public Monitoring
政策決定のプロセス 政策過程論 公共選択 ゲームの理論.
第2章補足Ⅱ 2項分布と正規分布についての補足
初級ミクロ経済学 -ゲーム理論入門- 2014年12月15日 古川徹也 2014年12月15日 初級ミクロ経済学.
ゲーム理論・ゲーム理論Ⅰ(第3回) 第2章 戦略形ゲームの基礎
第2章 確率と確率分布 統計学 2006年度.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
当選確率が50%と5%の宝くじ どっちを買うべき?
OR手法「ゲームの理論」 社会情報特講Ⅲ 大堀隆文(非常勤).
慶應義塾大学経済学部 グレーヴァ香子 Takako Fujiwara-Greve
新ゲーム理論 第Ⅰ部 非協力ゲームの理論 第1章 非協力ゲームの戦略形
第13章 フォンノイマン/モルゲンシュテイン解
パソコンでゲームの理論 第1,2章 ゼロ和2人ゲーム ゼミ合宿 東京理科大学理学部第2部数学科・統計学ゼミ
第Ⅱ部 協力ゲームの理論 第9章 シャープレイ値.
第Ⅱ部 協力ゲームの理論 第7章 交渉問題 2008/07/01(火) ゲーム理論合宿 M1 北川直樹.
ボンドの効果 ―法と経済学による分析― 桑名謹三 法政大学政策科学研究所
数理統計学 第4回 西山.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
シャノンのスイッチングゲームにおけるペアリング戦略の複雑さについて
6.大人数クラスの運営法 ゲーム理論 出席の取り方 まわし方(4通り) →出席表を2回まわす 1回目10:50~ 2回目11:20~
3. 可制御性・可観測性.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
論文紹介 Query Incentive Networks
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
7.4 Two General Settings D3 杉原堅也.
Basic Tools B4  八田 直樹.
6. ラプラス変換.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
25. Randomized Algorithms
Selfish Routing and the Price of Anarchy 4.3
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
第Ⅱ部 協力ゲームの理論 第16章 破産問題 2008/07/02(水) ゲーム理論合宿 M1 浦田淳司.
JavaScript プログラミング演習 - じゃんけんゲーム - 「ホームページを動的に制御したい…」
様々な情報源(4章).
クロス表とχ2検定.
第Ⅱ部 協力ゲームの理論 第7章 提携形ゲームと配分 2008/07/01(火) ゲーム理論合宿 M1 藤井敬士.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
第Ⅱ部 協力ゲームの理論 第14章 交渉集合.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
or-8. ゲーム理論 (オペレーションズリサーチを Excel で実習するシリーズ)
4.プッシュダウンオートマトンと 文脈自由文法の等価性
Chapter5 Systems of Distinct Representatives
第Ⅰ部 非協力ゲームの理論 第6章 情報の価値 2008/07/01(火) ゲーム理論合宿 M2 渡辺美穂.
ゲーム理論 ー 駆け引きの科学 - (1) 戦略形のゲーム
人工知能概論 第4回 探索(3) ゲームの理論.
Presentation transcript:

混合戦略ナッシュ均衡とは? 表を出す 裏を出す (1,-1) (-1,1) (1)ナッシュ均衡が存在しないゲームが結構ある。たとえば、コイン合わせゲーム。どの戦略の組み合わせにも逸脱のインセンティブがある。      プレイヤー2 プレイヤー1 表を出す 裏を出す (1,-1) (-1,1)

じゃんけんゲームにもナッシュ均衡が存在しない。 グー チョキ パー 0,0 1,-1 -1,1 1.-1

戦略集合の拡張とは?  今までは表をだすか、あるいは裏を出すかという2者択一の選択であったが、両方の戦略の混合を考えることができる。たとえば、さいころを振り、出た目によって戦略を決めるような方法もある。ただし、各戦略には自由に確率(あるいは確率分布)を与えることができると考えます。すなわち、表を出す戦略に確率pを、裏を出す戦略に確率1-pを与えると考えます。たとえば、表を出す戦略に確率1/3(さいころの目が1と2が出たら)で、裏を出す戦略に確率2/3(さいころの目が3,4,5,6が出たら)で採用すると考えます。混合戦略と呼ばれます。

混合戦略のもう一つの考え方 ナッシュ均衡が存在しない場合、どんな戦略をとっても、少なくとも一人のプレーヤーが違う戦略に変えることで負けから勝ちに変わって利得を増加することができる。 このような状況では、自分の手を読まれないにすることが肝心である。たとえば、テニスのサーブの時、相手のフォアを狙うか、バックを狙うか読まれないようにするのがよいとのと同じ考え方である。お互い相手の手がわからなければ、どちらにも対応できるように中間的に構えるとすると、こちらの手も読まれないので、戦略的に安定的になる。

期待値の考え方: 具体例:くじA,B を考える ・ これらを比較する方法(の1 つ)として考えられるのが,期待値(確率変数の平均値)を計算する方法である。 期待値の公式 ・ 確率的にあらわれる数値,あるいは確率的にあらわれる状態に対して数値を割り当てる関数を,確率変数と呼ぶ。(例:サイコロの目) ・ それぞれの確率変数に,それがどれくらいの確率であらわれるかを掛けたものを合計して、

足したものを期待値(平均値)と呼ぶ。 くじAとくじBの期待値 くじA から得られる利得の期待値:100 万円×0. 05+0 万円×0 足したものを期待値(平均値)と呼ぶ。 くじAとくじBの期待値 くじA から得られる利得の期待値:100 万円×0.05+0 万円×0.95=5 万円 くじBから得られる利得の期待値:8 万円×0.2+4 万円×0.8=4.8 万円 サイコロの目(サイコロの目を賞金額とすれば)の期待値(平均賞金額) 1×1/6+2×1/6+・・・+6×1/6=21/6=3.5

ペナルティキック((相手に手を読まれないようにする戦略)) ペナルティキックはキッカーとキーパーの1対1。キーパーはボールの方向を読む。キッカーはキーパーの読みを外そうとする。      キッカー キーパー 左 右 (1,-1) (-1,1)

たとえば、 ならば、キーパーは確率1/2で左に、確率1/2で右に飛ぶ。キッカーは確率1/2で左にけり、確率1/2で右にける。 キーパーの混合戦略は、 キッカーの混合戦略は、 たとえば、             ならば、キーパーは確率1/2で左に、確率1/2で右に飛ぶ。キッカーは確率1/2で左にけり、確率1/2で右にける。

各セルの確率の積は、そのセルが起きる確率 ペナルティキック‧ゲーム 各セルの確率の積は、そのセルが起きる確率      キッカー キーパー   左    右   右

両プレイヤーが混合戦略を採用する場合は、各プレイヤーは、自らの期待利得を最大にするように、混合戦略を決める。キッカーが混合戦略をとったときのキーパーの期待利得は、 しかし、キーパーの期待利得はキーパーの混合戦略に依存していない。

もし  、 (キッカーが左にキックする確率を1/2以下にするとき)ならば、 キッカーが左にキックする確率が1/2より小さい時、キーパーは右に飛ぶ。ただし、1/2は

もし  、 ならば、 キッカーが左にキックする確率が1/2より大きい時、キーパーは左に飛ぶ。

キッカーが左にキックする確率が1/2の時、キーパーは左に飛ぶことと、右に飛ぶことが無差別である。 もし  、 ならば、 キッカーが左にキックする確率が1/2の時、キーパーは左に飛ぶことと、右に飛ぶことが無差別である。

キーパーの最適反応関数(左に飛ぶ確率 )は、 キーパーの最適反応関数(左に飛ぶ確率    )は、 (どの戦略 でもよい)

もし  、 (キーパーが左に飛ぶ確率)ならば、 キーパーが左に飛ぶ確率が1/2より小さい時、キッカーは左に蹴る。 もし、       ならば、 キーパーが左に飛ぶ確率が1/2より大きい時、キッカーは右に蹴る。

キッカーの最適反応関数(左に蹴る確率)は、 (どの戦略 でもよい)

2人の最適反応関数の図示 キッカーの左へ蹴る確率 キッカーの反応関数 1 キーパーの反応関数 1/2 キーパーの左へ飛ぶ 確率 1/2 1

混合戦略ナッシュ均衡(交点に対応) ナッシュ均衡の期待利得の最大化と予想と実際に一致(予想の一貫性)を満足している。 さらに、お互いが最適反応になっている。

混合ナッシュ均衡(1/2,1/2)はナッシュ均衡の定義2に一致する。 ナッシュ均衡は次のような性質を満たす戦略のペア                      である。  ただし、

さらに、混合戦略ナッシュ均衡の定義1も満足する。 戦略の組合わせがすべてのプレイヤーの最適反応になっている時かつその時のみナッシュ均衡である。すなわち、すべての       に対しておよびすべてプレイヤーI に対し 混合戦略ナッシュ均衡は2つの純戦略から得られる利得を等しくすることによって得られているからである。

もし    (キーパーが左に飛ぶ確率)ならば、 キッカーはどのように戦略            を変更しても、期待利得は変化しない。したがって、 を満足する。ただし、   は混合戦略

もし    (キッカーが左に蹴る確率)ならば、 キーパーはどのように戦略         を変更しても、期待利得は変化しない。              なぜなら、期待ペイオフは   依存していない。したがって、 を満足する。戦略を変えるインセンティブはない。ただし、   は混合戦略

恋愛ゲームの混合戦略ナッシュ均衡 野球観戦 ディズニーランド (2,1) (0,0) (1,2) 男性 計算を簡単にするために、前出の恋愛ゲームをより簡単にしている。      女性 男性 野球観戦 ディズニーランド (2,1) (0,0) (1,2)

両プレイヤーが混合戦略を採用する場合は、各プレイヤーは自らの期待利得を最大にするように、混合戦略を決める。男性の期待利得は 2つの戦略が等しい期待利得を与える確率は

男性の最適反応関数(野球に行く確率  )は

女性の期待利得は、 2つの戦略が等しい期待利得を与える確率は

女性の最適反応関数(野球に行く確率  )は、

2人の最適反応関数の図示 女性の野球の確率 1 女性の反応関数 男性の反応関数 1/3 男性の野球の確率 2/3 1

混合戦略ナッシュ均衡は2つの最適反応関数混合戦略ナッシュ均衡の交点に対応する。混合戦略ナッシュ均衡は、 男性はどちらかというと野球に行きたい。したがって、相対的に高い確率で野球を選択する。一方、女性はどちらかというとディズニーランドに行きたい。したがって、相対的に高い確率でディズニーランドを選択する。

期待利得は同じ

したがって、3つのナッシュ均衡が存在する。 残り均衡は純戦略ナッシュ均衡 したがって、3つのナッシュ均衡が存在する。

タカ‧ハトゲームの利得表   ハト   タカ  ハト (2,2) (1,3)  タカ (3,1) (0,0)

プレイヤー1の期待利得は、 2つの戦略が等しい期待利得を与える確率は

プレイヤー1の最適反応関数(ハトをとる確率  )は、

プレイヤー2の期待利得は、 2つの戦略が等しい期待利得を与える確率は

プレイヤー2の最適反応関数(ハトをとる確率  )は、

2人の最適反応関数の図示 プレイヤー2の反応関数 1 ハト プレイヤー1の反応関数 1/2 ハト 1 タカ 1/2

2つの純戦略ナッシュ均衡と1つの混合戦略ナッシュ均衡

混合戦略ナッシュ均衡における期待利得

じゃんけんゲームにおける混合戦略ナッシュ均衡 純戦略ナッシュ均衡は存在しないが、混合戦略ナッシュ均衡は存在する。 グー チョキ パー 0,0 1,-1 -1,1 0, 0 1.-1

じゃんけんゲームにも純粋ナッシュ均衡は存在しない。しかし、混合戦略ナッシュ均衡は存在する グー チョキ パー 0,0 1,-1 -1,1 1.-1

プレイヤー1は、 プレイヤー2は、 という混合戦略をとる。期待値は同じになる

混合戦略ナッシュ均衡は一つであり、 期待利得は同じになるので、これにどのような確率を割り振っても同じ期待ペイオフになる。

ナッシュは次の定理も証明した。 有限ゲームにおいて、混合戦略ナッシュ均衡の混合戦略を構成する純戦略は他のプレイヤーの混合戦略に対して最適戦略になっている。なぜなら、混合戦略ナッシュ均衡を構成する純戦略は同じ期待利得を与えるからです。

ナッシュは次の定理も証明した。 戦略の数が有限である有限ゲームおいて、戦略集合を混合戦略まで含めると、この有限ゲームには必ずナッシュ均衡が存在する。