混合戦略ナッシュ均衡とは? 表を出す 裏を出す (1,-1) (-1,1) (1)ナッシュ均衡が存在しないゲームが結構ある。たとえば、コイン合わせゲーム。どの戦略の組み合わせにも逸脱のインセンティブがある。 プレイヤー2 プレイヤー1 表を出す 裏を出す (1,-1) (-1,1)
じゃんけんゲームにもナッシュ均衡が存在しない。 グー チョキ パー 0,0 1,-1 -1,1 1.-1
戦略集合の拡張とは? 今までは表をだすか、あるいは裏を出すかという2者択一の選択であったが、両方の戦略の混合を考えることができる。たとえば、さいころを振り、出た目によって戦略を決めるような方法もある。ただし、各戦略には自由に確率(あるいは確率分布)を与えることができると考えます。すなわち、表を出す戦略に確率pを、裏を出す戦略に確率1-pを与えると考えます。たとえば、表を出す戦略に確率1/3(さいころの目が1と2が出たら)で、裏を出す戦略に確率2/3(さいころの目が3,4,5,6が出たら)で採用すると考えます。混合戦略と呼ばれます。
混合戦略のもう一つの考え方 ナッシュ均衡が存在しない場合、どんな戦略をとっても、少なくとも一人のプレーヤーが違う戦略に変えることで負けから勝ちに変わって利得を増加することができる。 このような状況では、自分の手を読まれないにすることが肝心である。たとえば、テニスのサーブの時、相手のフォアを狙うか、バックを狙うか読まれないようにするのがよいとのと同じ考え方である。お互い相手の手がわからなければ、どちらにも対応できるように中間的に構えるとすると、こちらの手も読まれないので、戦略的に安定的になる。
期待値の考え方: 具体例:くじA,B を考える ・ これらを比較する方法(の1 つ)として考えられるのが,期待値(確率変数の平均値)を計算する方法である。 期待値の公式 ・ 確率的にあらわれる数値,あるいは確率的にあらわれる状態に対して数値を割り当てる関数を,確率変数と呼ぶ。(例:サイコロの目) ・ それぞれの確率変数に,それがどれくらいの確率であらわれるかを掛けたものを合計して、
足したものを期待値(平均値)と呼ぶ。 くじAとくじBの期待値 くじA から得られる利得の期待値:100 万円×0. 05+0 万円×0 足したものを期待値(平均値)と呼ぶ。 くじAとくじBの期待値 くじA から得られる利得の期待値:100 万円×0.05+0 万円×0.95=5 万円 くじBから得られる利得の期待値:8 万円×0.2+4 万円×0.8=4.8 万円 サイコロの目(サイコロの目を賞金額とすれば)の期待値(平均賞金額) 1×1/6+2×1/6+・・・+6×1/6=21/6=3.5
ペナルティキック((相手に手を読まれないようにする戦略)) ペナルティキックはキッカーとキーパーの1対1。キーパーはボールの方向を読む。キッカーはキーパーの読みを外そうとする。 キッカー キーパー 左 右 (1,-1) (-1,1)
たとえば、 ならば、キーパーは確率1/2で左に、確率1/2で右に飛ぶ。キッカーは確率1/2で左にけり、確率1/2で右にける。 キーパーの混合戦略は、 キッカーの混合戦略は、 たとえば、 ならば、キーパーは確率1/2で左に、確率1/2で右に飛ぶ。キッカーは確率1/2で左にけり、確率1/2で右にける。
各セルの確率の積は、そのセルが起きる確率 ペナルティキック‧ゲーム 各セルの確率の積は、そのセルが起きる確率 キッカー キーパー 左 右 右
両プレイヤーが混合戦略を採用する場合は、各プレイヤーは、自らの期待利得を最大にするように、混合戦略を決める。キッカーが混合戦略をとったときのキーパーの期待利得は、 しかし、キーパーの期待利得はキーパーの混合戦略に依存していない。
もし 、 (キッカーが左にキックする確率を1/2以下にするとき)ならば、 キッカーが左にキックする確率が1/2より小さい時、キーパーは右に飛ぶ。ただし、1/2は
もし 、 ならば、 キッカーが左にキックする確率が1/2より大きい時、キーパーは左に飛ぶ。
キッカーが左にキックする確率が1/2の時、キーパーは左に飛ぶことと、右に飛ぶことが無差別である。 もし 、 ならば、 キッカーが左にキックする確率が1/2の時、キーパーは左に飛ぶことと、右に飛ぶことが無差別である。
キーパーの最適反応関数(左に飛ぶ確率 )は、 キーパーの最適反応関数(左に飛ぶ確率 )は、 (どの戦略 でもよい)
もし 、 (キーパーが左に飛ぶ確率)ならば、 キーパーが左に飛ぶ確率が1/2より小さい時、キッカーは左に蹴る。 もし、 ならば、 キーパーが左に飛ぶ確率が1/2より大きい時、キッカーは右に蹴る。
キッカーの最適反応関数(左に蹴る確率)は、 (どの戦略 でもよい)
2人の最適反応関数の図示 キッカーの左へ蹴る確率 キッカーの反応関数 1 キーパーの反応関数 1/2 キーパーの左へ飛ぶ 確率 1/2 1
混合戦略ナッシュ均衡(交点に対応) ナッシュ均衡の期待利得の最大化と予想と実際に一致(予想の一貫性)を満足している。 さらに、お互いが最適反応になっている。
混合ナッシュ均衡(1/2,1/2)はナッシュ均衡の定義2に一致する。 ナッシュ均衡は次のような性質を満たす戦略のペア である。 ただし、
さらに、混合戦略ナッシュ均衡の定義1も満足する。 戦略の組合わせがすべてのプレイヤーの最適反応になっている時かつその時のみナッシュ均衡である。すなわち、すべての に対しておよびすべてプレイヤーI に対し 混合戦略ナッシュ均衡は2つの純戦略から得られる利得を等しくすることによって得られているからである。
もし (キーパーが左に飛ぶ確率)ならば、 キッカーはどのように戦略 を変更しても、期待利得は変化しない。したがって、 を満足する。ただし、 は混合戦略
もし (キッカーが左に蹴る確率)ならば、 キーパーはどのように戦略 を変更しても、期待利得は変化しない。 なぜなら、期待ペイオフは 依存していない。したがって、 を満足する。戦略を変えるインセンティブはない。ただし、 は混合戦略
恋愛ゲームの混合戦略ナッシュ均衡 野球観戦 ディズニーランド (2,1) (0,0) (1,2) 男性 計算を簡単にするために、前出の恋愛ゲームをより簡単にしている。 女性 男性 野球観戦 ディズニーランド (2,1) (0,0) (1,2)
両プレイヤーが混合戦略を採用する場合は、各プレイヤーは自らの期待利得を最大にするように、混合戦略を決める。男性の期待利得は 2つの戦略が等しい期待利得を与える確率は
男性の最適反応関数(野球に行く確率 )は
女性の期待利得は、 2つの戦略が等しい期待利得を与える確率は
女性の最適反応関数(野球に行く確率 )は、
2人の最適反応関数の図示 女性の野球の確率 1 女性の反応関数 男性の反応関数 1/3 男性の野球の確率 2/3 1
混合戦略ナッシュ均衡は2つの最適反応関数混合戦略ナッシュ均衡の交点に対応する。混合戦略ナッシュ均衡は、 男性はどちらかというと野球に行きたい。したがって、相対的に高い確率で野球を選択する。一方、女性はどちらかというとディズニーランドに行きたい。したがって、相対的に高い確率でディズニーランドを選択する。
期待利得は同じ
したがって、3つのナッシュ均衡が存在する。 残り均衡は純戦略ナッシュ均衡 したがって、3つのナッシュ均衡が存在する。
タカ‧ハトゲームの利得表 ハト タカ ハト (2,2) (1,3) タカ (3,1) (0,0)
プレイヤー1の期待利得は、 2つの戦略が等しい期待利得を与える確率は
プレイヤー1の最適反応関数(ハトをとる確率 )は、
プレイヤー2の期待利得は、 2つの戦略が等しい期待利得を与える確率は
プレイヤー2の最適反応関数(ハトをとる確率 )は、
2人の最適反応関数の図示 プレイヤー2の反応関数 1 ハト プレイヤー1の反応関数 1/2 ハト 1 タカ 1/2
2つの純戦略ナッシュ均衡と1つの混合戦略ナッシュ均衡
混合戦略ナッシュ均衡における期待利得
じゃんけんゲームにおける混合戦略ナッシュ均衡 純戦略ナッシュ均衡は存在しないが、混合戦略ナッシュ均衡は存在する。 グー チョキ パー 0,0 1,-1 -1,1 0, 0 1.-1
じゃんけんゲームにも純粋ナッシュ均衡は存在しない。しかし、混合戦略ナッシュ均衡は存在する グー チョキ パー 0,0 1,-1 -1,1 1.-1
プレイヤー1は、 プレイヤー2は、 という混合戦略をとる。期待値は同じになる
混合戦略ナッシュ均衡は一つであり、 期待利得は同じになるので、これにどのような確率を割り振っても同じ期待ペイオフになる。
ナッシュは次の定理も証明した。 有限ゲームにおいて、混合戦略ナッシュ均衡の混合戦略を構成する純戦略は他のプレイヤーの混合戦略に対して最適戦略になっている。なぜなら、混合戦略ナッシュ均衡を構成する純戦略は同じ期待利得を与えるからです。
ナッシュは次の定理も証明した。 戦略の数が有限である有限ゲームおいて、戦略集合を混合戦略まで含めると、この有限ゲームには必ずナッシュ均衡が存在する。