人工知能概論第4回探索（３）ゲームの理論.

Slides:

Advertisements

Similar presentations

最上亮.  近年標的型と呼ばれるサイバー攻撃が増え、大企業や、政府機関が情報窃取型の標的型メール攻撃の被害を受けている。  標的型メール攻撃による個人情報漏えいは、企業に莫大な損失を与えるとともに、信頼を失う。  現在サイバー攻撃における攻撃者、防御者の戦略をゲーム理論的にモデル化する研究がおこな.

Advertisements

Voronoi Game on Graph and its Complexity 寺本幸生上原隆平 (JAIST)

Information このスライドは「イラストで学ぶ人工知能概論」を講義で活用したり，勉強会で利用したりするために提供されているスライドです．イラストで学ぶ人工知能概論.

あみだくじ AMIDA-KUJI 井上康博 Statistical analysis on Amida-kuji, Physica A 369(2006)

Information このスライドは「イラストで学ぶ人工知能概論」を講義で活用したり，勉強会で利用したりするために提供されているスライドです．イラストで学ぶ人工知能概論.

ゲーム理論の誕生と発展 von Neumann & Morgenstern The Theory of Games and Economic Behavior.

 C 川船美帆.  強い人工知能の作成 o 「遺伝的アルゴリズム」  「どうぶつしょうぎ」のアプリケーション作成 o スマートフォン向けアプリケーション.

新ゲーム理論第Ⅰ部非協力ゲームの理論第2章戦略形ゲームのナッシュ均衡

２行＋αチョンプに関する考察京都大学 ○後藤順一伊藤大雄.

3次元nクイーン問題の解に関する研究論理工学研究室伊藤精一

ゲーム理論・ゲーム理論Ⅰ（第２回）第2章戦略形ゲームの基礎

人工知能概論第4回探索（３）ゲームの理論.

内容部分ゲーム完全均衡点 -部分ゲーム -部分ゲーム完全均衡点 -2段階完全情報ゲームシュタッケルベルク均衡点

2009/12/4 グラフ (2) 第１０講: 平成21年12月4日 (金) 4限 E252教室コンピュータアルゴリズム.

ゲーム理論・ゲーム理論Ⅰ （第４回）第3章完全情報の展開形ゲーム

近似アルゴリズム第１０章終了時刻最小化スケジューリング

シミュレーション論Ⅰ 第13回意思決定とシミュレーション.

ゲーム理論・ゲーム理論Ⅰ （第８回）第５章不完全競争市場の応用

© Yukiko Abe 2014 All rights reserved

上級価格理論ＩＩ第3回 2011年後期中村さやか.

ゲーム理論・ゲーム理論Ⅰ （第６回）第４章戦略形ゲームの応用

新ゲーム理論ゼミ第５章「繰り返しゲーム」 M1 松村草也.

データ構造とアルゴリズム理工学部情報システム工学科新田直也.

人工知能第3回探索法（教科書21ページ～30ページ）

アルゴリズムとデータ構造 2012年7月23日

初級ミクロ経済学－ゲーム理論入門－ 2014年12月19日古川徹也 2014/12/19.

法と経済学(file 6) ゲーム理論２今日の講義の目的（１）展開型ゲームという考え方を理解する（２）後方帰納法の考え方を理解する

10.Private Strategies in Games with Imperfect Public Monitoring

政策決定のプロセス政策過程論公共選択ゲームの理論.

ゲームプレイング (Game Playing)

ゲームプレイング (Game Playing)

ゲームプレイング (Game Playing)

初級ミクロ経済学－ゲーム理論入門－ 2014年12月15日古川徹也 2014年12月15日初級ミクロ経済学.

ゲーム理論・ゲーム理論Ⅰ（第３回）第2章戦略形ゲームの基礎

人工知能概論第6章　確率とベイズ理論の基礎.

データ構造とアルゴリズム知能情報学部新田直也.

アルゴリズムとデータ構造 2011年7月14日

単位おねだり ☆オセロおねだり隊☆D班.

特殊講義（経済理論）B/初級ミクロ経済学

計算量理論輪講岩間研究室照山順一.

JAVAでつくるオセロ伊東飛鳥、宮島雄一長畑弘樹、ソギ原直人.

慶應義塾大学経済学部グレーヴァ香子 Takako Fujiwara-Greve

新ゲーム理論第Ⅰ部非協力ゲームの理論第1章非協力ゲームの戦略形

シミュレーション論Ⅰ 第11回意思決定とシミュレーション.

パソコンでゲームの理論第1,2章ゼロ和２人ゲームゼミ合宿東京理科大学理学部第２部数学科・統計学ゼミ

第Ⅱ部　協力ゲームの理論第9章　シャープレイ値.

シミュレーション論 Ⅱ 第１４回まとめ.

シミュレーション論 Ⅱ 第１５回まとめ.

データ解析静岡大学工学部安藤和敏

経済学とは経済学は、経済活動を研究対象とする学問。経済活動とは？生産・取引・消費等なぜ、経済活動を行うのか？

人工知能概論第2回探索(1) 状態空間モデル，基本的な探索

第Ⅱ部　協力ゲームの理論第10章　コア 2008/07/01(火) ゲーム理論合宿.

４人版リバーシYoninの解析情報論理研究室藤本侑花

G班メンバーリーダー橋本望 SE 北本理紗と服部友哉 PPT作成橋本望と山田侑加

京都大学大学院情報学研究科宮川博光伊藤大雄

様々な情報源（４章）.

モンテカルロ法を用いた立体四目並べの対戦プログラム

Problem L: シャノワール問題作成：高橋解法作成：安達・高橋・前原解説：安達.

第Ⅱ部　協力ゲームの理論第7章　提携形ゲームと配分 2008/07/01(火) ゲーム理論合宿Ｍ１　藤井敬士.

近畿大学理工学部情報学科情報論理工学部研究室潘小月

第Ⅱ部　協力ゲームの理論第14章　交渉集合.

数値解析Ⅱ ～五目並べのプログラミング～Ｃ班.

or-8. ゲーム理論（オペレーションズリサーチを Excel で実習するシリーズ）

囚人のジレンマ ―― 裏切りのインセンティブ ――

コストのついたグラフの探索分枝限定法 A*アルゴリズム.

第Ⅰ部　非協力ゲームの理論第6章　情報の価値 2008/07/01(火) ゲーム理論合宿Ｍ２　渡辺美穂.

Othello Ｇ班　　　　　　　　　山崎　木下　山本　上手　　　　　　.

情報論理工学研究室第8回：ミニマックス法.

情報数理Ⅱ 第10章　オートマトン平成28年12月21日.

京都大学情報学研究科通信情報システム専攻高田智史 joint work with 伊藤大雄中村義作

Presentation transcript:

人工知能概論第4回探索（３）ゲームの理論

Information このスライドは「イラストで学ぶ人工知能概論」を講義で活用したり，勉強会で利用したりするために提供されているスライドです．

STORY 探索(3) ホイールダック２号は一つ誤解をしていた．迷路の中ではとにかくまっすぐゴールに向かえばよいわけではない．迷路にはホイールダック２号を邪魔しようとする敵がいる．これとぶつかると何かと面倒である．敵がどのように行動するのかを先読みしながら迷路を抜けなければならない．

仮定探索(3) ホイールダック２号は自分と敵の行動に対する利得を知っている．仮定探索(3) ホイールダック２号は自分と敵の行動に対する利得を知っている．ホイールダック２号は自らの行動に対する結果を確実に予測できるものとする．敵は合理的(rational, p.46)に行動する．ホイールダック２号も敵も物理的につながっている場所・状態には意図すれば確定的に移動することができるものとする．

Contents 4.1 利得と回避行動 4.2 標準型ゲーム 4.3 展開型ゲーム

4.1.1 はじめにホイールダック２号はどうすべきか？

利得行列プレイヤーが二人の場合には，各プレイヤーの行動を行列の行と列に書き，それぞれの交わるセルに，それぞれのプレイヤーが得る利得を書いたものを利得行列と呼ぶ．一般の行列とは異なり，双行列(bimatrix)と呼ばれる．プレイヤー２の行動プレイヤー１の行動左がプレイヤー１，右がプレイヤー２の利得

4.1.2 ケース1：敵はホイールダック2 号を捕まえたいホイールダック2 号にとっては上に移動すると敵にぶつかってしまうが，まだ利得が−5 で済むため，上への移動を選ぶのが最適な選択となる． CW = −5, CE = 3,DW = DE = −2

4.1.3 ケース2：少しだけ敵のモチベーションが下がったら？敵は左へ行くことが最適したがって、ホイールダック2 号は右に行く、つまり×印で−3 のダメージを受けるだけで，ゴールにたどり着ける．少しの利得の違いでとるべき行動が変化する． CW = −5, CE = 3-1,DW = DE = −2-1 主体の意思決定が混ざり合って状況が決定する系をゲームと呼ぶ

Contents 4.1 利得と回避行動 4.2 標準型ゲーム 4.3 展開型ゲーム

4.2.1 はじめに/ 標準型ゲームゲーム理論複数のプレイヤの意志決定を扱う理論 1944年ジョン・フォン・ノイマン，オスカー・モルゲンシュテルン「ゲームの理論と経済行動」基本的な用語の定義プレイヤ　意志決定を行なう個々の主体．複数存在する．行動　プレイヤの選択．戦略と呼ぶこともある．探索の作用素に相当．利得　プレイヤの行動の組み合わせに対して定義される数値．結果に対する各プレイヤの効用を示す．大きいほうがより嬉しいとする．合理的　各プレイヤは自分の利益を最大化しようと最大限の努力をする．利己的(selfish) と呼ぶこともあるが，ニュアンス的に誤解がある．英語ではrational．均衡　合理的な意思決定の結果として，自ずと決まる全プレイヤーの行動の落ち着く先．

4.2.4 支配戦略均衡相手の行動が何であろうが，その行動をとった方が高い利得を得られる行動を支配戦略という．支配戦略が存在すればゲームの状態は支配戦略均衡に至る(前提：合理性）エネルギー供給装置

4.2.5 ナッシュ均衡ナッシュ均衡：行動の組(ホイールダック2 号の行動, 敵の行動) が互いに相手の行動に対する最適どのプレイヤも自分だけ行動を変えても利得が増えない状況

「白状したらおまえだけは助けてやるぞ！」 4.2.6 囚人のジレンマナッシュ均衡は必ずしも全体として良い状態に至るわけではない．・・・・・・・・・・「白状したらおまえだけは助けてやるぞ！」

4.2.7 ゼロサム・ゲームゼロサム・ゲームはプレイヤーの利得の総和が0 になるゲームであり，特にプレイヤーが2 名の場合はプレイヤー1 の利得をr とすると，プレイヤー2 の利得は-r となることになる．双行列で書く必要がない

4.2.8 ミニマックス戦略相手プレイヤーの利得を最小化(minimize)し，自らの利得を最大化(maximize)する戦略ナッシュ均衡を実現する．

Contents 4.1 利得と回避行動 4.2 標準型ゲーム 4.3 展開型ゲーム

4.3.1 展開型ゲーム実際のゲームは一度きりの意思決定ではなく，多段階の意思決定を含む．このようなゲームを展開型ゲームという．オセロやチェスなど多くのゲームは展開型ゲームでモデル化できる．ゲーム木で表現できる．先手の手番後手の手番最終的に先手が得る利得

演習問題4-1 交互ジャンケン順番にジャンケンを出すゲームをする．相手に勝つ手を出すと，自分にその指の本数分だけ得点になる．（負けた場合と引き分けの場合、得点は変化しない．）自分がパーを出した状態を初期状態としてスタート。初期状態→相手→自分の一往復で終了する際のゲーム木は以下のようになる．ゲーム木の葉ノードに評価値を記入せよ．ただし評価値は評価値 = 自分の得点 – 相手の得点　とする．

4.3.3 ミニマックス法「先手が最も低い利得になる」手を後手がとることを前提として，先手は自分にとり高い利得が得られる行動を選択する．

演習問題4-2 交互ジャンケン min-max法このゲームに先手は勝つことができるか？このゲームにおける最後の先手の最良の手を述べよ．もし，最初の一手を先手が選ぶことが出来れば先手は勝つことが出来るか？

アルファ・ベータ法 pruning = 枝刈りミニマックス法では盤面の局面を先読みすればするほど，良い手を選択し，ゲームを有利に進めていける．しかし，探索しすぎるとゲーム木の探索空間が膨大になる．ミニマックス法の性質を生かして，不必要な探索を避ける（サボる）ことができる．アルファ・ベータ法（αβ pruning） βカット(β pruning)　評価値最小化局面の枝刈り後手がわざわざ評価値の大きな手を打たないことを利用して，先手の行動（作用）をカット αカット(α pruning)　評価値最大化局面の枝刈り先手がわざわざ評価値の小さな手を打たないことを利用して，後手の行動（作用）をカット pruning = 枝刈り

βカット (β pruning)

αカット (α pruning)

演習問題4-3 交互ジャンケン αβカット 4-2 で考えた，交互ジャンケンについてαカット，もしくはβカットをする所はあるか？あるとすれば何処で生じるか？答えよ．

演習4-4 現実のゲームオセロはゲーム木で表現される種類のゲームである．オセロのゲーム木を表現し，勝利のための必勝法を計算したい．初手黒が置き，その後，交互に置いていく事を考えると，オセロの状態空間の大きさ（葉ノードの数）はどれくらいになるか？概算を求めよ．盤面は 8×8　である．近似として一回に置ける手は平均して5箇所程度であるとしてよい．

第4章のまとめプレイヤー，利得行列や合理的な行動といったゲーム理論における基本用語を学び，ゲーム理論の対象となるゲームとは何かを知った．支配戦略均衡やナッシュ均衡といった標準型ゲームにおける均衡概念の基礎について学んだ．展開型ゲームとそのゲーム木による表現について学んだ．展開型ゲームがゼロサム・ゲームであった場合について効率的に解を求めるミニマックス法を学んだ．ミニマックス法において解の探索を効率化するα カットとβ カットについて学んだ．

宿題章末問題の１を答えよ(演習4-1~4-3を含んでいる）。予習問題：第５章は「動的計画法」が重要なポイント答えは教科書の巻末に与えられているので、宿題としては特に(5)が答えのようになることの「理由説明」を中心とする予習問題：第５章は「動的計画法」が重要なポイント図5.5の初期値からアルゴリズム5.1によって、どのように図5.10という結果が得られるか、考えてみよ（次回講義の一つのポイント）