評価関数を用いた エージェント間の交渉 5月28日 河目 瞬

Slides:



Advertisements
Similar presentations
多目的GAに対する パレート最適個体の分布制御 九州大学大学院工学府知能機械システム専攻徳井 宏司.
Advertisements

Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
がん患者の意思決定について がん患者の意思決定と、その過 程、要因について知る がん患者の意思決定への支援に ついて考える 先端侵襲緩和ケア 看護学 芦沢 佳津美.
新ゲーム理論 第Ⅰ部 非協力ゲームの理論 第2章 戦略形ゲームのナッシュ均衡
ゲーム理論・ゲーム理論Ⅰ(第2回) 第2章 戦略形ゲームの基礎
人工知能概論 第4回 探索(3) ゲームの理論.
緩和+分解+調整による 分散協調問題解決 神戸大学大学院海事科学研究科 平山 勝敏.
セキュアネットワーク符号化構成法に関する研究
( ) ( ) 行 列 式 置 換 n文字の置換σ: n個の文字{1,2,・・・,n}から自分自身への1対1の写像 1 2 ・・・ n
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
© Yukiko Abe 2014 All rights reserved
Scalable Collaborative Filtering Using Cluster-based Smoothing
上級価格理論II 第3回 2011年後期 中村さやか.
ゲーム理論・ゲーム理論Ⅰ (第6回) 第4章 戦略形ゲームの応用
Pattern Recognition and Machine Learning 1.5 決定理論
初級ミクロ経済学 -ゲーム理論入門- 2014年12月19日 古川徹也 2014/12/19.
法と経済学(file 6) ゲーム理論2 今日の講義の目的 (1)展開型ゲームという考え方を理解する (2)後方帰納法の考え方を理解する
10.Private Strategies in Games with Imperfect Public Monitoring
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
政策決定のプロセス 政策過程論 公共選択 ゲームの理論.
第2章補足Ⅱ 2項分布と正規分布についての補足
初級ミクロ経済学 -ゲーム理論入門- 2014年12月15日 古川徹也 2014年12月15日 初級ミクロ経済学.
ランダムウォークに関するいくつかの話題 ・ランダムウォークの破産問題 ・ランダムウォークの鏡像原理 1 小暮研究会Ⅰ 11月12日
ゲーム理論・ゲーム理論Ⅰ(第3回) 第2章 戦略形ゲームの基礎
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
プロジェクトの選択基準 と CBAの役割と限界
Probabilistic Method 6-3,4
統計学 11/08(木) 鈴木智也.
エージェントについて 上杉裕也.
5.5 The Linear Arboricity of Graphs (グラフの線形樹化数)
情報経済システム論:第11回 担当教員 黒田敏史 2018/9/20 情報経済システム論.
計算量理論輪講 岩間研究室 照山順一.
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
新ゲーム理論 第Ⅰ部 非協力ゲームの理論 第1章 非協力ゲームの戦略形
第13章 フォンノイマン/モルゲンシュテイン解
パソコンでゲームの理論 第1,2章 ゼロ和2人ゲーム ゼミ合宿 東京理科大学理学部第2部数学科・統計学ゼミ
第Ⅱ部 協力ゲームの理論 第9章 シャープレイ値.
第Ⅱ部 協力ゲームの理論 第7章 交渉問題 2008/07/01(火) ゲーム理論合宿 M1 北川直樹.
7-3.高度な木 (平衡木) AVL木 平衡2分木。回転操作に基づくバランス回復機構により平衡を保つ。 B木
情報学研究科 通信情報システム専攻 小野寺研究室 M1 奥村 佳弘
応用社会システム計画 (第10回) ここで、学習すること 学籍番号: 氏名: ■これまでの講義内容の整理 ■計画問題の設定と手法
シャノンのスイッチングゲームにおけるペアリング戦略について
シャノンのスイッチングゲームにおけるペアリング戦略の複雑さについて
6.大人数クラスの運営法 ゲーム理論 出席の取り方 まわし方(4通り) →出席表を2回まわす 1回目10:50~ 2回目11:20~
論文紹介 Query Incentive Networks
ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
第9章 混合モデルとEM 修士2年 北川直樹.
Probabilistic Method 2007/11/02 岩間研究室M1 市場孝之.
7.4 Two General Settings D3 杉原堅也.
第Ⅱ部 協力ゲームの理論 第10章 コア 2008/07/01(火) ゲーム理論合宿.
市場均衡と厚生経済学の基本定理 部分均衡分析での結果 厚生経済学の基本定理 消費者余剰,生産者余剰,社会的余剰 Pareto効率性
早わかりアントコロニー最適化 (Ant Colony Optimization)
Selfish Routing and the Price of Anarchy 4.3
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
ファジィ制約充足問題への 連続領域の導入 Introducing continuous domains to
任意数の制約階層化 2007/10/31 上田研究室 M2 西村 光弘.
シグナルとしての企業の債務 担当  岩永 剛 2005/7/11.
電機情報工学専門実験 6. 強化学習シミュレーション
4. システムの安定性.
Data Clustering: A Review
Selfish Routing 4章前半 岡本 和也.
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
第Ⅱ部 協力ゲームの理論 第14章 交渉集合.
計算の理論 I NFAとDFAの等価性 火曜3校時 大月 美佳 平成16年5月18日 佐賀大学理工学部知能情報システム学科.
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
第Ⅰ部 非協力ゲームの理論 第6章 情報の価値 2008/07/01(火) ゲーム理論合宿 M2 渡辺美穂.
マルチエージェントシステムにおける 通信コストの構造依存性に関する解析
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

評価関数を用いた エージェント間の交渉 5月28日 河目 瞬 河目 瞬 Artifical Intelligence 84(1996) 151-176 『Compromise in negotiation : exploing worth functions over states』 Gilad Zlotkin , Jeffrey S. Rosenschein

2人で野球観戦に行きたい 2人で映画を見に行きたい 話し合い エージェント1 エージェント2 どうする?

例:ミーティングの設定

・時間帯が遅くなってから行いたい。 ・自分のオフィスで行いたい。 二人はミーティングを行いたい ・時間帯が早いうちに行いたい。 エージェントA1 二人はミーティングを行いたい ・時間帯が早いうちに行いたい。 ・自分のオフィスで行いたい。 エージェントA2

価値の概念の導入 エージェントにとって、どれだけ好ま しい状態なのかを表す指標 状態に価値を与える

A1にとって、午後4時の ミーティングが最も高い価値 エージェントA1の評価関数 エージェントA1の 最も好ましい時間帯が、 午後4時であるとする ミーティングの時刻 A1にとって、午後4時の ミーティングが最も高い価値

A2にとって、午前9時の ミーティングが最も高い価値 エージェントA2の評価関数 エージェントA2の 最も好ましい時間帯が、 午前9時であるとする 価値 ミーティングの時刻 A2にとって、午前9時の ミーティングが最も高い価値

A1にとって、A1オフィスでの ミーティングが最も低いコスト エージェントA1のコスト関数 エージェントA1にとって、 自分のオフィスに近いほ ど、移動コストがかからな い A1オフィス A2オフィス ミーティングの場所 A1にとって、A1オフィスでの ミーティングが最も低いコスト

A2にとって、A2オフィスでの ミーティングが最も低いコスト エージェントA2のコスト関数 エージェントA2にとって、 自分のオフィスに近いほ ど、移動コストがかからな い コスト A2オフィス A1オフィス ミーティングの場所 A2にとって、A2オフィスでの ミーティングが最も低いコスト

ユーティリティの定義 双方のエージェントにとって、ユーティリティとは、 ユーティリティ=価値ーコスト エージェントは、これを最大にしたい

4pm、A1オフィスでの ユーティリティが最大 エージェントA1のユーティリティ関数 エージェントA1にとって 午後4時に、 ことが最も好ましい ユーティリティ A1オフィス A2オフィス 4pm、A1オフィスでの ユーティリティが最大

9am、A2オフィスでの ユーティリティが最大 エージェントA2のユーティリティ関数 エージェントA2にとって 午前9時に、 ことが最も好ましい ユーティリティ A2オフィス A1オフィス 9am、A2オフィスでの ユーティリティが最大

2人のユーティリティの和を最大にする 2人のユーティリティの積を最大にする 2人のエージェントの話し合いの結果として・・・ 2人のユーティリティの兼ね合い が、最大になる点を結論として考 える 2人のユーティリティの和を最大にする 2人のユーティリティの積を最大にする 2つのアプローチの仕方がある

2人のユーティリティの和を最大にする 上の4つの状態が、 ミーティングの行われる状態となる 2人のユーティリティの和 が最大となる点を、 話し合いの解決とする ユーティリティの和 A2オフィス A1オフィス 上の4つの状態が、 ミーティングの行われる状態となる

2人のユーティリティの積を最大にする 上の2つの状態が、 ミーティングの行われる状態となる 2人のユーティリティの積 が最大となる点を、 話し合いの解決とする ユーティリティの積 A2オフィス A1オフィス 上の2つの状態が、 ミーティングの行われる状態となる

2人のユーティリティの積を最大にする ゲーム理論の「ナッシュの定理」に基づくもの。 「ナッシュの定理」とは? 2人交渉問題のナッシュ解は、5つの公準を満たし、かつ、この5つの公準を満たす解は、ナッシュ解に限る。 ナッシュ解:2人のユーティリティの積を         最大にする解

5つの公準 (1)個人合理性 (2)共同合理性 (3)利得の一次変換での不変性 (4)対称性 (5)無関連な代替案からの独立性

つまり 2人のユーティリティの積を最大にする解 5つの公準を満たす唯一解である 5つの公準とは、交渉の特性を述べている 交渉問題において、適切と思われるのは、 ユーティリティの積を最大にする解である

WODの定義 (Worth Oriented Domains:価値指向領域)

WOD (Worth Oriented Domains) て、全ての状態に価値を割り当てている。 < S, A , J , c > S: 領域の状態 A: エージェント J: 共同プラン c : コスト関数

< S, A , J , c > S: 全ての取り得る、領域の状態の集合 A={A1,A2,・・・,An}:エージェントリスト j:S→S    j∈J c: コスト関数 c:J→(R+)n c(j)i : プラン j におけるエージェント iの 活動のコスト

<s, (W1,W2,・・・Wn)> s : 領域の初期状態 Wk : エージェント k の評価関数 さらに WOD内で問題を解くために、まずあるものとして、 <s, (W1,W2,・・・Wn)> s : 領域の初期状態 Wk : エージェント k の評価関数

交渉のエージェントに関する5つの仮定 (1) Utility maximizer (2) Complete knowledge 各々のエージェントは、彼の期待したユーティリティを最大にすることを望む (2) Complete knowledge 各々のエージェントは、全ての関連情報を知っている

(3) Isolated negotiation 各々のエージェントは、現在の振る舞いが将来の交 渉においてどんな影響を及ぼすか予期することがで きない。 (4) Bilateral negotiation 交渉は一度に、エージェントのペア一組の間で行われる。

(5) Symmetric abilities 全てのエージェントは、同じ活動が実行できる。 そして、活動のコストは、各エージェントにとって同じ である。

例:ブロック移動問題  (1人のエージェントのみ)

①黒い箱をテーブル2に置きたい。ただし、  直接テーブルの上には置かない。 ②白い箱をテーブル3にひとつだけで置  きたい。 エージェントA1 箱を持ち上げるコスト:1 箱を下ろすコスト:1 1 2 3 4 ①のサブゴールの評価:4 ②のサブゴールの評価:6

f1 f2 f3 コスト2 サブゴール①を満たしている コスト4 サブゴール②を満たしている コスト8 両方のサブゴールを満たしている 1 4

f1の状態  W4-C2=U2 W:評価(価値) C:コスト U:ユーティリティ f2の状態  W6-C4=U2 f3の状態 W(4+6)-C8=U2 3つの状態が皆同じユーティリティ。

ペナルティを導入 f1の状態 W4-C2ーペナルティ6=U-4 f2の状態 W6-C4ーペナルティ4=U-2 f3の状態 サブゴールの不達成 に対し、負の評価を与える ペナルティを導入 f1の状態  W4-C2ーペナルティ6=U-4 f2の状態  W6-C4ーペナルティ4=U-2 f3の状態  W(4+6)-C8ーペナルティ0=U2 f3の状態が、最良の状態。

例:ブロック移動問題  (2人のエージェントによる)

混合共同プランの導入 ・混合共同プランとは? エージェントが、確率pで共同プランj=(j1、j2)

①の評価:10 ②の評価:4 サブゴールの不達成による ペナルティ:①②ともにー2 1 2 3 4 ①黒い箱はテーブル1に置くが、その際、白い箱の上に置く。 ②灰色の箱はテーブル3に置く ①の評価:10 ②の評価:4 サブゴールの不達成による ペナルティ:①②ともにー2 エージェントA2 エージェントA1 1 2 3 4 ①黒い箱はテーブル1に置くが、その際、白い箱の上に置く。 ②灰色の箱はテーブル4に置く

両者が、サブゴール①を満たすには・・・ 各々コスト2 灰色の箱を置く場所 によって2つの最終 状態がある 1 2 3 4

この状態にする プランδ1 エージェントA1が望む状態 この状態にする プランδ2 エージェントA2が望む状態

ユーティリティを計算すると・・・ UA1(δ1)=W(10+4)-C(2+2)=10 UA1(δ2)=W10ーペナルティ2ーC2=6 UA2(δ1)=UA1(δ2)=6 UA2(δ2)=UA1(δ1)=10 1人で完全なゴールを達 成するよりもUがいい。 コスト10  U=W(10+4)-C10=4

マルチプランdealの導入 ・マルチプランdealとは? エージェントが、確率qで混合共同プランδ1を 実行し、また確率1ーqで対称的な混合共同プラ ンδ2を実行する。

この状態にする プランδ1 エージェントA1が望む状態 確率q この状態にする プランδ2 エージェントA2が望む状態 確率1-q

マルチプランdealにおけるユーティリティの定義 エージェントのユーティリティ    =q×(δ1でのユーティリティ)      +(1-q)×(δ2でのユーティリティ)

A1ユーティリティ10 A2ユーティリティ6 この状態にする プランδ1 エージェントA1が望む状態 確率0.5 A1ユーティリティ6 A2ユーティリティ10 この状態にする プランδ2 エージェントA2が望む状態 確率0.5

UA1 =0.5×10+0.5×6=8 UA2 =0.5×6+0.5×10=8 UA1 × UA2 = 8×8=64 ユーティリティを計算すると・・・ UA1 =0.5×10+0.5×6=8 UA2 =0.5×6+0.5×10=8 UA1 × UA2 = 8×8=64

A1ユーティリティ10 A2ユーティリティ6 この状態にする プランδ1 エージェントA1が望む状態 A1ユーティリティ6 A2ユーティリティ10 この状態にする プランδ2 エージェントA2が望む状態

例:タイルワールド

2 2 5 2 5 2 穴(数字は、埋めた時の価値) エージェント 障害物 エージェントに よって違う価値を 当てられている穴 A2 A1 2 2 5 2 5 エージェント 障害物 エージェントに よって違う価値を 当てられている穴 4 3 2 タイル(これで穴を埋める)

1マス移動でコスト1 A 2 A A A A A

10 0 9 15 9 0 5 A2 A1 世界の初期状態 1 1 5 10

10 9 15 コスト10 5 エージェントA1が 1人で15の穴を塞ごうとすると・・・ 1 ユーティリティ5 1 5 10 A1 A1 A1 A1 A1 A1 A1 A1 A1 A1 コスト10 5 A1 エージェントA1が 1人で15の穴を塞ごうとすると・・・ 1 ユーティリティ5 1 5 10

10 9 15 コスト12 5 エージェントA1が 1人で9の穴を塞ごうとすると・・・ 1 ユーティリティ-3 1 5 10 A1 A1 A1 A1 A1 A1 A1 コスト12 5 A1 エージェントA1が 1人で9の穴を塞ごうとすると・・・ 1 ユーティリティ-3 1 5 10

10 9 15 コスト16 5 エージェントA1が 1人で両方の穴を塞ごうとすると・・・ 1 ユーティリティ8 1 5 10 A1 A1 A1 A1 A1 A1 A1 A1 A1 A1 コスト16 5 A1 エージェントA1が 1人で両方の穴を塞ごうとすると・・・ 1 ユーティリティ8 1 5 10

エージェントA1 15の穴のみを塞ぐ:ユーティリティ5 9の穴のみを塞ぐ:ユーティリティ-3 両方の穴を塞ぐ:ユーティリティ8 A1は両方の穴を塞いで、 最大ユーティリティ8を得る。

10 15 9 コスト10 5 エージェントA2が 1人で15の穴を塞ごうとすると・・・ 1 ユーティリティ5 1 5 10 A2 A2 15 A2 A2 A2 A2 A2 9 A2 A2 A2 A2 A2 コスト10 5 A2 エージェントA2が 1人で15の穴を塞ごうとすると・・・ 1 ユーティリティ5 1 5 10

10 15 9 コスト6 5 エージェントA2が 1人で9の穴を塞ごうとすると・・・ 1 ユーティリティ3 1 5 10 A2 A2 A2 15 A2 A2 9 A2 A2 コスト6 5 A2 A2 A2 エージェントA2が 1人で9の穴を塞ごうとすると・・・ 1 ユーティリティ3 1 5 10

10 15 9 コスト22 5 エージェントA2が 1人で両方の穴を塞ごうとすると・・・ 1 ユーティリティ2 1 5 10 A2 A2 A2 15 A2 A2 A2 A2 9 A2 A2 A2 A2 A2 A2 A2 コスト22 5 A2 エージェントA2が 1人で両方の穴を塞ごうとすると・・・ 1 ユーティリティ2 1 5 10

エージェントA2 15の穴のみを塞ぐ:ユーティリティ5 9の穴のみを塞ぐ:ユーティリティ3 両方の穴を塞ぐ:ユーティリティ2 A2は15の穴のみを塞いで、 最大ユーティリティ5を得る。

10 15 A1コスト8 A2コスト5 5 2人のエージェントが A1の両方の穴を塞ごうとすると・・・ 1 A1ユーティリティ16 0 A1 A1 A1 9 15 A2 A1 A2 A1コスト8 A2 9 A1 0 A2 A1 A2コスト5 5 A2 A1 A1 A1 2人のエージェントが A1の両方の穴を塞ごうとすると・・・ 1 A1ユーティリティ16 A2ユーティリティ10 1 5 10

10 15 A1コスト4 A2コスト9 5 2人のエージェントが A2の両方の穴を塞ごうとすると・・・ 1 A1ユーティリティ11 0 9 15 A2 A2 A1コスト4 A2 9 A1 A1 0 A2 A1 A2コスト9 5 A2 A2 A2 A1 2人のエージェントが A2の両方の穴を塞ごうとすると・・・ 1 A1ユーティリティ11 A2ユーティリティ15 1 5 10

2人のエージェント A1の穴を両方を塞ぐ:       A1ユーティリティ16       A2ユーティリティ10 160 A2の穴を両方を塞ぐ:       A1ユーティリティ11       A2ユーティリティ15 165 2人は、A2の穴を両方塞ぐ

A1の穴を両方を塞ぐ: A1ユーティリティ16 A2ユーティリティ10 確率0.6 A2の穴を両方を塞ぐ: A1ユーティリティ11 マルチプランdealを適用させる A1の穴を両方を塞ぐ:     A1ユーティリティ16     A2ユーティリティ10 確率0.6 A2の穴を両方を塞ぐ:     A1ユーティリティ11     A2ユーティリティ15 確率0.4

UA1 =0.6×16+0.4×11=13 UA2 =0.4×10+0.6×15=13 UA1 × UA2 = 13×13=169 ユーティリティを計算すると・・・ UA1 =0.6×16+0.4×11=13 UA2 =0.4×10+0.6×15=13 UA1 × UA2 = 13×13=169

・交渉問題を考える手法のひとつとして、WODを紹介した。 まとめ ・交渉問題を考える手法のひとつとして、WODを紹介した。 ・WODを使った例をいくつか紹介した。 参考文献 ・『新ゲーム理論』                  鈴木 光男 ・『分散人工知能:交渉と均衡化』  桑原 和宏、石田 亨              ・『意思決定支援のためのマルチエージェントの協調機構と、   その応用に関する研究』             伊藤孝行