先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
ユーザーイメージ収集 インターフェイスの開発
ハノイグラフの生成と最短経路の導出 東京電機大学 理工学部 村田和也 松浦昭洋
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
強化学習 RT.
Scalable Collaborative Filtering Using Cluster-based Smoothing
先端論文紹介ゼミ Tracking control for nonholonomic mobile robots: Integrating the analog neural network into the backstepping technique 非ホロノミック移動ロボットのための追従制御:
シミュレーション論 Ⅱ 第12回 強化学習.
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
強化学習 RT.
プロジェクトの選択基準 と CBAの役割と限界
Probabilistic Method 6-3,4
制約条件の確率的選択に基づく 資源追加削減法の改良 三木 光範(同志社大工) 廣安 知之(同志社大工) ○小林 繁(同志社大院)
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
集団的意思決定支援法の実験環境に関する研究
A First Course in Combinatorial Optimization Chapter 3(前半)
プログラム実行履歴を用いたトランザクションファンクション抽出手法
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
Online Decoding of Markov Models under Latency Constraints
IIR輪講復習 #17 Hierarchical clustering
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
Internet広域分散協調サーチロボット の研究開発
Introduction to Soft Computing (第11回目)
Extractor D3 川原 純.
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
Data Clustering: A Review
様々な情報源(4章).
電機情報工学専門実験 6. 強化学習シミュレーション
モンテカルロ法を用いた 立体四目並べの対戦プログラム
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
遺伝アルゴリズムによる NQueen解法 ~問題特性に着目した突然変異方法の改善~
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
保守請負時を対象とした 労力見積のためのメトリクスの提案
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
原子核物理学 第7講 殻模型.
表紙 分散遺伝的アルゴリズムのための 新しい交叉法.
4.プッシュダウンオートマトンと 文脈自由文法の等価性
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
Jan 2015 Speaker: Kazuhiro Inaba
マルチエージェントシステムにおける 通信コストの構造依存性に関する解析
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
雑音環境下における Sparse Coding声質変換 3-P-49d
プログラム依存グラフを用いた ソースコードのパターン違反検出法
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning

目次 Abstract Introduction Collaborative multiagent MDPs and einforcement learning Role-based context-specific Q-learning Experiments Conclusion 2011/1/21 先端論文紹介ゼミ

Abstract マルチエージェント強化学習における主な問題はエージェント数に従い行動状態空間サイズが指数関数的に増大すること。 本稿では行動空間の増加を軽減するために「roles and context - specific coordination graphs」を利用する。 全体結合Q関数を部分的Q関数に分解する。 部分的Q関数は小グループのエージェントで構成され価値ルールの組で構成される。 自動的に各価値ルールの重みを学習するマルチエージェントQ学習アルゴリズムを提案する。 2011/1/21 先端論文紹介ゼミ

Role-based Context-specific Multiagent Q-learning Introduction マルチエージェントシステムとは複数のエージェントとの相互作用で共存するエージェント群。 マルチエージェントシステムの研究ではエージェントの行動管理の問題に焦点を当てている。 本稿では全てのエージェントが共通の目標をもつ完全集中型マルチエージェントシステムに焦点を当てる。 エージェントの個々の行動を確認するプロセスはグループ全体の最適政策を学習する。 2011/1/21 先端論文紹介ゼミ

Introduction マルチエージェントシステムを単一の「大きな」エージェントとして扱い、最適政策を学習させる方法。  マルチエージェントシステムを単一の「大きな」エージェントとして扱い、最適政策を学習させる方法。  行動空間が指数関数的に増加するため詳細な設計が難しい 各エージェントが独立した自身の政策を学習する方法。 各エージェントが他のエージェントの情報なしに学習を行う。  収束が学習エージェントの政策に依存するため、安定しない。 2011/1/21 先端論文紹介ゼミ

Introduction 行動空間のサイズを軽減するために最近の研究は“context-specific coordination graph (CG)”を使用する。 CGの考え方:  エージェントが個々に行動できる中で少数のエージェントの行動の調整を行う。 例)ロボットサッカーにおいて他のロボットが自己の独立した行動をするなかで、ボールの保持者やその周りのプレイヤーの行動を調整する必要がある。 2011/1/21 先端論文紹介ゼミ

Introduction 本論文ではCGに基づいたマルチエージェントQ学習を提案する。 オフライン設計段階では役割に対する価値ルールを定義する。 オンライン割り当て段階では、役割割当アルゴリズムを用いて、エージェントに役割を割当て、エージェントが役割に対応した価値ルールを得る。 提案手法ではCGの重みを学習する。 CGの重みはQ学習から派生した更新式を利用する。 2011/1/21 先端論文紹介ゼミ

Collaborative multiagent MDPs (CMMDP)and reinforcement learning CMMDPは5つの要素<n,S,A,R,T>より成り立つ。 (n:エージェント数、  S:有限状態空間、  A:行動空間、  R:報酬、  T:状態sのエージェントが行動aを選択し状態s’に遷移した場合に取る行動の確率) Q学習は以下の式を用いて更新される。 γは報酬割引率、αは学習率とする。 2011/1/21 先端論文紹介ゼミ

Collaborative multiagent MDPs (CMMDP)and reinforcement learning Joint action learners (JAL)   この手法はマルチエージェントシステム(MASの)を単一の「大きな」エージェントとして扱う。  エージェントの状態-行動の組は結合状態空間と元のMASの結合行動空間である。   「大きな」エージェントの学習にはQ学習を用いる。    欠点:   学習エージェントの状態と行動の組がエージェント数に従い指数関数的に増加する。 2011/1/21 先端論文紹介ゼミ

Collaborative multiagent MDPs (CMMDP)and reinforcement learning Independent learners (IL)   この手法はエージェントが他のエージェントの情報なしに独立した学習を行う。    指数関数的な結合行動空間を考慮する必要はない。    欠点:   他のエージェントの政策に依存するため、学習の収束が安定しない。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Context-specific coordination graphs and roles  協調の依存関係はCGを用いて表すことができる。  価値ルールはエージェントが協調行動を実行する文脈を定義する。  協調の依存関係をG=(V,E)で定義する。  全体結合Q関数を部分的Q関数の和で近似される。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Context-specific coordination graphs and roles  定義2:   価値ルール            は現在の状態がsであり、統一行動aを行った時、       となる。それ以外は0とする。  定義3: ここで 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Context-specific coordination graphs and roles  定義4:  「役割」の要素は          とする。 (m:役割の数、    :役割mに関連付けられておる価値ルールの組、   :はエージェントiが現在の状態で役割mが適当であるかのポテンシャル関数)  「役割」を2つの段階を用いてCGに内蔵する。 ・オフライン設計段階 ・オンライン割当段階 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Context-specific coordination graphs and roles  オフライン設計段階   エージェントに対する価値ルールの定義の代わりに役割に対する価値ルールを定義する。   エージェントに役割を割り当てる役割割当アルゴリズムを使用する。    エージェントは割り当てられた役割から価値ルールを得る。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Context-specific coordination graphs and roles 役割割当アルゴリズム  |M|>nのとき配列Mを定義する。(M:役割の数、n:エージェント数)  役割の重要度により順序付けされる。  同じ役割は複数のエージェントに割り当てることができる。  エージェントが複数の役割をもつことはできない。  エージェントiと役割mからポテンシャル を算出する。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Q-learning in context-specific coordination graphs 定義5: はエージェントiに対する部分的Q値        はエージェントiを含む価値ルール。 njはエージェントiを含むそのルールに関係するエージェントの数。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Q-learning in context-specific coordination graphs 定理1:価値ルール      は以下の式で更新する。    njはρjに関するエージェントの数。   niは状態sで統一行動aが一致しているインスタンスの価値ルールのエージェントiの出現回数。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning Q-learning in context-specific coordination graphs 学習アルゴリズム 2011/1/21 先端論文紹介ゼミ

Experiments 提案手法RQをJAL、ILと比較する。 問題設定は追跡問題を適用する。 10*10のグリッド平面に2体のハンターと1体の獲物を配置 ハンターと獲物の行動は上下左右静止の5行動。 獲物はランダム行動を行う。 捕獲条件は獲物と同セルおよび 隣接セルに両ハンターが移動。 2011/1/21 先端論文紹介ゼミ

Experiments RQアルゴリズムにおいて役割を二つ用意する。   capture:獲物を捕獲するように行動する。 Supporter:捕獲者のサポートをする行動を取る。 役割割当の配列 は となる。 captureの役割のポテンシャルはハンターと獲物のマンハッタン距離に基づく。 Where is the distance between predator i and the prey      2011/1/21 先端論文紹介ゼミ

Experiments 各ハンターが得る報酬は以下に示す。    2011/1/21 先端論文紹介ゼミ

Experiments 実行結果 手法 平均捕獲ステップ RQ 12.92 JAL 12.78 IL 17.02 2011/1/21 実行結果  手法 平均捕獲ステップ RQ 12.92 JAL 12.78 IL 17.02 2011/1/21 先端論文紹介ゼミ

Conclusion role-based context-specific multiagent Q-learning手法を提案。 Role and context-specific coordinarion graphsを使用。 自動的に各価値ルールの重みを学習するQ学習アルゴリズムを提案。 実験は従来のマルチエージェント強化学習より大幅に速い学習速度で同じ政策に収束することを示した。 2011/1/21 先端論文紹介ゼミ

ご清聴ありがとうございました。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning 補足1 例)状態sと状態s0が以下の規則をもつ。   エージェントは状態sに協調行動a={a1,a2,a3}を行い、状態はs’に遷移する。状態s’での最適行動は            である。   従って状態sにおいてルールρ1、ρ2、ρ4が表れ、状態s’においてルールρ5とρ7が表れる。 2011/1/21 先端論文紹介ゼミ

Role-based context-specific Q-learning 補足1 次のようにρ1、ρ2、ρ4を更新する。 2011/1/21 先端論文紹介ゼミ

Experiments 補足2:生成される価値ルールの一例 価値ルールρ1は捕獲者の役割が他の支援者となるハンターの支援がなくても獲物をほかうしようとするべきと示す。   ルールρ2は捕獲者が獲物の位置に動き、支援者が現在の位置で静止する連携文脈である。 2011/1/21 先端論文紹介ゼミ