ベイジアンネット混合モデルによる 強化学習エージェントの方策改善

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

OWL-Sを用いたWebアプリケーションの検査と生成
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
ラベル付き区間グラフを列挙するBDDとその応用
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
強化学習 RT.
神奈川大学大学院工学研究科 電気電子情報工学専攻
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
シミュレーション論 Ⅱ 第12回 強化学習.
時空間データからのオブジェクトベース知識発見
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
雑音重み推定と音声 GMMを用いた雑音除去
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
強化学習 RT.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
マイクロシミュレーションにおける 可変属性セル問題と解法
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
Semi-Supervised QA with Generative Domain-Adaptive Nets
小標本検査データを元にした 疲労破損率のベイズ推定
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
静的情報と動的情報を用いた プログラムスライス計算法
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
第14章 モデルの結合 修士2年 山川佳洋.
WWW上の効率的な ハブ探索法の提案と実装
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
早わかりアントコロニー最適化 (Ant Colony Optimization)
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
強化学習におけるマクロを用いた 行動系列の獲得
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
バイトコードを単位とするJavaスライスシステムの試作
電機情報工学専門実験 6. 強化学習シミュレーション
適応的近傍を持つ シミュレーテッドアニーリングの性能
音声情報とベイジアンネットを 用いた感性情報処理システム
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
ベイズ最適化 Bayesian Optimization BO
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
HMM音声合成における 変分ベイズ法に基づく線形回帰
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
保守請負時を対象とした 労力見積のためのメトリクスの提案
ベイズ音声合成における 事前分布とモデル構造の話者間共有
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
実験計画法 Design of Experiments (DoE)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

ベイジアンネット混合モデルによる 強化学習エージェントの方策改善 発表者 北越 大輔 室蘭工業大学 2003年12月19日

背景 強化学習(RL) ・・・ 外界からの報酬を手がかりに環境に適応する ため、方策(policy)を最適化することを目的 状態と行動のペア(ルール)の系列と報酬からなるデータ生成 エージェントの方策学習の過程 データから構造決定したベイジアンネット(BN)を、エージェントの確率的知識として利用した方策改善システムを提案 (北越ら 2003) ・BNから得られる情報 ・・・ 方策に対する教師信号的な役割 ・システムによる方策改善 ・・・ 情報を用いたある種の教師有り学習

・ ルール重みの更新にBNを利用することで、より良い方策を獲得可能 背景 過去に提案した方策改善システム ・ BN ・・・ 環境を特徴付ける確率的知識表現 ・ ルール重みの更新にBNを利用することで、より良い方策を獲得可能 ・ 環境を静的なものと仮定 BN ( ) 環境 A (EA ) New BN ( ) 新規環境 B (EB ) 動的な環境への適応が課題

背景 … システムを改良 本研究では ・ 動的、未知環境へエージェントを適応させるべく、過去の  システムを改良 ・ BN混合モデルを用いたRLエージェント の方策改善システム(IPMBN)を提案 環境 A (EA ) BN 1 BN 2 BN n … BN混合モデル 新規環境 B (EB ) BN混合モデルが新規環境に対応    過去のBNを用いて未知環境に対応可能

背景 IPMBNにおいて エージェント : 利益共有法によって自身の方策を学習 BN混合モデル : エージェントの確率的知識として導入 以降の発表のながれ 準備 (利益共有法、ベイジアンネット) IPMBNの構成 適用例(エージェントナビゲーション問題) 実験結果・考察 まとめ

S: 取りうる状態の集合 A: 出力する行動の集合 2.1 利益共有法(1) 利益共有法 ・・・ 経験強化型学習法の一つ 方策 : 関数 w によって与えられる S: 取りうる状態の集合 A: 出力する行動の集合 状態、行動の対 (s, a) ( ) : ルール w(s, a) : ルール (s, a) の重み

2.1 利益共有法(2) 利益共有法では エージェントの選択した初期ルール(もしくは報酬獲得時のルール)から次に報酬が得られるまでのルール系列をエピソード                 = {(s1, a1), …, (sC, aC)} として保存(C: 中のルール数) f(i) : 強化関数 γ : 減衰率 (0 <γ ≤ 1) エージェントが状態 sC において行動 aC を選択した結果、報酬 r を得た時、エピソード中のルール系列の重みを更新

MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索 2.2 ベイジアンネット (1) IPMBNにおいて ベイジアンネット(BN) : 方策改善用の確率的知識表現として利用 BNの構造 エージェントの方策学習を通じて得られるルール系列と報酬をサンプルデータ D として、MDL(minimum description length)基準によって決定 N : サンプルデータ数  : パラメータ d : パラメータ数 MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索

3.1 過去に提案した方策改善システム 確率的知識表現(BN)部を除き、IPMBNと同様の構成 単一のBNを用いる代わりに、BN混合モデルを利用 図: 過去の方策改善システムの枠組み

3.2 IPMBNの構成 (1) エージェントのセンサ入力の 観測状態ノード ・・・ 全体集合 S の各要素に対応 Xs1 ,…., Xsm ( m = |S| ) ルール集合 確率変数値 : における行動 a に割り当てた整数値 (以降 と表す) 報酬ノード Xr 正の報酬の有無に対応 (確率変数値は{1,0}) ・・・

3.2 IPMBNの構成 (2) 環境変化が生じた際 : BN混合モデル生成のため、各環境において構造決定されたBNを蓄積

3.2 IPMBNの構成 (3) rimp : 定数 エージェントの方策 学習と同時にサンプル データ D を収集 サンプルデータ : ルール系列 {(s1 , a1), …, (sL , aL)}             と報酬 r を蓄積          L : 系列中のルール数 2. BNの構造決定 Xr および特定数の状態ノードを有するBNの構造を、サンプルデータをもとに決定 3.   を最大化する行動    を選択 : BNi においてXr とのリンクが存在する状態ノード 4. ルール重み を更新 rimp : 定数 が BNi において Xr とリンクしている場合 それ以外の場合

4 適用例(1) = エージェントナビゲーション問題 目的:エージェントが初期位置からゴールまで到達すること 環境 EC : EA と EB を重ね合わせたものと等しいと見なせる Environment A (EA) Environment B (EB) ゴールへの到達 ゴール領域 (G) へのエージェントの接触. = Environment C (EC) 図: 実験環境

4 適用例(2) エージェントの設定 1. 半径Vr 内の壁・ゴールを感知可能 2. 8方向への移動、および停止のいずれかの行動を出力 2. 8方向への移動、および停止のいずれかの行動を出力 3. 初期エネルギ E0 を有し、移動時、壁接触時には E- 、停止時には Estay を消費 1試行:エージェントがゴールへ到達 or 全エネルギーを消費 成功試行 失敗試行 報酬 エージェントがゴールを感知もしくは ゴールへ到達 した場合・・・ rp (> 0)

Table 1: The settings of each variable 4 適用例(3) Table 1: The settings of each variable : ルール重みの初期値 : 最小値 : 最大値 1.環境 EA(EB)において、エージェントが利益共有法によって1000試行の方策学習を行った後、環境についての          の構造を決定 2.環境を EC へと切り替え、    のみ、    のみ、および         による 混合モデルを用いた3種類によって方策改善し、再び1000試行の方策学習を行う

4 適用例(4) 1000試行 1000試行 Mix-a : IPMBNにより方策改善 利益共有法 利益共有法 1000試行 1000試行 4種類の方策改善法 1000試行 1000試行 Mix-a : IPMBNにより方策改善 (Mix-b) 利益共有法 利益共有法    の混合率 EA を EC へと切り替え (EB) 1000試行 1000試行 Uni-a :      により方策改善 (Uni-b) 利益共有法 利益共有法 BNの有するノード数 = 6 ( 報酬ノードXr、およびXr=1の時サンプルデータ中に含まれる頻度の高い   5 状態ノード) 実験回数:各混合率における4種類の方策改善法について10回づつ実施

5 実験結果・考察 (1) Xr : 報酬ノード Xs1~Xs81 : 状態ノード ( s1 : 何も感知しない, s2 : 壁の位置情報, …) 図: 構造決定されたBNの例

5 実験結果・考察 (2) 環境 EA → EC 、および 方策改善後における、 100試行あたりの成功試行の割合(成功率) の推移 図: Mix-a および Uni-a における成功率の推移 各βにおける Mix-a の成功率 > Uni-a における成功率

5 実験結果・考察 (4) EB → EC 、方策改善後における成功率の推移 1000試行の前半:全ての場合における成功率は同程度 図: Mix-b および Uni-b における成功率の推移 1000試行の前半:全ての場合における成功率は同程度 後半:Mix-b (   = 0.2 , 0.5 ) の成功率 > Uni-b の成功率

5 実験結果・考察 (5) ≫ ≫ EB EC 表: 方策改善後100試行での成功率※ Mix(Uni)-a の成功率 ≫ ※ : 成功率の値は3種類の     における平均値 表: 方策改善後100試行での成功率※ ≫ ≫ Mix(Uni)-a の成功率 ≫ Mix(Uni)-b の成功率 方策、確率的知識 (BN)の面で、 EA は EB より EC と類似 EB EC 成功率 高 低 混合率 大 小 環境切り替え前に、 EA ほど EC と類似していない EB についての方策学習を行った Mix-b では、 対照的に、 EA についての方策学習を行った Mix-a では、 全ての混合率における Mix-a の成功率 > Uni-a の成功率

5 実験結果・考察 (6) エージェントは環境変化に適応しながら方策を学習可能 BNの構造決定に要する時間 = 1.5時間 適当な混合率の値が推定可能ならば エージェントは環境変化に適応しながら方策を学習可能 変化後の環境に対する適切な混合率の設定は困難 適用例で用いた単純な環境設定を用いても 混合率の推定法の検討が必要 BNの構造決定に要する時間 = 1.5時間 IPMBN 多くの場合、環境変化後も 過去のBNを利用可能なため、構造決定に要する時間は減少 過去の方策改善システム 環境変化ごとに新たなBNの構造決定の必要性

6.1 まとめ 本稿では BN混合モデルを用いたエージェントの方策改善システム (IPMBN) を提案 エージェントナビゲーション問題を適用例として、その環境変化への適応可能性を検証する計算機実験を実施 実験の結果 BN混合モデルの導入により、環境の変化(切り替わり)に適応して効率的にエージェントの方策を改善可能 BN混合モデルは、BN単体を用いるより適切に環境の特徴を表現可能 BN構築のための計算時間の減少を実現

6.2 今後の展望 今後の展望 蓄積されたBNを用いた環境変化の認識手法の実装、およびその有効性の検証 適切な混合率の設定方法の提案