Presentation is loading. Please wait.

Presentation is loading. Please wait.

ベイジアンネット混合モデルによる 強化学習エージェントの方策改善

Similar presentations


Presentation on theme: "ベイジアンネット混合モデルによる 強化学習エージェントの方策改善"— Presentation transcript:

1 ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
発表者 北越 大輔 室蘭工業大学 2003年12月19日

2 背景 強化学習(RL) ・・・ 外界からの報酬を手がかりに環境に適応する ため、方策(policy)を最適化することを目的
状態と行動のペア(ルール)の系列と報酬からなるデータ生成 エージェントの方策学習の過程 データから構造決定したベイジアンネット(BN)を、エージェントの確率的知識として利用した方策改善システムを提案 (北越ら 2003) ・BNから得られる情報 ・・・ 方策に対する教師信号的な役割 ・システムによる方策改善 ・・・ 情報を用いたある種の教師有り学習

3 ・ ルール重みの更新にBNを利用することで、より良い方策を獲得可能
背景 過去に提案した方策改善システム ・ BN ・・・ 環境を特徴付ける確率的知識表現 ・ ルール重みの更新にBNを利用することで、より良い方策を獲得可能 ・ 環境を静的なものと仮定 BN ( ) 環境 A (EA ) New BN ( ) 新規環境 B (EB ) 動的な環境への適応が課題

4 背景 … システムを改良 本研究では ・ 動的、未知環境へエージェントを適応させるべく、過去の
 システムを改良 ・ BN混合モデルを用いたRLエージェント の方策改善システム(IPMBN)を提案 環境 A (EA ) BN 1 BN 2 BN n BN混合モデル 新規環境 B (EB ) BN混合モデルが新規環境に対応    過去のBNを用いて未知環境に対応可能

5 背景 IPMBNにおいて エージェント : 利益共有法によって自身の方策を学習 BN混合モデル : エージェントの確率的知識として導入
以降の発表のながれ 準備 (利益共有法、ベイジアンネット) IPMBNの構成 適用例(エージェントナビゲーション問題) 実験結果・考察 まとめ

6 S: 取りうる状態の集合 A: 出力する行動の集合
2.1 利益共有法(1) 利益共有法 ・・・ 経験強化型学習法の一つ 方策 : 関数 w によって与えられる S: 取りうる状態の集合 A: 出力する行動の集合 状態、行動の対 (s, a) ( ) : ルール w(s, a) : ルール (s, a) の重み

7 2.1 利益共有法(2) 利益共有法では エージェントの選択した初期ルール(もしくは報酬獲得時のルール)から次に報酬が得られるまでのルール系列をエピソード                 = {(s1, a1), …, (sC, aC)} として保存(C: 中のルール数) f(i) : 強化関数 γ : 減衰率 (0 <γ ≤ 1) エージェントが状態 sC において行動 aC を選択した結果、報酬 r を得た時、エピソード中のルール系列の重みを更新

8 MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索
2.2 ベイジアンネット (1) IPMBNにおいて ベイジアンネット(BN) : 方策改善用の確率的知識表現として利用 BNの構造 エージェントの方策学習を通じて得られるルール系列と報酬をサンプルデータ D として、MDL(minimum description length)基準によって決定 N : サンプルデータ数  : パラメータ d : パラメータ数 MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索

9 3.1 過去に提案した方策改善システム 確率的知識表現(BN)部を除き、IPMBNと同様の構成
単一のBNを用いる代わりに、BN混合モデルを利用 図: 過去の方策改善システムの枠組み

10 3.2 IPMBNの構成 (1) エージェントのセンサ入力の 観測状態ノード ・・・ 全体集合 S の各要素に対応
Xs1 ,…., Xsm ( m = |S| ) ルール集合 確率変数値 : における行動 a に割り当てた整数値 (以降 と表す) 報酬ノード Xr 正の報酬の有無に対応 (確率変数値は{1,0}) ・・・

11 3.2 IPMBNの構成 (2) 環境変化が生じた際 : BN混合モデル生成のため、各環境において構造決定されたBNを蓄積

12 3.2 IPMBNの構成 (3) rimp : 定数 エージェントの方策
学習と同時にサンプル データ D を収集 サンプルデータ : ルール系列 {(s1 , a1), …, (sL , aL)}             と報酬 r を蓄積          L : 系列中のルール数 2. BNの構造決定 Xr および特定数の状態ノードを有するBNの構造を、サンプルデータをもとに決定   を最大化する行動    を選択 : BNi においてXr とのリンクが存在する状態ノード 4. ルール重み を更新 rimp : 定数 が BNi において Xr とリンクしている場合 それ以外の場合

13 4 適用例(1) = エージェントナビゲーション問題 目的:エージェントが初期位置からゴールまで到達すること
環境 EC : EA と EB を重ね合わせたものと等しいと見なせる Environment A (EA) Environment B (EB) ゴールへの到達 ゴール領域 (G) へのエージェントの接触. Environment C (EC) 図: 実験環境

14 4 適用例(2) エージェントの設定 1. 半径Vr 内の壁・ゴールを感知可能 2. 8方向への移動、および停止のいずれかの行動を出力
2. 8方向への移動、および停止のいずれかの行動を出力 3. 初期エネルギ E0 を有し、移動時、壁接触時には E- 、停止時には Estay を消費 1試行:エージェントがゴールへ到達 or 全エネルギーを消費 成功試行 失敗試行 報酬 エージェントがゴールを感知もしくは ゴールへ到達 した場合・・・ rp (> 0)

15 Table 1: The settings of each variable
4 適用例(3) Table 1: The settings of each variable : ルール重みの初期値 : 最小値 : 最大値 1.環境 EA(EB)において、エージェントが利益共有法によって1000試行の方策学習を行った後、環境についての          の構造を決定 2.環境を EC へと切り替え、    のみ、    のみ、および         による 混合モデルを用いた3種類によって方策改善し、再び1000試行の方策学習を行う

16 4 適用例(4) 1000試行 1000試行 Mix-a : IPMBNにより方策改善 利益共有法 利益共有法 1000試行 1000試行
4種類の方策改善法 1000試行 1000試行 Mix-a : IPMBNにより方策改善 (Mix-b) 利益共有法 利益共有法    の混合率 EA を EC へと切り替え (EB) 1000試行 1000試行 Uni-a :      により方策改善 (Uni-b) 利益共有法 利益共有法 BNの有するノード数 = 6 ( 報酬ノードXr、およびXr=1の時サンプルデータ中に含まれる頻度の高い   5 状態ノード) 実験回数:各混合率における4種類の方策改善法について10回づつ実施

17 5 実験結果・考察 (1) Xr : 報酬ノード Xs1~Xs81 : 状態ノード ( s1 : 何も感知しない, s2 : 壁の位置情報, …) 図: 構造決定されたBNの例

18 5 実験結果・考察 (2) 環境 EA → EC 、および 方策改善後における、 100試行あたりの成功試行の割合(成功率) の推移
図: Mix-a および Uni-a における成功率の推移 各βにおける Mix-a の成功率 > Uni-a における成功率

19 5 実験結果・考察 (4) EB → EC 、方策改善後における成功率の推移 1000試行の前半:全ての場合における成功率は同程度
図: Mix-b および Uni-b における成功率の推移 1000試行の前半:全ての場合における成功率は同程度 後半:Mix-b (   = 0.2 , 0.5 ) の成功率 > Uni-b の成功率

20 5 実験結果・考察 (5) ≫ ≫ EB EC 表: 方策改善後100試行での成功率※ Mix(Uni)-a の成功率 ≫
※ : 成功率の値は3種類の     における平均値 表: 方策改善後100試行での成功率※ Mix(Uni)-a の成功率 ≫ Mix(Uni)-b の成功率 方策、確率的知識 (BN)の面で、 EA は EB より EC と類似 EB EC 成功率 混合率 環境切り替え前に、 EA ほど EC と類似していない EB についての方策学習を行った Mix-b では、 対照的に、 EA についての方策学習を行った Mix-a では、 全ての混合率における Mix-a の成功率 > Uni-a の成功率

21 5 実験結果・考察 (6) エージェントは環境変化に適応しながら方策を学習可能 BNの構造決定に要する時間 = 1.5時間
適当な混合率の値が推定可能ならば エージェントは環境変化に適応しながら方策を学習可能 変化後の環境に対する適切な混合率の設定は困難 適用例で用いた単純な環境設定を用いても 混合率の推定法の検討が必要 BNの構造決定に要する時間 = 1.5時間 IPMBN 多くの場合、環境変化後も 過去のBNを利用可能なため、構造決定に要する時間は減少 過去の方策改善システム 環境変化ごとに新たなBNの構造決定の必要性

22 6.1 まとめ 本稿では BN混合モデルを用いたエージェントの方策改善システム (IPMBN) を提案
エージェントナビゲーション問題を適用例として、その環境変化への適応可能性を検証する計算機実験を実施 実験の結果 BN混合モデルの導入により、環境の変化(切り替わり)に適応して効率的にエージェントの方策を改善可能 BN混合モデルは、BN単体を用いるより適切に環境の特徴を表現可能 BN構築のための計算時間の減少を実現

23 6.2 今後の展望 今後の展望 蓄積されたBNを用いた環境変化の認識手法の実装、およびその有効性の検証 適切な混合率の設定方法の提案


Download ppt "ベイジアンネット混合モデルによる 強化学習エージェントの方策改善"

Similar presentations


Ads by Google