ベイジアンネット混合モデルによる強化学習エージェントの方策改善

ベイジアンネット混合モデルによる強化学習エージェントの方策改善
発表者　北越大輔室蘭工業大学２００３年12月19日

背景強化学習（RL）・・・外界からの報酬を手がかりに環境に適応するため、方策（policy）を最適化することを目的
状態と行動のペア（ルール）の系列と報酬からなるデータ生成エージェントの方策学習の過程データから構造決定したベイジアンネット（BN）を、エージェントの確率的知識として利用した方策改善システムを提案（北越ら２００３）・BNから得られる情報・・・方策に対する教師信号的な役割・システムによる方策改善・・・情報を用いたある種の教師有り学習

・ルール重みの更新にBNを利用することで、より良い方策を獲得可能
背景過去に提案した方策改善システム・ BN ・・・環境を特徴付ける確率的知識表現・ルール重みの更新にBNを利用することで、より良い方策を獲得可能・環境を静的なものと仮定 BN ( ) 環境 A (EA ) New BN ( ) 新規環境 B (EB ) 動的な環境への適応が課題

背景 … システムを改良本研究では・動的、未知環境へエージェントを適応させるべく、過去の
　システムを改良・ BN混合モデルを用いたRLエージェントの方策改善システム（IPMBN）を提案環境 A (EA ) BN 1 BN 2 BN n … BN混合モデル新規環境 B (EB ) BN混合モデルが新規環境に対応　　　　過去のBNを用いて未知環境に対応可能

背景 IPMBNにおいてエージェント：利益共有法によって自身の方策を学習 BN混合モデル：エージェントの確率的知識として導入
以降の発表のながれ準備　（利益共有法、ベイジアンネット） IPMBNの構成適用例（エージェントナビゲーション問題）実験結果・考察まとめ

S: 取りうる状態の集合 A: 出力する行動の集合
2.1 利益共有法(1) 利益共有法・・・経験強化型学習法の一つ方策：関数 w によって与えられる S: 取りうる状態の集合 A: 出力する行動の集合状態、行動の対 (s, a) ( ) ：ルール w(s, a) ：ルール (s, a) の重み

2.1 利益共有法(2) 利益共有法ではエージェントの選択した初期ルール（もしくは報酬獲得時のルール）から次に報酬が得られるまでのルール系列をエピソード　　　　　　　　　　　　　　　　= {(s1, a1), …, (sC, aC)} として保存（C: 中のルール数） f(i) : 強化関数 γ : 減衰率（0 <γ ≤ 1）エージェントが状態 sC において行動 aC を選択した結果、報酬 r を得た時、エピソード中のルール系列の重みを更新

MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索
2.2 ベイジアンネット (1) IPMBNにおいてベイジアンネット（BN）：方策改善用の確率的知識表現として利用 BNの構造エージェントの方策学習を通じて得られるルール系列と報酬をサンプルデータ D として、MDL（minimum description length）基準によって決定 N : サンプルデータ数　 : パラメータ d : パラメータ数 MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索

3.1 過去に提案した方策改善システム確率的知識表現（BN）部を除き、IPMBNと同様の構成
単一のBNを用いる代わりに、BN混合モデルを利用図: 過去の方策改善システムの枠組み

3.2 IPMBNの構成 (1) エージェントのセンサ入力の観測状態ノード・・・全体集合 S の各要素に対応
Xs1 ,…., Xsm　（ m = |S| ）ルール集合確率変数値：における行動 a に割り当てた整数値（以降と表す）報酬ノード Xr 正の報酬の有無に対応（確率変数値は{1,0}）・・・

3.2 IPMBNの構成 (2) 環境変化が生じた際： BN混合モデル生成のため、各環境において構造決定されたBNを蓄積

3.2 IPMBNの構成（3） rimp : 定数エージェントの方策
学習と同時にサンプルデータ D を収集サンプルデータ：ルール系列 {(s1 , a1), …, (sL , aL)} 　　　　　　　　　　　と報酬 r を蓄積　　　　　　　　 L ：系列中のルール数 2. BNの構造決定 Xr および特定数の状態ノードを有するBNの構造を、サンプルデータをもとに決定　を最大化する行動　　　を選択： BNi においてXr とのリンクが存在する状態ノード 4. ルール重みを更新 rimp : 定数が BNi において Xr とリンクしている場合それ以外の場合

4 適用例（１）＝エージェントナビゲーション問題目的：エージェントが初期位置からゴールまで到達すること
環境 EC ： EA と EB を重ね合わせたものと等しいと見なせる Environment A (EA) Environment B (EB) ゴールへの到達ゴール領域（G）へのエージェントの接触. ＝ Environment C (EC) 図: 実験環境

4 適用例（2）エージェントの設定 1. 半径Vr 内の壁・ゴールを感知可能 2. 8方向への移動、および停止のいずれかの行動を出力
2. 8方向への移動、および停止のいずれかの行動を出力 3. 初期エネルギ E0 を有し、移動時、壁接触時には E- 、停止時には Estay を消費１試行：エージェントがゴールへ到達 or 全エネルギーを消費成功試行失敗試行報酬エージェントがゴールを感知もしくはゴールへ到達した場合・・・ rp （＞ 0）

Table 1: The settings of each variable
4 適用例（3） Table 1: The settings of each variable : ルール重みの初期値 : 最小値 : 最大値１．環境 EA（EB）において、エージェントが利益共有法によって1000試行の方策学習を行った後、環境についての　　　　　　　　　　の構造を決定２．環境を EC へと切り替え、　　　　のみ、　　　　のみ、および　　　　　　　　　による混合モデルを用いた３種類によって方策改善し、再び1000試行の方策学習を行う

4 適用例（4） 1000試行 1000試行 Mix-a : IPMBNにより方策改善利益共有法利益共有法 1000試行 1000試行
４種類の方策改善法 1000試行 1000試行 Mix-a : IPMBNにより方策改善 (Mix-b) 利益共有法利益共有法　　　の混合率 EA を EC へと切り替え (EB) 1000試行 1000試行 Uni-a : 　　　　　により方策改善 (Uni-b) 利益共有法利益共有法 BNの有するノード数 = 6 （報酬ノードXr、およびXr=1の時サンプルデータ中に含まれる頻度の高い　　5 状態ノード）実験回数：各混合率における４種類の方策改善法について10回づつ実施

5 実験結果・考察 (1) Xr : 報酬ノード Xs1～Xs81 : 状態ノード（ s1 : 何も感知しない, s2 : 壁の位置情報, …）図：構造決定されたBNの例

5 実験結果・考察 (2) 環境 EA → EC 、および方策改善後における、 100試行あたりの成功試行の割合(成功率) の推移
図: Mix-a および Uni-a における成功率の推移各βにおける Mix-a の成功率＞ Uni-a における成功率

5 実験結果・考察 (4) EB → EC 、方策改善後における成功率の推移 1000試行の前半：全ての場合における成功率は同程度
図: Mix-b および Uni-b における成功率の推移 1000試行の前半：全ての場合における成功率は同程度後半：Mix-b (　　= 0.2 , 0.5 ) の成功率＞ Uni-b の成功率

5 実験結果･考察 (5) ≫ ≫ EB EC 表: 方策改善後100試行での成功率※ Mix(Uni)-a の成功率 ≫
※ ：成功率の値は3種類の　　　　　における平均値表: 方策改善後100試行での成功率※ ≫ ≫ Mix(Uni)-a の成功率 ≫ Mix(Uni)-b の成功率方策、確率的知識（BN）の面で、 EA は EB より EC と類似 EB EC 成功率高低混合率大小環境切り替え前に、 EA ほど EC と類似していない EB についての方策学習を行った Mix-b では、対照的に、 EA についての方策学習を行った Mix-a では、全ての混合率における Mix-a の成功率＞ Uni-a の成功率

5 実験結果･考察 (6) エージェントは環境変化に適応しながら方策を学習可能 BNの構造決定に要する時間＝ 1.5時間
適当な混合率の値が推定可能ならばエージェントは環境変化に適応しながら方策を学習可能変化後の環境に対する適切な混合率の設定は困難適用例で用いた単純な環境設定を用いても混合率の推定法の検討が必要 BNの構造決定に要する時間＝ 1.5時間 IPMBN 多くの場合、環境変化後も過去のBNを利用可能なため、構造決定に要する時間は減少過去の方策改善システム環境変化ごとに新たなBNの構造決定の必要性

6.1 まとめ本稿では BN混合モデルを用いたエージェントの方策改善システム (IPMBN) を提案
エージェントナビゲーション問題を適用例として、その環境変化への適応可能性を検証する計算機実験を実施実験の結果 BN混合モデルの導入により、環境の変化（切り替わり）に適応して効率的にエージェントの方策を改善可能 BN混合モデルは、BN単体を用いるより適切に環境の特徴を表現可能 BN構築のための計算時間の減少を実現

6.2 今後の展望今後の展望蓄積されたBNを用いた環境変化の認識手法の実装、およびその有効性の検証適切な混合率の設定方法の提案

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

Similar presentations

Presentation on theme: "ベイジアンネット混合モデルによる強化学習エージェントの方策改善"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

ベイジアンネット混合モデルによる 強化学習エージェントの方策改善

Similar presentations

Presentation on theme: "ベイジアンネット混合モデルによる 強化学習エージェントの方策改善"— Presentation transcript:

Similar presentations

About project

フィードバック

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

Presentation on theme: "ベイジアンネット混合モデルによる強化学習エージェントの方策改善"— Presentation transcript: