ベイジアンネット混合モデルによる 強化学習エージェントの方策改善 発表者 北越 大輔 室蘭工業大学 2003年12月19日
背景 強化学習(RL) ・・・ 外界からの報酬を手がかりに環境に適応する ため、方策(policy)を最適化することを目的 状態と行動のペア(ルール)の系列と報酬からなるデータ生成 エージェントの方策学習の過程 データから構造決定したベイジアンネット(BN)を、エージェントの確率的知識として利用した方策改善システムを提案 (北越ら 2003) ・BNから得られる情報 ・・・ 方策に対する教師信号的な役割 ・システムによる方策改善 ・・・ 情報を用いたある種の教師有り学習
・ ルール重みの更新にBNを利用することで、より良い方策を獲得可能 背景 過去に提案した方策改善システム ・ BN ・・・ 環境を特徴付ける確率的知識表現 ・ ルール重みの更新にBNを利用することで、より良い方策を獲得可能 ・ 環境を静的なものと仮定 BN ( ) 環境 A (EA ) New BN ( ) 新規環境 B (EB ) 動的な環境への適応が課題
背景 … システムを改良 本研究では ・ 動的、未知環境へエージェントを適応させるべく、過去の システムを改良 ・ BN混合モデルを用いたRLエージェント の方策改善システム(IPMBN)を提案 環境 A (EA ) BN 1 BN 2 BN n … BN混合モデル 新規環境 B (EB ) BN混合モデルが新規環境に対応 過去のBNを用いて未知環境に対応可能
背景 IPMBNにおいて エージェント : 利益共有法によって自身の方策を学習 BN混合モデル : エージェントの確率的知識として導入 以降の発表のながれ 準備 (利益共有法、ベイジアンネット) IPMBNの構成 適用例(エージェントナビゲーション問題) 実験結果・考察 まとめ
S: 取りうる状態の集合 A: 出力する行動の集合 2.1 利益共有法(1) 利益共有法 ・・・ 経験強化型学習法の一つ 方策 : 関数 w によって与えられる S: 取りうる状態の集合 A: 出力する行動の集合 状態、行動の対 (s, a) ( ) : ルール w(s, a) : ルール (s, a) の重み
2.1 利益共有法(2) 利益共有法では エージェントの選択した初期ルール(もしくは報酬獲得時のルール)から次に報酬が得られるまでのルール系列をエピソード = {(s1, a1), …, (sC, aC)} として保存(C: 中のルール数) f(i) : 強化関数 γ : 減衰率 (0 <γ ≤ 1) エージェントが状態 sC において行動 aC を選択した結果、報酬 r を得た時、エピソード中のルール系列の重みを更新
MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索 2.2 ベイジアンネット (1) IPMBNにおいて ベイジアンネット(BN) : 方策改善用の確率的知識表現として利用 BNの構造 エージェントの方策学習を通じて得られるルール系列と報酬をサンプルデータ D として、MDL(minimum description length)基準によって決定 N : サンプルデータ数 : パラメータ d : パラメータ数 MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索
3.1 過去に提案した方策改善システム 確率的知識表現(BN)部を除き、IPMBNと同様の構成 単一のBNを用いる代わりに、BN混合モデルを利用 図: 過去の方策改善システムの枠組み
3.2 IPMBNの構成 (1) エージェントのセンサ入力の 観測状態ノード ・・・ 全体集合 S の各要素に対応 Xs1 ,…., Xsm ( m = |S| ) ルール集合 確率変数値 : における行動 a に割り当てた整数値 (以降 と表す) 報酬ノード Xr 正の報酬の有無に対応 (確率変数値は{1,0}) ・・・
3.2 IPMBNの構成 (2) 環境変化が生じた際 : BN混合モデル生成のため、各環境において構造決定されたBNを蓄積
3.2 IPMBNの構成 (3) rimp : 定数 エージェントの方策 学習と同時にサンプル データ D を収集 サンプルデータ : ルール系列 {(s1 , a1), …, (sL , aL)} と報酬 r を蓄積 L : 系列中のルール数 2. BNの構造決定 Xr および特定数の状態ノードを有するBNの構造を、サンプルデータをもとに決定 3. を最大化する行動 を選択 : BNi においてXr とのリンクが存在する状態ノード 4. ルール重み を更新 rimp : 定数 が BNi において Xr とリンクしている場合 それ以外の場合
4 適用例(1) = エージェントナビゲーション問題 目的:エージェントが初期位置からゴールまで到達すること 環境 EC : EA と EB を重ね合わせたものと等しいと見なせる Environment A (EA) Environment B (EB) ゴールへの到達 ゴール領域 (G) へのエージェントの接触. = Environment C (EC) 図: 実験環境
4 適用例(2) エージェントの設定 1. 半径Vr 内の壁・ゴールを感知可能 2. 8方向への移動、および停止のいずれかの行動を出力 2. 8方向への移動、および停止のいずれかの行動を出力 3. 初期エネルギ E0 を有し、移動時、壁接触時には E- 、停止時には Estay を消費 1試行:エージェントがゴールへ到達 or 全エネルギーを消費 成功試行 失敗試行 報酬 エージェントがゴールを感知もしくは ゴールへ到達 した場合・・・ rp (> 0)
Table 1: The settings of each variable 4 適用例(3) Table 1: The settings of each variable : ルール重みの初期値 : 最小値 : 最大値 1.環境 EA(EB)において、エージェントが利益共有法によって1000試行の方策学習を行った後、環境についての の構造を決定 2.環境を EC へと切り替え、 のみ、 のみ、および による 混合モデルを用いた3種類によって方策改善し、再び1000試行の方策学習を行う
4 適用例(4) 1000試行 1000試行 Mix-a : IPMBNにより方策改善 利益共有法 利益共有法 1000試行 1000試行 4種類の方策改善法 1000試行 1000試行 Mix-a : IPMBNにより方策改善 (Mix-b) 利益共有法 利益共有法 の混合率 EA を EC へと切り替え (EB) 1000試行 1000試行 Uni-a : により方策改善 (Uni-b) 利益共有法 利益共有法 BNの有するノード数 = 6 ( 報酬ノードXr、およびXr=1の時サンプルデータ中に含まれる頻度の高い 5 状態ノード) 実験回数:各混合率における4種類の方策改善法について10回づつ実施
5 実験結果・考察 (1) Xr : 報酬ノード Xs1~Xs81 : 状態ノード ( s1 : 何も感知しない, s2 : 壁の位置情報, …) 図: 構造決定されたBNの例
5 実験結果・考察 (2) 環境 EA → EC 、および 方策改善後における、 100試行あたりの成功試行の割合(成功率) の推移 図: Mix-a および Uni-a における成功率の推移 各βにおける Mix-a の成功率 > Uni-a における成功率
5 実験結果・考察 (4) EB → EC 、方策改善後における成功率の推移 1000試行の前半:全ての場合における成功率は同程度 図: Mix-b および Uni-b における成功率の推移 1000試行の前半:全ての場合における成功率は同程度 後半:Mix-b ( = 0.2 , 0.5 ) の成功率 > Uni-b の成功率
5 実験結果・考察 (5) ≫ ≫ EB EC 表: 方策改善後100試行での成功率※ Mix(Uni)-a の成功率 ≫ ※ : 成功率の値は3種類の における平均値 表: 方策改善後100試行での成功率※ ≫ ≫ Mix(Uni)-a の成功率 ≫ Mix(Uni)-b の成功率 方策、確率的知識 (BN)の面で、 EA は EB より EC と類似 EB EC 成功率 高 低 混合率 大 小 環境切り替え前に、 EA ほど EC と類似していない EB についての方策学習を行った Mix-b では、 対照的に、 EA についての方策学習を行った Mix-a では、 全ての混合率における Mix-a の成功率 > Uni-a の成功率
5 実験結果・考察 (6) エージェントは環境変化に適応しながら方策を学習可能 BNの構造決定に要する時間 = 1.5時間 適当な混合率の値が推定可能ならば エージェントは環境変化に適応しながら方策を学習可能 変化後の環境に対する適切な混合率の設定は困難 適用例で用いた単純な環境設定を用いても 混合率の推定法の検討が必要 BNの構造決定に要する時間 = 1.5時間 IPMBN 多くの場合、環境変化後も 過去のBNを利用可能なため、構造決定に要する時間は減少 過去の方策改善システム 環境変化ごとに新たなBNの構造決定の必要性
6.1 まとめ 本稿では BN混合モデルを用いたエージェントの方策改善システム (IPMBN) を提案 エージェントナビゲーション問題を適用例として、その環境変化への適応可能性を検証する計算機実験を実施 実験の結果 BN混合モデルの導入により、環境の変化(切り替わり)に適応して効率的にエージェントの方策を改善可能 BN混合モデルは、BN単体を用いるより適切に環境の特徴を表現可能 BN構築のための計算時間の減少を実現
6.2 今後の展望 今後の展望 蓄積されたBNを用いた環境変化の認識手法の実装、およびその有効性の検証 適切な混合率の設定方法の提案