強化学習 3回目の内容 RT
Q学習式の算出 Q学習は方策オフ型 (行動選択に使用される 方策と学習式で想定 されている方策は 異なる)
モンテカルロ法とは… とりあえず数回ランダムに試行して 結果の平均で対象のパラメタを推定
εソフト方策オン型モンテカルロ制御 すべてのs∈Sとa∈A(s)に対して初期化を行う: Q(s, a)←任意,Returns(s, a) ←空のリスト π←任意のε ソフト方策, π(s,a) ←(s, a)の選択確率 ●無制限に繰り返す: (a)πを用いてエピソード(sとaのペア列)を1つ作成 (b)エピソード中に出現する各sとaのペアについて: R ←sとaのペアの初回発生後の総収益 Returns(s, a) にRを追加 Q(s, a) ←average(Returns(s, a)) (c)エピソード中の各sについて: a*← arg max_a Q(s, a) すべてのa∈A(s)について: π(s, a) ← 1- ε+ ε/|A(s)| (if a = a*) ε/|A(s)| (otherwise) 全要素の平均
参考サイト http://www.cs.ualberta.ca/~sutton/book/ebook/node54.html
応用(Second Life) Merrick, K.: (2007) Modelling Motivation for Adaptive Non-Player Characters in Dynamic Computer Game Worlds, ACM Computers in Entertainment, Newton Lee (Ed.), (to appear). http://www.cs.usyd.edu.au/~kkas0686/publications/CiE-merrick-revised.pdf
SLにおけるかじ屋と大工屋の学習 (溶錬) (炉) (つるはし) (ろくろ) (おの)
かじ屋と大工屋の学習結果
モンスターの登場 (外部による環境変化)
モンスター登場前と後の大工屋の学習結果