Presentation is loading. Please wait.

Presentation is loading. Please wait.

強化学習 3回目の内容 RT.

Similar presentations


Presentation on theme: "強化学習 3回目の内容 RT."— Presentation transcript:

1 強化学習 3回目の内容 RT

2 Q学習式の算出 Q学習は方策オフ型 (行動選択に使用される 方策と学習式で想定 されている方策は 異なる)

3 モンテカルロ法とは… とりあえず数回ランダムに試行して 結果の平均で対象のパラメタを推定

4 εソフト方策オン型モンテカルロ制御 すべてのs∈Sとa∈A(s)に対して初期化を行う:
Q(s, a)←任意,Returns(s, a) ←空のリスト π←任意のε ソフト方策, π(s,a) ←(s, a)の選択確率 ●無制限に繰り返す:  (a)πを用いてエピソード(sとaのペア列)を1つ作成 (b)エピソード中に出現する各sとaのペアについて:     R ←sとaのペアの初回発生後の総収益     Returns(s, a) にRを追加     Q(s, a) ←average(Returns(s, a)) (c)エピソード中の各sについて: a*← arg max_a Q(s, a)  すべてのa∈A(s)について:    π(s, a) ← 1- ε+ ε/|A(s)| (if a = a*)    ε/|A(s)| (otherwise) 全要素の平均

5 参考サイト

6 応用(Second Life) Merrick, K.: (2007) Modelling Motivation for Adaptive Non-Player Characters in Dynamic Computer Game Worlds, ACM Computers in Entertainment, Newton Lee (Ed.), (to appear).

7 SLにおけるかじ屋と大工屋の学習 (溶錬) (炉) (つるはし) (ろくろ) (おの)

8 かじ屋と大工屋の学習結果

9 モンスターの登場 (外部による環境変化)

10 モンスター登場前と後の大工屋の学習結果


Download ppt "強化学習 3回目の内容 RT."

Similar presentations


Ads by Google