エージェントアプローチ 人工知能 21章 B4 片渕 聡
目次 第21章 強化学習
21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ
強化学習とは 現在の状態からエージェントが取るべき方策を学習 何を学習するかはエージェントにより異なる -効用に基づくエージェント:効用Uπ(s) -Q学習エージェント:行動-価値関数(Q関数) ・状態sにおいて行動aを起こした際の期待効用 -反射エージェント:方策(政策)π
環境全体及び自分の位置を知ることができる 例題:4×3問題(再掲) 意図した方向 -0.04 (報酬) G +1 -1 S 0.8 0.1 0.1 環境:完全観測可能 環境全体及び自分の位置を知ることができる
21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ
受動強化学習 エージェントの政策πが固定の場合における学習 受動強化学習のアプローチ法 -直接的な効用推定法 -適応動的計画法(ADP) -直接的な効用推定法 -適応動的計画法(ADP) -時間的差分学習(TD)
直接的な効用推定法 Bellman方程式(17章)に従った効用の更新 -Uπ(s)=R(s)+γΣT(s,a,s’)Uπ(s’) s’
適応動的計画法 (Adaptive Dynamic Programming:ADP) 観測から遷移モデルTや報酬Rを学習 -その値をBellman方程式に適用 例:(1,3)において「右に進む」を3回実行 -うち2回の実行結果が(2,3)の場合 T((1,3),Right,(2,3))=2/3 と推定
時間的差分学習 (Temporal-Difference:TD) Bellman(制約)方程式を使わない効用の更新・近似 例:(1,3)(2,3)の遷移(100%遷移すると仮定) ・Uπ(1,3)=0.84 Uπ(2,3)=0.92 とすると Bellman方程式(γ=1の場合)より U’π(1,3)=-0.04+Uπ(2,3)=0.88 となる これはUπ(1,3)と違うので更新しないとならない Uπ(s) Uπ(s)+α(R(s)+γUπ(s’)-Uπ(s)) 例でBellman方程式を用いているがこれは概念の説明であって実際の式は赤字の部分である。 α:学習率(パラメータの1つ)
21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ
能動強化学習 政策πをエージェントが決定しないといけない -Uπ(s)=R(s)+γmaxΣT(s,a,s’)Uπ(s’) ・最適な政策の決定 a s’
行為-価値関数の学習(Q学習) 行動-価値表現Q(a,s)を使用 -可能な行動の中で比較を行うことが可能 Uπ(s’)の値を知る必要が無い -可能な行動の中で比較を行うことが可能 Uπ(s’)の値を知る必要が無い ・Q(a,s)=R(s)+γΣT(s,a,s’)maxQ(a’,s’) Q関数の更新は時間的差分学習と同様 Q(a,s) Q(a,s)+α(R(s)+γmaxQ(a’,s’)-Q(a,s)) a’ a’ a’
21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ
強化学習における一般化 巨大な状態空間を扱うために近似の必要がある -Uθ(s)=θ0+θ1f1(s)+θ2f2(s)+・・・ θ:パラメータ(重み)(人間が設定) f(s):ベース関数(人間が設定) ・パラメータθ(方策)の学習 例:4×3問題の場合:x座標とy座標 Uθ(x,y)=θ0+θ1x+θ2y ^ 方策の学習=θの学習
パラメータθの更新 θiの更新に誤差関数Ej(s)を利用 -Ej(s)=(Uθ(s)-uj(s))2/2 パラメータθiの更新: uj(s):状態sにおけるj回の試行までの合計報酬 パラメータθiの更新: -θiθi-α =θi-α(Uθ(s)-uj(s)) ^ 誤差関数には最小2乗法を用いている ^ әEj(s) әθi әUθ(s) әθi ^ 誤差の変化率
21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ
政策の探索 効率(効用)が改善される間政策を更新し続ける -π(s)=maxQθ(a,s) ソフトマックス関数を用いた政策の探索 -πθ(s,a)=exp(Qθ(a,s))/∑exp(Qθ(a’,s) ^ a ^ ^ a’
21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ
まとめ 強化学習:効用やQ関数、政策の学習 -ADP法 -TD法 パラメータθを用いた近似関数の表現 政策の探索