機械学習勉強会~強化学習~ 11/18 江原遥.

Slides:



Advertisements
Similar presentations
到着時刻と燃料消費量を同時に最適化する船速・航路計画
Advertisements

Pattern Recognition and Machine Learning 1.5 決定理論
4.3 連立1次方程式   Ax = b   (23) と書くことができる。
Accelerated Gradient Methods for Stochastic Optimization and Online Learning (Hu, Kwok and Pan, NIPS2009) 二宮 崇 機械学習勉強会 2010 年 6 月 17 日 1.
群論とルービックキューブ 白柳研究室  水野貴裕.
Bassモデルにおける 最尤法を用いたパラメータ推定
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Reed-Solomon 符号と擬似ランダム性
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
データ構造と アルゴリズム 知能情報学部 新田直也.
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
Solving Shape-Analysis Problems in Languages with Destructive Updating
サポートベクターマシン によるパターン認識
第6章 連立方程式モデル ー 計量経済学 ー.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
7.4 Two General Settings D3 杉原堅也.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
訓練データとテストデータが 異なる分布に従う場合の学習
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
強化学習におけるマクロを用いた 行動系列の獲得
電気回路学Ⅱ コミュニケーションネットワークコース 5セメ 山田 博仁.
分子生物情報学(2) 配列のマルチプルアライメント法
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
様々な情報源(4章).
電機情報工学専門実験 6. 強化学習シミュレーション
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
計算の理論 I 決定性有限オートマトン(DFA) と 非決定性有限オートマトン(NFA)
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
回帰分析(Regression Analysis)
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ポッツスピン型隠れ変数による画像領域分割
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
7.8 Kim-Vu Polynomial Concentration
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
自己縮小画像と混合ガウス分布モデルを用いた超解像
Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015
混合ガウスモデル Gaussian Mixture Model GMM
Time Reversal E-Text: pp.80-83(PDF: pp.49-50) FM08002 太神 諭
Presentation transcript:

機械学習勉強会~強化学習~ 11/18 江原遥

強化学習 Agentが環境の状態sを観測できる場合 Agentが環境の状態sを観測出来ない場合 報酬 r 環境 Agent 状態 s Markov Decision Process (MDP)モデル.6件. 理論解:Bellman方程式の解 実用的解法:fixed point iteration TD(0)学習,TD(λ)学習などなど. Agentが環境の状態sを観測出来ない場合 sの代わりにAgentが環境を観測した値oは分かる Partially Observable MDP (POMDP)モデル 2件 (#593, #588) online学習

reinforcement 1 187 Convergence of Least Squares Temporal Difference Methods Under General Conditions, H. Yu 336 Least-Squares λ Policy Iteration: Bias-Variance Trade-off in Control Problems, Christophe Thiery, Bruno Scherrer 598 Finite-Sample Analysis of LSTD, Alessandro Lazaric, Mohammad Ghavamzadeh,Remi Munos 654 Should one compute the Temporal Diference fixed point or minimize the Bellman Residual ? The unified oblique projection view, Bruno Scherrer

reinforcement 2 Partially Observableな条件設定の論文 この論文の記法でMDP, TD学習などを説明 269 Bayesian Multi-Task Reinforcement Learning, Alessandro Lazaric, Mohammad Ghavamzadeh 295 Temporal Difference Bayesian Model Averaging:A Bayesian Perspective on Adapting Lambda, Carlton Downey, Scott Sanner 588 Approximate Predictive Representations of Partially Observable Systems, Monica Dinculescu, Doina Precup 593 Constructing States for Reinforcement Learning, M. M. Hassan Mahmud Partially Observableな条件設定の論文

モデル・ベース,モデル・フリー 今日の話は全部こっち Agent 環境s r a 環境がどういう状態の時にどういう行動を起こすと,どういう報酬が帰ってくるか,網羅的に分からなくても動作する

Markov Decision Process MDPは<S, A, T, R>で 定義される S={s1,...,sn}:状態の集合 A={a1,...,an}:行動 状態遷移確率.T:SxAxS→[0,1]. T(s,a,s’)=P(s’|s,a) 報酬関数:R(s,a,r)=P(r|s,a) Agent 環境s a

MDPの目的:最適方策を求めたい S={s1,...,sn},A={a1,...,an} T(s,a,s’)=P(s’|s,a),R(s,a,r)=P(r|s,a)で定義される 方策(Policy) π:π(s,a)=P(a|s) 状態価値観数:Vπ(s).この方策に従って状態sから行動を決定していったときの割引率γでの累積報酬. MDPの目的は最適方策π*を求めること ∀π, s;Vπ*(s)≧Vπ (s) π*の存在証明(Puterman, 94) Agent r 環境s a

1) Bellman方程式 例えば,状態が4つの時は次の連立方程式を解くことに. 最適方策π*を求める問題が,定点V*を求める問題に帰着. π*:S→Aは,各sに対して とすればよい・ 例えば,状態が4つの時は次の連立方程式を解くことに.

2) 定点法 V*を定点法(fixed point iteration)で求めたい. TD(0)学習 行動価値関数Q: 状態だけでなく,行動に関しても累積報酬を拡張. TD(0)学習

TD(0)学習

TD(λ)学習 α:学習率 Rt(1) の代わりに これを使う→ λ=0.5の場合

TD(λ)学習のλを,ベイズを使って上手く設定する手法(TD-BMA)を提案.実験的に,手動でλを設定するよりよいことを示した. 295 Temporal Difference Bayesian Model Averaging:A Bayesian Perspective on Adapting Lambda, Carlton Downey, Scott Sanner TD(λ)学習のλを,ベイズを使って上手く設定する手法(TD-BMA)を提案.実験的に,手動でλを設定するよりよいことを示した.

SARSA(λ).TD(λ)学習の一種

Gaussian Model

提案手法

結果 全てのタスクにおいて,青(提案)が,それ以外(既存手法)に対して勝っている.

結果2 どの学習率αにおいても,提案手法でλを決めた方が勝っている.

269 Bayesian Multi-Task Reinforcement Learning, Alessandro Lazaric, Mohammad Ghavamzadeh

概要 問題設定がMulti-Taskで新しい. 複数の似たタスクがあるが,個々のタスクから取得できるsample(state,action,rewardの列)は限られているので強化学習をjointで解きたい. タスクが似ている,ということを,価値関数に共通のpriorがあるということで表現する. さらにpriorのクラスを用意して,タスクに自動的にクラスを振る.クラス数もDPで決定. InferenceはEM.

Graphical Model xは状態 提案手法: Figure 1. Graphical representations for (a) the single-task model 。ェ an extension of GPTD by defining a hyper-prior over the parameters, (b) the single-class multi-task model of Section 3, and (c) the multi-class multi-task model of Section 4.

結果 Single ClassとMulti Classの場合を比較すると,MCMulti Task Learningの方がよい.

336 Least-Squares λ Policy Iteration: Bias-Variance Trade-off in Control Problems, Christophe Thiery, Bruno Scherrer

概要 既存にあったLSPIという更新手法に対して,LSλPIという新しい更新の方法を提案して,"Performance Bound"を求めた. LSλPIの位置づけ

598 Finite-Sample Analysis of LSTD, Alessandro Lazaric, Mohammad Ghavamzadeh,Remi Munos

概要 pathwise-LSTD(λ)学習に対して,有限個のサンプルが与えられた場合に,真の価値関数にどれぐらい近づけるかのboundを求めた. まず,状態系列が与えられた場合のバウンドを示した.次に,状態系列がstationary β-mixing processで生成される場合の一般的なboundを示した.

ヤブヘビ

187  Convergence of Least Squares Temporal Difference Methods Under General Conditions, H. Yu

概要 off-policy LSTD(λ)に使われているiterationについて,収束とバウンドを求め,さらに実用的な実装のための改善方法を提示.

654 Should one compute the Temporal Diference fixed point or minimize the Bellman Residual ? The unified oblique projection view, Bruno Scherrer

概要 TD(0)も,Bellman方程式を解くのも,それぞれ,異なる目的関数をminizeしているとみなせる. その目的関数同士の美しい関係を導いた. 具体的には,Bellman方程式のoblique projectionとみなせる. 結果としては,それぞれ一長一短ですよ.

ヤブヘビ Bellman方程式: r(状態):報酬関数

Markov Decision Process (再掲) MDPは<S, A, T, R>で 定義される S={s1,...,sn}:状態の集合 A={a1,...,an}:行動 状態遷移確率.T:SxAxS→[0,1]. T(s,a,s’)=P(s’|s,a) 報酬関数:R(s,a,r)=P(r|s,a) Agent 環境s a

Partialy Observableなモデル POMDP Agent 環境s o MDPは< S,A,O,T,Ω,R >で 定義される http://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process a

belief state 環境の真の状態は分からないので,観測oから推測した,環境が状態sにいる確率b(s)を用いる.bをbelief stateという.

POMDPのBellman方程式 MDPのBellman方程式 方策πとbelief state bが与えられたときの累積報酬を最大化 τ(b,a,o):今のbelief stateがbで 行動aを行ってoが観測されたときの 次のbelief state. 価値関数Vをstateの代わりにbelief stateの関数として,その定点を求める問題に帰着. MDPのBellman方程式

588 Approximate Predictive Representations of Partially Observable Systems, Monica Dinculescu, Doina Precup

概要 POMDPは,直前のobservationとactionとbelief stateによって,今のbelief stateが決まるモデル. 一方,過去の全てのobservation-action系列から,未来のobservation-action系列を予測する手法として,例えばlinearPSRがある. このobservation-action系列を予測する問題に対して,新しい問題の定式化を行い,L1正則化を用いて疎な解を求める方法を提案している.

593. Constructing States for Reinforcement Learning, M. M 593 Constructing States for Reinforcement Learning, M. M. Hassan Mahmud

概要 環境が直接観測できない場合に標準的に使用されるモデルであるPOMDPには,学習時のパラメータを設定するのが難しいという問題点があった. そこで,POMDPの表現力を落として決定的にした代わりに,より学習が容易なdeterministic Markov Model (DMMs)を提案する.さらに,このモデルに対するベイズ法を用いた学習法を示す.

まとめ 環境の状態が見えるobservableな状況設定(MDPなど)と,Partially Observableな状況設定(POMDPなど)がある 価値関数には2種類.V:状態価値関数,Q:行動価値関数.最適な方策(policy)を求めることは,価値関数の定点を求めことに帰着. 価値関数に対するfixed point iterationの研究が盛ん.TD学習などもその一例.新奇なアルゴリズムの提案や,アルゴリズムのbound,収束証明など.online学習とも関連?