Linearly-solvable Markov decision problems Emanuel Todorov (UCSD)

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

到着時刻と燃料消費量を同時に最適化する船速・航路計画
データ解析
ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.5 節 主・双対法 pp
データ構造と アルゴリズム 第十二回 知能情報学部 知能情報学科 新田直也.
Pattern Recognition and Machine Learning 1.5 決定理論
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
Bassモデルにおける 最尤法を用いたパラメータ推定
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
社会心理学のStudy -集団を媒介とする適応- (仮)
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
雑音重み推定と音声 GMMを用いた雑音除去
ランダムウォークに関するいくつかの話題 ・ランダムウォークの破産問題 ・ランダムウォークの鏡像原理 1 小暮研究会Ⅰ 11月12日
データ構造と アルゴリズム 知能情報学部 新田直也.
第 七 回 双対問題とその解法 山梨大学.
非線形方程式の近似解 (2分法,はさみうち法,Newton-Raphson法)
最短路問題のための LMS(Levelwise Mesh Sparsification)
(b) 定常状態の近似 ◎ 反応機構が2ステップを越える ⇒ 数学的な複雑さが相当程度 ◎ 多数のステップを含む反応機構
(ラプラス変換の復習) 教科書には相当する章はない
ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.3 節 Lagrange緩和 pp
二分探索木によるサーチ.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
サポートベクターマシン によるパターン認識
第6章 連立方程式モデル ー 計量経済学 ー.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
論文紹介 Query Incentive Networks
決定木とランダムフォレスト 和田 俊和.
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
形式言語の理論 5. 文脈依存言語.
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
6. ラプラス変換.
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Introduction to Soft Computing (第11回目)
早わかりアントコロニー最適化 (Ant Colony Optimization)
25. Randomized Algorithms
First Course in Combinatorial Optimization
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
電機情報工学専門実験 6. 強化学習シミュレーション
Nightmare at Test Time: Robust Learning by Feature Deletion
階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
サポートベクターマシン Support Vector Machine SVM
第16章 動的計画法 アルゴリズムイントロダクション.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
Max Cut and the Smallest Eigenvalue 論文紹介
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ポッツスピン型隠れ変数による画像領域分割
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
2008年6月5日 非線形方程式の近似解 2分法,はさみうち法,Newton-Raphson法)
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Cプログラミング演習 ニュートン法による方程式の求解.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Linearly-solvable Markov decision problems Emanuel Todorov (UCSD) Figures are borrowed from the paper in NIPS2006 これを読む人: 鹿島久嗣 (IBM TRL)

この論文の目的: 超速くマルコフ決定過程を解く 超速く解けるマルコフ決定過程(MDP)のクラス(「linearMDP」、別名「念じるMDP」、略して「念MDP」)を提案する ある種の連続的な入力「念」をもつ特殊なMDPを考える 最大固有ベクトルを求める問題に帰着される 通常の離散アクションをもつMDPを、念MDPで近似する 最短経路問題を、念MDPで近似する方法を提案する 通常の離散アクションをもつMDPを、念MDPで近似する方法を提案する 単語リストと生コーパスによる確率的言語モデルの分野適応 森 信介 自然言語処理 (2006) Language Model Adaptation with a Word List and a Raw Corpus Shinsuke MORI ICSLP 2006

著者について 著者のEmanuel Todorov はUCSD の人 主に(人間を含む)制御系の話を研究しているらしい NIPS常連さんらしい ちょっと「脳みそNIPS」よりの人のようだ? 参考文献4件(!)なので、なにか本質的に新しい技を提案してるかも?

マルコフ決定過程(MDP)のおさらい

マルコフ決定過程(MDP)のおさらい: マルコフ決定過程は、「アクションつきの」マルコフ過程 各状態 でアクションを選ぶと、あるコストが発生して次の状態に行くというのを繰り返していくゲームを考える 状態 i から状態 j に遷移する確率が、状態 i においてとるアクション u に依存する 状態遷移確率 pij(u) (普通のマルコフ過程ではコレがuに依存しない) 状態 i でアクション u をとると、コスト l(i, u) が発生する 終了状態のどれかに到達すると終了 ⇒ 総期待コストが最小になるようなアクションuを決定したい 解き方: 各状態の価値関数 v(i) についての再帰式を解く 価値関数 v(i) : 状態 i から、将来にわたってかかるコストの期待値 通常、value iteration (か policy iteration) によって解く(以下を繰り返す) 現在の行動ポリシーのもとで、再帰式を解き、価値関数を得る 現在の価値関数のもとで、最良の行動ポリシーを決定する 0.3 0.7 0.7 0.3 状態 i の価値 状態 i で行動 u のコスト 次の状態 j の価値 遷移確率 (行動に依存) red と blue の2つのアクションの どちらをとるかで遷移確率がかわる

速く解けるMDP

MDPをもっと速く解きたい: 固有値計算一発で最良の行動ポリシーが求まる「念MDP」のクラスを考えた 状態 i でアクションを「状態 j に行けと念じるパワー uj 」によって与えるとする 遷移確率が 念uj によって変わるようなモデルを考える すると、以下の式を解けば状態の価値 v(i) が求まる よく観ると、(固有値1の)最大固有ベクトルを求めることになっている 反復計算: 非ゼロの の個数に比例した時間 結果、最適なアクション(念)は 求まった v(i) を以下の式に代入すると求まる ホントはこう書くのが正しい ベースの遷移確率 状態 j に行けと 念じる力 (注:i ごとに異なる) 実際の遷移確率 (行動に依存) given

実は、念MDPには、もうひとつ、コストに仮定をおいている: 「大きく分布を曲げるのには、念パワーを使う」 コストは、状態 i のコスト と、 と のKL-divergence の和とする 参考) KL-divergence の計算 なぜなら 状態 i で行動 u のコスト 状態 i のコスト 「ベースの確率」と 「念の入った確率」 の KL-divergence

参考)導出の概要 もともとのMDPの式 今回の仮定をいろいろ代入すると 確率の制約に気をつけて最小化問題を解く → ラグランジュ乗数法 状態 i の価値 状態 i で行動 u のコスト 次の状態 j の価値 遷移確率 (行動に依存) もともとのMDPの式 今回の仮定をいろいろ代入すると 確率の制約に気をつけて最小化問題を解く → ラグランジュ乗数法 と、最適な念の強さが求まる これをまたMDPに入れなおすと(minが落ちて)固有値問題がでてくる 状態 i のコスト ベースの遷移確率 念 制約:遷移確率の和が1 ラグランジアン

ここまでのまとめ: アクションが「右に行く」とか「左に行く」とか離散的ではなく、 「i からj に遷移しろと念じる強さ」であるとしたMDPは速くとける ポイントは、連続入力にしたことによって、離散アクションのminが、制約つきの最小化問題として解けちゃうところ コッソリ、コストにKL-divergenceが入っているのに注意 KL-divergence とは、ここでは「念の力によってどのくらい遷移確率を曲げたか」 コストの解釈: 「分布を大きく曲げると、パワーを消耗する」 が、実はKL-divergenceには上限があるので、状態コストを大きくすれば、相対的に影響は小さくなる ⇒ でも、このままでは何に使えるのかわからない 実は、最短経路問題 がコレを使って解ける 実は、離散アクションMDPを、念MDPで近似できる

最短経路問題を念MDPで解く

最良の行動ポリシーの下では最短経路の長さになる 最短経路問題は念MDPとして書ける 最短経路問題: 各状態から終了状態までの最短パスを見つける Dijkstra法はO(|枝| log|ノード|) これを模倣する念MDPをつくる ベースの遷移確率はランダムウォークとする 状態コスト: 一歩あるくごとに、コストρ 最終状態 最終状態以外 すると、状態の価値は、ρ×(そこから最終状態までの期待ステップ数) + KL ρを十分大きくとれば、≒ ρ×(そこから最終状態までの期待ステップ数) と思ってよし ⇒ つまり、最短経路を小さくする念を求めることになる i → j の枝があれば1 (多分ホントは何でもいい) 最良の行動ポリシーの下では最短経路の長さになる

最短経路問題への適用例 左図:ρ小さい 右図:ρ大きい (左上がゴール)

離散アクションのMDPを念MDPで近似する

まず、離散アクションのMDPと等価な念MDPを想像する: 両者の確率が同じになるようにベースの遷移確率と状態のコストを調整する 遷移確率が同じになる必要がある コストが同じになる必要がある コレを解くと、 、 、 が求まる 念MDPの パラメータ 普通MDPの パラメータ コレをみたしている筈 ベースの遷移確率 念 (アクションa毎) 通常のMDPの遷移確率 (離散アクション a に依存する) 念MDPの コスト 普通MDPの コスト 状態 i のコスト 「ベースの確率」と 「念の入った確率」 の KL-divergence

対応する念MDPの解が、もとのMDPを再現する念じ方になっていない可能性があるので、あくまで近似解法 対応する念MDP上で、アクション a と同等のことをしようと思ったら、 のように念じれば、その結果はもともとのMDPと同じになる 問題: 対応する念MDPにおける、最適コストな念じる力 は、必ずしもどれかの a の には一致しない 解決策: 近似でがまん 求めた と を使って、念MDPを解き を得る に、もっとも近い をもつアクション a をえらべばよい ホントにこれでいいのかなあ… ⇒ 曰く、「整数計画を線形計画で近似するやつを想像してみ」

ここまでのまとめ: 最短経路問題が、念MDPとして書ける 念じる力は、どっちへむかうかという経路選択のポリシーと対応付ける コストを、終点までの距離に対応付ける コストにKL-divergenceが余分に入ってしまう問題は、KL以外のコストを大きくすることで相対的にKLが無視できるようにすることで解決 通常の離散アクションMDPを、念MDPとして近似的に解く 離散アクションMDPと等価な、念MDPを考える 念MDPを解いて得られる念じ方は、もとのMDPを再現する念の入れ方とは違う可能性がある もとのMDPのアクションはそれと近いものを選ぶことで近似的に解決

おわり このあと、離散MDPの確率などもわからない場合(強化学習: Q-learning)の場合に、実際に行動をとって得られたサンプルを使って、stochastic approximationする方法も提案される 普通のQ-learning よりも収束が速い 「離散的なmax(or min)操作を連続値に置き換えて閉じた形で解く」という技としてみると、他にもいろいろ使い道があるような気がする… parsing とかの、structure output 問題とか… 連続状態化できるかな?