Linearly-solvable Markov decision problems Emanuel Todorov (UCSD)

Linearly-solvable Markov decision problems Emanuel Todorov (UCSD)
Figures are borrowed from the paper in NIPS2006 これを読む人：鹿島久嗣（IBM TRL）

この論文の目的：超速くマルコフ決定過程を解く
超速く解けるマルコフ決定過程（MDP）のクラス（「linearMDP」、別名「念じるMDP」、略して「念MDP」）を提案するある種の連続的な入力「念」をもつ特殊なMDPを考える最大固有ベクトルを求める問題に帰着される通常の離散アクションをもつMDPを、念MDPで近似する最短経路問題を、念MDPで近似する方法を提案する通常の離散アクションをもつMDPを、念MDPで近似する方法を提案する単語リストと生コーパスによる確率的言語モデルの分野適応森信介自然言語処理 (2006) Language Model Adaptation with a Word List and a Raw Corpus Shinsuke MORI ICSLP 2006

著者について著者のEmanuel Todorov はUCSD の人主に（人間を含む）制御系の話を研究しているらしい
NIPS常連さんらしいちょっと「脳みそNIPS」よりの人のようだ？参考文献4件（!）なので、なにか本質的に新しい技を提案してるかも？

マルコフ決定過程（MDP）のおさらい

マルコフ決定過程（MDP）のおさらい：マルコフ決定過程は、「アクションつきの」マルコフ過程
各状態でアクションを選ぶと、あるコストが発生して次の状態に行くというのを繰り返していくゲームを考える状態 i から状態 j に遷移する確率が、状態 i においてとるアクション u に依存する状態遷移確率 pij(u) （普通のマルコフ過程ではコレがuに依存しない）状態 i でアクション u をとると、コスト l(i, u) が発生する終了状態のどれかに到達すると終了 ⇒ 総期待コストが最小になるようなアクションuを決定したい解き方：各状態の価値関数 v(i) についての再帰式を解く価値関数 v(i) ：状態 i から、将来にわたってかかるコストの期待値通常、value iteration (か policy iteration) によって解く（以下を繰り返す）現在の行動ポリシーのもとで、再帰式を解き、価値関数を得る現在の価値関数のもとで、最良の行動ポリシーを決定する 0.3 0.7 0.7 0.3 状態 i の価値状態 i で行動 u のコスト次の状態 j の価値遷移確率（行動に依存） red と blue の２つのアクションのどちらをとるかで遷移確率がかわる

速く解けるMDP

MDPをもっと速く解きたい：固有値計算一発で最良の行動ポリシーが求まる「念MDP」のクラスを考えた
状態 i でアクションを「状態 j に行けと念じるパワー uj 」によって与えるとする遷移確率が念uj によって変わるようなモデルを考えるすると、以下の式を解けば状態の価値 v(i) が求まるよく観ると、（固有値１の）最大固有ベクトルを求めることになっている反復計算：非ゼロのの個数に比例した時間結果、最適なアクション（念）は求まった v(i) を以下の式に代入すると求まるホントはこう書くのが正しいベースの遷移確率状態 j に行けと念じる力（注：i ごとに異なる）実際の遷移確率（行動に依存） given

実は、念MDPには、もうひとつ、コストに仮定をおいている：「大きく分布を曲げるのには、念パワーを使う」
コストは、状態 i のコストと、とのKL-divergence の和とする参考） KL-divergence の計算なぜなら状態 i で行動 u のコスト状態 i のコスト「ベースの確率」と「念の入った確率」の KL-divergence

参考）導出の概要もともとのMDPの式今回の仮定をいろいろ代入すると確率の制約に気をつけて最小化問題を解く → ラグランジュ乗数法
状態 i の価値状態 i で行動 u のコスト次の状態 j の価値遷移確率（行動に依存）もともとのMDPの式今回の仮定をいろいろ代入すると確率の制約に気をつけて最小化問題を解く → ラグランジュ乗数法と、最適な念の強さが求まるこれをまたMDPに入れなおすと（minが落ちて）固有値問題がでてくる状態 i のコストベースの遷移確率念制約：遷移確率の和が１ラグランジアン

ここまでのまとめ：アクションが「右に行く」とか「左に行く」とか離散的ではなく、「i からj に遷移しろと念じる強さ」であるとしたMDPは速くとけるポイントは、連続入力にしたことによって、離散アクションのminが、制約つきの最小化問題として解けちゃうところコッソリ、コストにKL-divergenceが入っているのに注意 KL-divergence とは、ここでは「念の力によってどのくらい遷移確率を曲げたか」コストの解釈：「分布を大きく曲げると、パワーを消耗する」が、実はKL-divergenceには上限があるので、状態コストを大きくすれば、相対的に影響は小さくなる ⇒ でも、このままでは何に使えるのかわからない実は、最短経路問題がコレを使って解ける実は、離散アクションMDPを、念MDPで近似できる

最短経路問題を念MDPで解く

最良の行動ポリシーの下では最短経路の長さになる
最短経路問題は念MDPとして書ける最短経路問題：各状態から終了状態までの最短パスを見つける Dijkstra法はO(|枝| log|ノード|) これを模倣する念MDPをつくるベースの遷移確率はランダムウォークとする状態コスト：一歩あるくごとに、コストρ 最終状態最終状態以外すると、状態の価値は、ρ×（そこから最終状態までの期待ステップ数）＋ KL ρを十分大きくとれば、≒ ρ×（そこから最終状態までの期待ステップ数）と思ってよし ⇒ つまり、最短経路を小さくする念を求めることになる i → j の枝があれば１（多分ホントは何でもいい）最良の行動ポリシーの下では最短経路の長さになる

最短経路問題への適用例左図：ρ小さい右図：ρ大きい（左上がゴール）

離散アクションのMDPを念MDPで近似する

まず、離散アクションのMDPと等価な念MDPを想像する：両者の確率が同じになるようにベースの遷移確率と状態のコストを調整する
遷移確率が同じになる必要があるコストが同じになる必要があるコレを解くと、、、が求まる念MDPのパラメータ普通MDPのパラメータコレをみたしている筈ベースの遷移確率念（アクションa毎）通常のMDPの遷移確率（離散アクション a に依存する）念MDPのコスト普通MDPのコスト状態 i のコスト「ベースの確率」と「念の入った確率」の KL-divergence

対応する念MDPの解が、もとのMDPを再現する念じ方になっていない可能性があるので、あくまで近似解法
対応する念MDP上で、アクション a と同等のことをしようと思ったら、のように念じれば、その結果はもともとのMDPと同じになる問題：対応する念MDPにおける、最適コストな念じる力は、必ずしもどれかの a のには一致しない解決策：近似でがまん求めたとを使って、念MDPを解きを得るに、もっとも近いをもつアクション a をえらべばよいホントにこれでいいのかなあ… ⇒ 曰く、「整数計画を線形計画で近似するやつを想像してみ」

ここまでのまとめ：最短経路問題が、念MDPとして書ける念じる力は、どっちへむかうかという経路選択のポリシーと対応付ける
コストを、終点までの距離に対応付けるコストにKL-divergenceが余分に入ってしまう問題は、KL以外のコストを大きくすることで相対的にKLが無視できるようにすることで解決通常の離散アクションMDPを、念MDPとして近似的に解く離散アクションMDPと等価な、念MDPを考える念MDPを解いて得られる念じ方は、もとのMDPを再現する念の入れ方とは違う可能性があるもとのMDPのアクションはそれと近いものを選ぶことで近似的に解決

おわりこのあと、離散MDPの確率などもわからない場合（強化学習： Q-learning）の場合に、実際に行動をとって得られたサンプルを使って、stochastic approximationする方法も提案される普通のQ-learning よりも収束が速い「離散的なmax(or min)操作を連続値に置き換えて閉じた形で解く」という技としてみると、他にもいろいろ使い道があるような気がする… parsing とかの、structure output 問題とか… 連続状態化できるかな？

Linearly-solvable Markov decision problems Emanuel Todorov (UCSD)

Similar presentations

Presentation on theme: "Linearly-solvable Markov decision problems Emanuel Todorov (UCSD)"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Linearly-solvable Markov decision problems Emanuel Todorov (UCSD)

Similar presentations

Presentation on theme: "Linearly-solvable Markov decision problems Emanuel Todorov (UCSD)"— Presentation transcript:

Similar presentations

About project

フィードバック