電機情報工学専門実験 6. 強化学習シミュレーション

Slides:



Advertisements
Similar presentations
Actor-Criticを用いた 知的ネットワークシステムの提案
Advertisements

情報処理実習 第05回 Excelマクロ機能入門 操作マクロ入門.
機械学習勉強会~強化学習~ 11/18 江原遥.
ループで実行する文が一つならこれでもOK
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第4回 配列(2) 情報・知能工学系 山本一公
強化学習 RT.
JavaによるCAI学習ソフトウェアの開発
岩村雅一 知能情報工学演習I 第9回(C言語第3回) 岩村雅一
データ構造と アルゴリズム 理工学部 情報システム工学科 新田直也.
シミュレーション論 Ⅱ 第12回 強化学習.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
パスワードをつけよう! ~ワード・エクセル・一太郎 ・その他(アタッシェケース)~
10.Private Strategies in Games with Imperfect Public Monitoring
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
webブラウザ proxy設定 (HTTP1.0)
情報科学1(G1) 2016年度.
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
強化学習 RT.
データ構造と アルゴリズム 知能情報学部 新田直也.
(ラプラス変換の復習) 教科書には相当する章はない
Semi-Supervised QA with Generative Domain-Adaptive Nets
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
基礎プログラミング演習 第1回.
プログラミング基礎a 第8回 プログラムの設計 アルゴリズムとデータ構造
第7回 条件による繰り返し.
情報工学総合演習 D-I 近似アルゴリズム 埼玉大学 理工学研究科 山田 敏規、 橋口 博樹、 堀山 貴史
システムモデルと伝達関数 1. インパルス応答と伝達関数 キーワード : 伝達関数、インパルス応答、 ステップ応答、ランプ応答
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
計算物理学基礎 第1回 UNIXの基礎 C言語の基本.
第6章 連立方程式モデル ー 計量経済学 ー.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
岩村雅一 知能情報工学演習I 第11回(後半第5回) 岩村雅一
形式言語とオートマトン Formal Languages and Automata 第4日目
形式言語とオートマトン Formal Languages and Automata 第4日目
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
形式言語とオートマトン Formal Languages and Automata 第4日目
7.4 Two General Settings D3 杉原堅也.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
強化学習 3回目の内容 RT.
第7回 条件による繰り返し.
6. ラプラス変換.
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
強化学習におけるマクロを用いた 行動系列の獲得
Webプロキシ HTTP1.0 ヒント CS-B3 ネットワークプログラミング  &情報科学科実験I.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
地域情報学 C言語プログラミング 第1回 導入、変数、型変換、printf関数 2016年11月11日
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
プログラミング基礎a 第8回 プログラムの設計 アルゴリズムとデータ構造
情報処理 タイマの基礎 R8C タイマの基礎.
電気回路学Ⅱ コミュニケーションネットワークコース 5セメ 山田 博仁.
岩村雅一 知能情報工学演習I 第11回(後半第5回) 岩村雅一
階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
電気回路学Ⅱ 通信工学コース 5セメ 山田 博仁.
ベイズ最適化 Bayesian Optimization BO
文法と言語 ー文脈自由文法とLR構文解析ー
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
ITSにおける 知的ネットワークシステムの構築 - 知的信号機システムの提案 -
バネモデルの シミュレータ作成 精密工学科プログラミング基礎 資料.
電気回路学Ⅱ 通信工学コース 5セメ 山田 博仁.
Cプログラミング演習 ニュートン法による方程式の求解.
Q q 情報セキュリティ 第8回:2004年5月28日(金) の補足 q q.
情報処理Ⅱ 2005年11月25日(金).
Webプロキシ HTTP1.1 ヒント CS-B3 ネットワークプログラミング  &情報科学科実験I.
情報処理Ⅱ 第3回 2004年10月19日(火).
混合ガウスモデル Gaussian Mixture Model GMM
岩村雅一 知能情報工学演習I 第9回(C言語第3回) 岩村雅一
Presentation transcript:

電機情報工学専門実験 6. 強化学習シミュレーション

強化学習(Reinforcement Learning: RL) 環境 報酬 r Agent 状態 s (観測) 行動 a 方策(行動の取り方) π に 従って行動選択

○ RL Agent の目的 ・・・ 最終的に得られる総報酬を最大化すること 「上の目的を達成できるよう方策 π を最適化」 π は一般的に                  で表現される 条件付き確率: 時刻 t でAgent の状態が s である下で、 行動 a を取る確率 総報酬(収益) (T :最終時間ステップ) ただし、T = ∞ で も ∞ となるので、通常は の最大化を考える(      ;  :割引率)

マルコフ決定過程(MDP) 通常、得られる報酬は Agent の過去の振舞に依存 過去の全行動を考慮することは困難 多くの RL 問題では、マルコフ決定過程(MDP)下の環境を取扱う MDP ・・・ 次状態 st+1 は、st と at “のみ”で決まる MDP における状態遷移確率   、報酬の期待値   は以下で表される

とすると、 方策 π に従う Agent が状態 s で行動 a を取ると、 以降得られる報酬は = 行動価値関数 以降の行動も π に従うとすると、 と書ける に関する Bellman 方程式

RL では      を最大とするようなある π (最適方策)を知りたい! 二つの方策 π と π’ がある時、全状態で ならば、 π は π’ と同等か、それ以上 他の全方策より良い or 同等の方策 ・・・ 最適方策 π*                          (必ず一つ以上存在) π* の持つ最適行動価値関数は、 で計算可能(Bellman 最適方程式)

DP ・・・ (1) 環境のモデル( と )が存在すること (2) 環境がMDPでモデル化 を求める方法 ○ 動的計画法(Dynamic Programming: DP) ○ RL ー 最適方策獲得の条件 - DP ・・・ (1) 環境のモデル(  と  )が存在すること       (2) 環境がMDPでモデル化 多くのRL ・・・ (1) 環境がMDPでモデル化

動的計画法(DP) DP ・・・ Agent が経験し得る全状態の価値関数を、反復動作 によって獲得する手法 ○ 価値関数更新の手順      によって獲得する手法 ○ 価値関数更新の手順 全ての s において V(s) の値を V0(s) へ初期化(通常は0) 全ての s において以下を実行 全ての s において計算した | Vk(s) – Vk-1(s) | の最大値が任意の小さな値δ未満となるまで2. を繰り返し

RL (Q-learning) RL ・・・ 環境のモデル( , )を必要とせず、試行錯誤 的に最適方策を学習する手法 大別すると・・・ 方策オン型 : sarsa, sarsa(λ) 方策オフ型 : TD法, TD(λ) 実験では、方策オフ型の代表的手法である、 Q-learning (TD(0)) を取り上げる

Q-learning のアルゴリズム1 Q-learning では、DPのように環境のモデルが既知でなくても、 以下の条件が満たされる状況において、無限大の繰り返しを経て 最適方策へ収束することが保障されている 挙動方策(テキスト参照)が、全状態行動対を選択する可能性を確保している 学習率αが以下の式を満たす ※ 条件2. は、学習率が漸進的に減少することを意味しているが、 実験では簡単のため、αの値は一定とする

Q-learning のアルゴリズム2 Q-learning におけるQ値(Q(s, a)) の更新手順 Q(s, a) を任意の値へ初期化 挙動方策(例:ε-グリーディ方策など)に従って行動選択 行動 a を選択した結果、報酬 r と次状態 s’ を観測した時、以下の更新式に従ってQ値を更新 s が終端状態(最終的な目標状態)ならば終了して、2. へ戻り学習を繰り返し。学習自体の終了条件を満たしている場合は学習を終了

C 言語によるプログラムについて ・ コンパイルは、cc 、または gcc を用いて下さい。  例) test1.c というファイルをコンパイルして、test1run という     実行ファイルを作る場合は、            cc –o test1run test1.c [Return]     と入力     このファイルを実行する場合は、            ./test1run (つまり、 ./実行ファイル名)     と入力すれば良い ・ C言語によるプログラミングに関する参考サイト  「0から始めるC言語学習帳」:     http://effy.ldw.jp/c/index.html  「C言語講座」:     http://www.sgnet.co.jp/c/

E-mail が一番確実(すぐ返信できるとは限りません) 実験時間外の質問・問い合わせについて E-mail が一番確実(すぐ返信できるとは限りません) funase.arao@nitech.ac.jp 居室まで直接来てもらっても構いません(2号館2階220A) (曜日、時間帯によっては不在の場合も) 実験情報に関するHP: http://www-tkm.ics.nitech.ac.jp/~arao/lecture/EJ_Exp10/EJ_index.html

演習室でのブラウザ利用について まず、proxy の設定を行ってください Firefox を開く(マウスの右クリックメニューで選択 or “firefoxl” とキーボードから入力) メニューの「編集」→「設定」→「詳細」を選択し、表示されたウィンドウの「ネットワーク」タブを選択 「接続設定」をクリックして、HTTPプロキシを    proxy-b.mains.nitech.ac.jp    ポートを    8080   に設定する