電機情報工学専門実験 6. 強化学習シミュレーション

Slides:

Advertisements

Similar presentations

Actor-Criticを用いた知的ネットワークシステムの提案

Advertisements

情報処理実習　第０５回 Excelマクロ機能入門操作マクロ入門.

機械学習勉強会～強化学習～ 11/18 江原遥.

ループで実行する文が一つならこれでもＯＫ

情報・知能工学系山本一公プログラミング演習Ⅱ 第4回配列（２）情報・知能工学系山本一公

強化学習 RT.

JavaによるCAI学習ソフトウェアの開発

岩村雅一知能情報工学演習I 第９回（C言語第３回）岩村雅一

データ構造とアルゴリズム理工学部情報システム工学科新田直也.

シミュレーション論 Ⅱ 第１２回強化学習.

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

パスワードをつけよう！～ワード・エクセル・一太郎・その他（アタッシェケース）～

10.Private Strategies in Games with Imperfect Public Monitoring

先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning

webブラウザ proxy設定 (HTTP1.0)

情報科学１（G1）２０１６年度.

エージェントアプローチ人工知能　21章 B4　片渕聡.

強化学習 RT.

データ構造とアルゴリズム知能情報学部新田直也.

(ラプラス変換の復習) 教科書には相当する章はない

Semi-Supervised QA with Generative Domain-Adaptive Nets

シミュレーション演習 G. 総合演習（Mathematica演習）システム創成情報工学科

基礎プログラミング演習第１回.

プログラミング基礎ａ第８回プログラムの設計アルゴリズムとデータ構造

第７回　条件による繰り返し.

情報工学総合演習 D-I 近似アルゴリズム埼玉大学理工学研究科山田敏規、橋口博樹、堀山貴史

システムモデルと伝達関数 1. インパルス応答と伝達関数キーワード：伝達関数、インパルス応答、ステップ応答、ランプ応答

シミュレーション論 Ⅱ 第１２回様々なシミュレーション手法（３）　強化学習.

計算物理学基礎第１回ＵＮＩＸの基礎Ｃ言語の基本.

第６章連立方程式モデルｰ計量経済学ｰ.

協調機械システム論 ( ，本郷）協調機械システム論東京大学　人工物工学研究センター淺間　一.

岩村雅一知能情報工学演習I 第１１回（後半第５回）岩村雅一

形式言語とオートマトン Formal Languages and Automata 第４日目

形式言語とオートマトン Formal Languages and Automata 第４日目

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

第25章単一始点最短路 3節 Bellman-Fordのアルゴリズム

形式言語とオートマトン Formal Languages and Automata 第４日目

7.4 Two General Settings D3 杉原堅也.

独立成分分析５　アルゴリズムの安定性と効率２００７/１０/２４　　　名雪　勲.

強化学習 3回目の内容 RT.

第７回　条件による繰り返し.

6. ラプラス変換.

強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon

強化学習におけるマクロを用いた行動系列の獲得

Webプロキシ HTTP1.0 ヒント CS-B3　ネットワークプログラミング　＆情報科学科実験I.

2009年12月4日 ○ 前田康成（北見工業大学）吉田秀樹（北見工業大学）鈴木正清（北見工業大学）松嶋敏泰（早稲田大学）

地域情報学 C言語プログラミング第1回導入、変数、型変換、printf関数 2016年11月11日

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

プログラミング基礎ａ第８回プログラムの設計アルゴリズムとデータ構造

情報処理　タイマの基礎 R8C タイマの基礎.

電気回路学Ⅱ コミュニケーションネットワークコース 5セメ山田博仁.

岩村雅一知能情報工学演習I 第１１回（後半第５回）岩村雅一

階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

電気回路学Ⅱ 通信工学コース 5セメ山田博仁.

ベイズ最適化 Bayesian Optimization BO

文法と言語ー文脈自由文法とLR構文解析ー

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

人工知能特論II　第8回二宮　崇.

ITSにおける知的ネットワークシステムの構築 - 知的信号機システムの提案 -

バネモデルのシミュレータ作成精密工学科プログラミング基礎資料.

電気回路学Ⅱ 通信工学コース 5セメ山田博仁.

Cプログラミング演習ニュートン法による方程式の求解.

Q q 情報セキュリティ第８回：２００４年５月２８日（金）の補足 q q.

情報処理Ⅱ ２００５年１１月２５日（金）.

Webプロキシ HTTP1.1 ヒント CS-B3　ネットワークプログラミング　＆情報科学科実験I.

情報処理Ⅱ 第３回 2004年10月19日（火）.

混合ガウスモデル Gaussian Mixture Model GMM

岩村雅一知能情報工学演習I 第９回（C言語第３回）岩村雅一

Presentation transcript:

電機情報工学専門実験 6. 強化学習シミュレーション

強化学習(Reinforcement Learning: RL) 環境報酬 r Agent 状態 s （観測）行動 a 方策（行動の取り方） π に従って行動選択

○ RL Agent の目的・・・最終的に得られる総報酬を最大化すること「上の目的を達成できるよう方策 π を最適化」 π は一般的に　　　　　　　　　　　　　　　　　　で表現される条件付き確率：時刻 t でAgent の状態が s である下で、行動 a を取る確率総報酬（収益）（T ：最終時間ステップ）ただし、T = ∞ でも ∞ となるので、通常はの最大化を考える（　　　　　　；　：割引率）

マルコフ決定過程（ＭＤＰ）通常、得られる報酬は Agent の過去の振舞に依存過去の全行動を考慮することは困難多くの RL 問題では、マルコフ決定過程（ＭＤP)下の環境を取扱うＭＤＰ・・・次状態 st+1 は、st と at “のみ”で決まる MDP における状態遷移確率　　　、報酬の期待値　　　は以下で表される

とすると、方策 π に従う Agent が状態 s で行動 a を取ると、以降得られる報酬は＝行動価値関数以降の行動も π に従うとすると、と書けるに関する Bellman 方程式

RL では　　　　　　を最大とするようなある π （最適方策）を知りたい！二つの方策　π と π’ がある時、全状態でならば、 π は π’ と同等か、それ以上他の全方策より良い or 同等の方策・・・最適方策 π* 　　　　　　　　　　　　　　　　　　　　　　　　　（必ず一つ以上存在） π* の持つ最適行動価値関数は、で計算可能（Bellman 最適方程式）

DP ・・・ (1) 環境のモデル（と）が存在すること (2) 環境がＭＤＰでモデル化を求める方法 ○ 動的計画法(Dynamic Programming: DP) ○ RL ー　最適方策獲得の条件　－ DP ・・・ (1) 環境のモデル（　　と　　）が存在すること　　　　　 (2) 環境がＭＤＰでモデル化多くのRL ・・・ (1) 環境がＭＤＰでモデル化

動的計画法（DP） DP ・・・ Agent が経験し得る全状態の価値関数を、反復動作によって獲得する手法 ○ 価値関数更新の手順　　　　　によって獲得する手法 ○ 価値関数更新の手順全ての s において V(s) の値を V0(s) へ初期化（通常は０）全ての s において以下を実行全ての s において計算した | Vk(s) – Vk-1(s) | の最大値が任意の小さな値δ未満となるまで2. を繰り返し

RL (Q-learning) RL ・・・環境のモデル（ , ）を必要とせず、試行錯誤的に最適方策を学習する手法大別すると・・・方策オン型　：　sarsa, sarsa(λ) 方策オフ型　：　TD法, TD(λ) 実験では、方策オフ型の代表的手法である、 Q-learning (TD(0)) を取り上げる

Q-learning のアルゴリズム１ Q-learning では、DPのように環境のモデルが既知でなくても、以下の条件が満たされる状況において、無限大の繰り返しを経て最適方策へ収束することが保障されている挙動方策（テキスト参照）が、全状態行動対を選択する可能性を確保している学習率αが以下の式を満たす ※ 条件2. は、学習率が漸進的に減少することを意味しているが、実験では簡単のため、αの値は一定とする

Q-learning のアルゴリズム２ Q-learning におけるQ値（Q(s, a)）の更新手順 Q(s, a) を任意の値へ初期化挙動方策（例：ε-グリーディ方策など）に従って行動選択行動 a を選択した結果、報酬 r と次状態 s’ を観測した時、以下の更新式に従ってQ値を更新 s が終端状態（最終的な目標状態）ならば終了して、2. へ戻り学習を繰り返し。学習自体の終了条件を満たしている場合は学習を終了

C 言語によるプログラムについて・コンパイルは、cc 、または gcc を用いて下さい。　例）　test1.c というファイルをコンパイルして、test1run という　　　　実行ファイルを作る場合は、　　　　　　　　　　　cc –o test1run test1.c [Return] 　　　　と入力　　　　このファイルを実行する場合は、　　　　　　　　　　　./test1run　（つまり、 ./実行ファイル名）　　　　と入力すれば良い・ C言語によるプログラミングに関する参考サイト　「0から始めるC言語学習帳」：　　　　http://effy.ldw.jp/c/index.html 　「C言語講座」：　　　　http://www.sgnet.co.jp/c/

E-mail が一番確実（すぐ返信できるとは限りません）実験時間外の質問・問い合わせについて E-mail が一番確実（すぐ返信できるとは限りません） funase.arao@nitech.ac.jp 居室まで直接来てもらっても構いません（2号館2階220Ａ）（曜日、時間帯によっては不在の場合も）実験情報に関するHP： http://www-tkm.ics.nitech.ac.jp/~arao/lecture/EJ_Exp10/EJ_index.html

演習室でのブラウザ利用についてまず、proxy の設定を行ってください Firefox を開く（マウスの右クリックメニューで選択 or “firefoxl” とキーボードから入力）メニューの「編集」→「設定」→「詳細」を選択し、表示されたウィンドウの「ネットワーク」タブを選択「接続設定」をクリックして、HTTPプロキシを　　　proxy-b.mains.nitech.ac.jp 　　　ポートを　　　8080 　　に設定する