強化学習 RT.

Slides:



Advertisements
Similar presentations
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
Advertisements

白井 良明 立命館大学情報理工学部 知能情報学科
実時間探索 (Real-Time Search)
実時間探索 (Real-Time Search)
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
Actor-Criticを用いた 知的ネットワークシステムの提案
Day2 Problem I: Memory Match ~神経衰弱~
補章 時系列モデル入門 ー 計量経済学 ー.
多々納 裕一 京都大学防災研究所社会システム研究分野
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Probabilistic Method.
Reed-Solomon 符号と擬似ランダム性
シミュレーション論 Ⅱ 第12回 強化学習.
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
プログラミングとは Q.プログラムとは何か? A.コンピュータを制御するための,コンピュータに対する命令(指示)の集まり.
東京工業大学 機械制御システム専攻 山北 昌毅
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
人工知能概論 第6章 確率とベイズ理論の基礎.
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
強化学習 RT.
Hybrid ccにおけるアニメーションが破綻しないための処理系の改良
ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム
エージェントについて 上杉裕也.
インフレはなぜ止まらないのか?.
Semi-Supervised QA with Generative Domain-Adaptive Nets
IPv6アドレスによる RFIDシステム利用方式
補章 時系列モデル入門 ー 計量経済学 ー.
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
地球温暖化と森林 西浦 長谷川 馬場 曵地 藤田.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
計算機実験の計画 References 研究目的 囲碁・将棋での強化学習 高信頼性人工知能システムへの展望 大規模な強化学習技術の実証と応用
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
決定木とランダムフォレスト 和田 俊和.
勉強会その3    2016/5/1 10 8分35秒 データの表現 演算.
システム演習B課題演習報告 森山了一(鈴木研究室)
音高による音色変化に着目した音源同定に関する研究
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
強化学習 3回目の内容 RT.
3-3.テーブルを更新する 2004年 4月22日(木) 01T6074X 茂木啓悟.
独立成分分析 (ICA:Independent Component Analysis )
早わかりアントコロニー最適化 (Ant Colony Optimization)
様々なシミュレーション手法(3) 強化学習/カオスとフラクタル
強化学習におけるマクロを用いた 行動系列の獲得
生  物  数  学 斉木 里恵.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
計算機科学概論(応用編) 数理論理学を用いた自動証明
電機情報工学専門実験 6. 強化学習シミュレーション
階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御
Fourier 変換 Mellin変換 演習課題
不完全な定点観測から 真の不正ホストの分布が分かるか?
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ベイズ最適化 Bayesian Optimization BO
文法と言語 ー文脈自由文法とLR構文解析ー
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
ITSにおける 知的ネットワークシステムの構築 - 知的信号機システムの提案 -
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
4.プッシュダウンオートマトンと 文脈自由文法の等価性
第Ⅰ部 非協力ゲームの理論 第6章 情報の価値 2008/07/01(火) ゲーム理論合宿 M2 渡辺美穂.
データ構造と アルゴリズムI 第三回 知能情報学部 新田直也.
Fourier 変換 Mellin変換 演習課題
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

強化学習 RT

強化学習とは… きっかけAに対して行動Bをおこす ごほうびをあたえる 上記を繰り返しすることで、きっかけAに対し 行動Bを起こしやすくなる

よりたくさんもらえるように行動を最適化していく 強化学習の枠組み 環境 環境 行動a 状態S 強化信号(報酬)r 学習者 学習者は強化信号(報酬)が よりたくさんもらえるように行動を最適化していく

Monkey and Banana Problem Initial Situation: at(monkey,a) at(bananas,b) at(box,C) height(monkey,low) height(banana,high) height(box,low) !grasp(monkey,bananas) path(a,b) path(b,a) path(a,c) path(c,a) path(b,c) path(c,b) Final Situation: has(monkey,bananas). Four Actions GO monkey from location x to location y IF at(monkey,x) path(x,y) ADD go(monkey,y) at(monkey,y) DELETE at(monkey,x) GRASP monkey bananas IF at(monkey,x) at(bananas,x) height(monkey,y) height(bananas,y) ADD grasp(monkey,bananas) has(monkey,bananas) CLIMB monkey on top of box IF at(monkey,x) at(box,x) height(monkey,low) height(box,low) ADD climb(monkey,box) height(monkey,high) DELETE height(monkey,low) PUSH monkey box from location x to location y IF at(monkey,x) at(box,x) height(monkey,low) height(box,low) path(x,y) ADD push(monkey,box,y) at(monkey,y) at(box,y) DELETE at(monkey,x) at(box,x)

Monkey and Banana Problem Initial Situation: at(monkey,a) at(bananas,b) at(box,c) height(monkey,low) height(banana,high) height(box,low) !grasp(monkey,bananas) path(a,b) path(b,a) path(a,c) path(c,a) path(b,c) path(c,b) Final Situation: has(monkey,bananas)

Four Actions GO monkey from location x to location y IF at(monkey,x) path(x,y) ADD go(monkey,y) at(monkey,y) DELETE at(monkey,x) GRASP monkey bananas IF at(monkey,x) at(bananas,x) height(monkey,y) height(bananas,y) ADD grasp(monkey,bananas) has(monkey,bananas) CLIMB monkey on top of box IF at(monkey,x) at(box,x) height(monkey,low) height(box,low) ADD climb(monkey,box) height(monkey,high) DELETE height(monkey,low) PUSH monkey box from location x to location y IF at(monkey,x) at(box,x) height(monkey,low) height(box,low) path(x,y) ADD push(monkey,box,y) at(monkey,y) at(box,y) DELETE at(monkey,x) at(box,x)

強化学習の枠組み(その2) エージェント 状態の同定 環 境 ルール集合 ルール候補の選択 強化 行為選択 学習器 観測入力 状態 ルール 行為の実行 行為選択 学習器 報酬

補足 環境認識の際、十分な情報を認識できる 1.が十分でないと、同じ状態のものを 違う状態と誤認し、学習してしまう、 エイリアシンと呼ばれる問題生じる

マルコフ決定過程 報酬 a b 1 c 0.2 0.8 0.4 0.6 遷移確率 行為 状態遷移図であらわす 報酬、状態、行為を示す 状態遷移確率は現在の状態のみに依存する 状態遷移確率は時間的に変動しない 報酬 S1 S2 S3 a b 1 c 0.2 0.8 0.4 0.6 遷移確率 行為

行動決定 a b c d e V(s,π) = r(s, π(s)) + γ∑P(s,π(s),s´)V(s´,π) 各状態から行為を選ぶことを政策(Policy )という 行為 a b c d e 環境 状態S 行動a 状態sは政策πに従って将来得られるだろう報酬 を割り引いた割引期待報酬によって評価される V(s,π) = r(s, π(s)) + γ∑P(s,π(s),s´)V(s´,π) Vを最大にする政策πを最適政策という

ただ、マルコフ決定過程があらかじめ、 完全に記述できるとは限らない。 多くの場合、状態空間や取りえる行動は 既知だが、遷移確率は未知 Q学習

Q学習 遷移確率がわからなくても、   学習可能 評価値としてQ値を用いる 実際の試行探索過程を通して  学習 状態と行為をペアとして考える

Q学習法のながれ Q値の初期化 現在の状況をsとする 政策に従い行動決定 Q値の最大ルールの選択 状態がs´になる

(1-α) Q(s,a) + α (r(s,a) +γmaxQ(s´,a´) ) αは学習率(0≦α≦1) r(s,a)は報酬 γは割引率(0≦γ≦1)

Q(s,a) + α(r + γmaxQ(s´,a´) – Q(s,a)) 行動はup,down,left,right S G 1 2 3 4 5 6 7 8 9 10 Q(1,right) 0 + 0.5(0 + 0.1 × 0 - 0) Q(7,right) 0 + 0.5(0 + 0.1 × 0 - 0) Q(9,right) 0.5 + 0.5(1 + 0.1 × 0 – 0.5) Q(8,right) 0 + 0.5(0 + 0.1 × 0.5 - 0) Q(2,down) 0 + 0.5(0 + 0.1 × 0 - 0) Q(1,down) 0 + 0.5(0 + 0.1 × 0 - 0) Q(6,right) 0 + 0.5(0 + 0.1 × 0 - 0) Q(9,right) 0 + 0.5(1 + 0.1 × 0 - 0) Q(s,a) Q(s,a) + α(r + γmaxQ(s´,a´) – Q(s,a)) a´ r = 1か0 α = 0.5 γ = 0.1

参考文献 「インテリジェントシステム」  福田敏男 編著 「人工知能の基礎」       馬場口登、山田誠二 共著 「強化学習」           三上貞旁、皆川雅章 共訳