強化学習 3回目の内容 RT.

Slides:



Advertisements
Similar presentations
主専攻実験 第1回 ガイダンス資料 TA : 野坂 龍佑 (M2), 高林大輔 (M1)
Advertisements

5.制御構造と配列 場合分け( If Then Else , Select Case ) 繰返し( Do While ) 繰返しその2( For Next )
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
シミュレーション論Ⅰ 第 7 回 待ち行列のシミュレーション(2). 第 6 回のレポート(解答例) 乱数表より乱数を記入し、到着間隔・サービス時間にした がってグラフを作成する 例) 最大待ち人数:2人 最大待ち時間:5分 平均待ち時間:3分.
DTM を使った楽曲制作 DTM を扱う職業などの調査 北海道情報大学 情報メディア学 部 情報メディア学科 新井山ゼミ 宮本 拓美.
データ分析入門(12) 第12章 単回帰分析 廣野元久.
プログラムのパタン演習 解説.
3.2.3~3.3 D3 川原 純.
15.1 文字列処理の基本 15.2 文字列処理用ライブラリ関数
プログラミング言語としてのR 情報知能学科 白井 英俊.
強化学習 RT.
コンピュータ囲碁の仕組み ~ 将棋との違い ~
情報基礎実習I (第7回) 木曜4・5限 担当:北川 晃.
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
アルゴリズムイントロダクション第5章( ) 確率論的解析
第10回 ソート(1):単純なソートアルゴリズム
人 工 知 能 第3回 探索法 (教科書21ページ~30ページ)
情報工学概論 (アルゴリズムとデータ構造)
Bias2 - Variance - Noise 分解
Paper from PVLDB vol.7 (To appear in VLDB 2014)
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
岩手県立大学 ソフトウェア情報学部 澤本研究室 佐々木拓也
強化学習 RT.
情報基礎A 第14週プログラミング 実際のデータ処理での応用(2)
データ構造とアルゴリズム論 第2章 配列(構造)を使った処理
ピカチュウによる オブジェクト指向入門 (新版)
黒澤 馨 (茨城大学) 情報セキュリティ特論(7) 黒澤 馨 (茨城大学)
Semi-Supervised QA with Generative Domain-Adaptive Nets
テキストボックス、チェックボックス×2、コマンドボタンを配置する。 コマンドボタンに機能を与える
JPNICデータベースへの認証 機能導入について
黒澤 馨 (茨城大学) 情報セキュリティ特論(5) 黒澤 馨 (茨城大学)
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
プログラミング言語論 第3回 BNF記法について(演習付き)
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
クイックソート.
ランダムグラフ エルデシュとレーニイによって研究された.→ER-model p:辺連結確率 N:ノード総数 分布:
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
第4回 ファイル入出力方法.
サンクションの進化モデル 大浦宏邦 (帝京大学).
ソフトウェア制作論 平成30年10月10日.
電機情報工学専門実験 6. 強化学習シミュレーション
Number of random matrices
研究背景と目的 局面対による学習の高速化 学習器の説明 今後 大規模な強化学習技術の実証と応用 一方で、 強化学習手法の台頭
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
15.1 文字列処理の基本 15.2 文字列処理用ライブラリ関数
先週の復習 2重ループを用いた、 表の記入と読み込み.
ベイズ最適化 Bayesian Optimization BO
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
シミュレーション論Ⅰ 第7回 シミュレーションの構築と実施.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Max Cut and the Smallest Eigenvalue 論文紹介
人工知能特論II 第8回 二宮 崇.
System.AddInを利用したアプリケーション拡張 - アドインの開発 -
オープンソースソフトウェアに対する コーディングパターン分析の適用
1. API機能による統計データの高度利用環境の構築
7.8 Kim-Vu Polynomial Concentration
アルゴリズムの視覚化 この図は左が大きく、 右が小さくなるようにソートしている  この図は左が大きく、  右が小さくなるようにソートしている
AAMと回帰分析による視線、顔方向同時推定
15.1 文字列処理の基本 15.2 文字列処理用ライブラリ関数
場合分け(If Then Else,Select Case) 繰返し(Do While) 繰返しその2(For Next)
System.AddInを利用したアプリケーション拡張 - アドインの開発 -
第3回Bashゼミ for文処理について 発表者 直江 宗紀.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

強化学習 3回目の内容 RT

Q学習式の算出   Q学習は方策オフ型 (行動選択に使用される 方策と学習式で想定 されている方策は 異なる)  

モンテカルロ法とは… とりあえず数回ランダムに試行して 結果の平均で対象のパラメタを推定

εソフト方策オン型モンテカルロ制御 すべてのs∈Sとa∈A(s)に対して初期化を行う: Q(s, a)←任意,Returns(s, a) ←空のリスト π←任意のε ソフト方策, π(s,a) ←(s, a)の選択確率 ●無制限に繰り返す:  (a)πを用いてエピソード(sとaのペア列)を1つ作成 (b)エピソード中に出現する各sとaのペアについて:     R ←sとaのペアの初回発生後の総収益     Returns(s, a) にRを追加     Q(s, a) ←average(Returns(s, a)) (c)エピソード中の各sについて: a*← arg max_a Q(s, a)  すべてのa∈A(s)について:    π(s, a) ← 1- ε+ ε/|A(s)| (if a = a*)    ε/|A(s)| (otherwise) 全要素の平均

参考サイト http://www.cs.ualberta.ca/~sutton/book/ebook/node54.html

応用(Second Life) Merrick, K.: (2007) Modelling Motivation for Adaptive Non-Player Characters in Dynamic Computer Game Worlds, ACM Computers in Entertainment, Newton Lee (Ed.), (to appear). http://www.cs.usyd.edu.au/~kkas0686/publications/CiE-merrick-revised.pdf

SLにおけるかじ屋と大工屋の学習 (溶錬) (炉) (つるはし) (ろくろ) (おの)

かじ屋と大工屋の学習結果

モンスターの登場 (外部による環境変化)

モンスター登場前と後の大工屋の学習結果