エージェントアプローチ 人工知能 21章 B4 片渕 聡.

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
エージェントアプローチ 人工知能 1章・2章  M0 片渕 聡 08/07/02.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
エージェントアプローチ 人工知能 B4 片渕 聡.
機械学習勉強会~強化学習~ 11/18 江原遥.
強化学習 RT.
経済学A ミクロ経済学(第4回) 費用の構造と供給行動
先端論文紹介ゼミ Tracking control for nonholonomic mobile robots: Integrating the analog neural network into the backstepping technique 非ホロノミック移動ロボットのための追従制御:
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
シミュレーション論 Ⅱ 第12回 強化学習.
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
強化学習 RT.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第 七 回 双対問題とその解法 山梨大学.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
エージェントについて 上杉裕也.
誤差の二乗和の一次導関数 偏微分.
3次元での回転表示について.
通信情報システム専攻 津田研究室 M1 佐藤陽介
東京工業大学 機械制御システム専攻 山北 昌毅
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
分布定数回路(伝送線路)とは 電圧(電界)、電流(磁界)は回路内の位置に依存 立体回路 TE, TM波
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
エージェントアプローチ人工知能 11章 プラニング
第14章 モデルの結合 修士2年 山川佳洋.
強化学習 3回目の内容 RT.
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
3次元での回転表示について.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
電機情報工学専門実験 6. 強化学習シミュレーション
Nightmare at Test Time: Robust Learning by Feature Deletion
階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
CCDを用いた星像中心決定実験の結果 ○矢野太平(理研)、郷田直輝、小林行泰、辻本拓司(国立天文台)
偏光X線の発生過程と その検出法 2004年7月28日 コロキウム 小野健一.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
サポートベクターマシン Support Vector Machine SVM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Selfish Routing 4章前半 岡本 和也.
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
Max Cut and the Smallest Eigenvalue 論文紹介
人工知能特論II 第8回 二宮 崇.
担当 兵庫県立大学大学院 応用情報科学研究科 神戸商科大学 商経学部管理化学科 教授 有馬 昌宏
地上分光観測による金星下層大気におけるH2Oの半球分布の導出
AAMと回帰分析による視線、顔方向同時推定
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

エージェントアプローチ 人工知能 21章 B4 片渕 聡

目次 第21章 強化学習

21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ

強化学習とは 現在の状態からエージェントが取るべき方策を学習 何を学習するかはエージェントにより異なる   -効用に基づくエージェント:効用Uπ(s)   -Q学習エージェント:行動-価値関数(Q関数)     ・状態sにおいて行動aを起こした際の期待効用   -反射エージェント:方策(政策)π

環境全体及び自分の位置を知ることができる 例題:4×3問題(再掲) 意図した方向 -0.04 (報酬) G +1 -1 S 0.8 0.1 0.1 環境:完全観測可能 環境全体及び自分の位置を知ることができる

21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ

受動強化学習 エージェントの政策πが固定の場合における学習 受動強化学習のアプローチ法 -直接的な効用推定法 -適応動的計画法(ADP)   -直接的な効用推定法   -適応動的計画法(ADP)   -時間的差分学習(TD)

直接的な効用推定法 Bellman方程式(17章)に従った効用の更新   -Uπ(s)=R(s)+γΣT(s,a,s’)Uπ(s’) s’

適応動的計画法 (Adaptive Dynamic Programming:ADP) 観測から遷移モデルTや報酬Rを学習   -その値をBellman方程式に適用 例:(1,3)において「右に進む」を3回実行     -うち2回の実行結果が(2,3)の場合       T((1,3),Right,(2,3))=2/3 と推定

時間的差分学習 (Temporal-Difference:TD) Bellman(制約)方程式を使わない効用の更新・近似    例:(1,3)(2,3)の遷移(100%遷移すると仮定)     ・Uπ(1,3)=0.84 Uπ(2,3)=0.92 とすると      Bellman方程式(γ=1の場合)より       U’π(1,3)=-0.04+Uπ(2,3)=0.88 となる     これはUπ(1,3)と違うので更新しないとならない       Uπ(s) Uπ(s)+α(R(s)+γUπ(s’)-Uπ(s)) 例でBellman方程式を用いているがこれは概念の説明であって実際の式は赤字の部分である。 α:学習率(パラメータの1つ)

21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ

能動強化学習 政策πをエージェントが決定しないといけない -Uπ(s)=R(s)+γmaxΣT(s,a,s’)Uπ(s’)     ・最適な政策の決定 a s’

行為-価値関数の学習(Q学習) 行動-価値表現Q(a,s)を使用 -可能な行動の中で比較を行うことが可能 Uπ(s’)の値を知る必要が無い   -可能な行動の中で比較を行うことが可能     Uπ(s’)の値を知る必要が無い      ・Q(a,s)=R(s)+γΣT(s,a,s’)maxQ(a’,s’) Q関数の更新は時間的差分学習と同様    Q(a,s) Q(a,s)+α(R(s)+γmaxQ(a’,s’)-Q(a,s)) a’ a’ a’

21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ

強化学習における一般化 巨大な状態空間を扱うために近似の必要がある -Uθ(s)=θ0+θ1f1(s)+θ2f2(s)+・・・      θ:パラメータ(重み)(人間が設定)      f(s):ベース関数(人間が設定)       ・パラメータθ(方策)の学習 例:4×3問題の場合:x座標とy座標     Uθ(x,y)=θ0+θ1x+θ2y ^ 方策の学習=θの学習

パラメータθの更新 θiの更新に誤差関数Ej(s)を利用 -Ej(s)=(Uθ(s)-uj(s))2/2 パラメータθiの更新:       uj(s):状態sにおけるj回の試行までの合計報酬 パラメータθiの更新:   -θiθi-α   =θi-α(Uθ(s)-uj(s)) ^ 誤差関数には最小2乗法を用いている ^ әEj(s) әθi әUθ(s) әθi ^ 誤差の変化率

21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ

政策の探索 効率(効用)が改善される間政策を更新し続ける -π(s)=maxQθ(a,s) ソフトマックス関数を用いた政策の探索   -πθ(s,a)=exp(Qθ(a,s))/∑exp(Qθ(a’,s) ^ a ^ ^ a’

21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ

まとめ 強化学習:効用やQ関数、政策の学習    -ADP法    -TD法 パラメータθを用いた近似関数の表現 政策の探索