協調機械システム論 (04.12.09,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.

Slides:



Advertisements
Similar presentations
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
Advertisements

疫学概論 二項分布 Lesson 9.頻度と分布 §B. 二項分布 S.Harano,MD,PhD,MPH.
Actor-Criticを用いた 知的ネットワークシステムの提案
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
自己重力多体系の 1次元シミュレーション 物理学科4年 宇宙物理学研究室  丸山典宏.
強化学習 RT.
秘密のリンク構造を持つグラフのリンク解析
遺伝的アルゴリズム  新川 大貴.
(Fri) Astrophysics Laboratory MATSUO Kei
エージェントモデル シミュレーション.
先端論文紹介ゼミ Tracking control for nonholonomic mobile robots: Integrating the analog neural network into the backstepping technique 非ホロノミック移動ロボットのための追従制御:
Bassモデルにおける 最尤法を用いたパラメータ推定
神奈川大学大学院工学研究科 電気電子情報工学専攻
シミュレーション論 Ⅱ 第12回 強化学習.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
東京工業大学 機械制御システム専攻 山北 昌毅
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
強化学習 RT.
協調機械システム論 (04.11, 04,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
3次元剛体運動の理論と シミュレーション技法
小標本検査データを元にした 疲労破損率のベイズ推定
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
米山研究室紹介 -システム制御工学研究室-
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
Online Decoding of Markov Models under Latency Constraints
QMDを用いた10Be+12C反応の解析 平田雄一 (2001年北海道大学大学院原子核理論研究室博士課程修了
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
早わかりアントコロニー最適化 (Ant Colony Optimization)
強化学習におけるマクロを用いた 行動系列の獲得
分子生物情報学(2) 配列のマルチプルアライメント法
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
電機情報工学専門実験 6. 強化学習シミュレーション
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
適応的近傍を持つ シミュレーテッドアニーリングの性能
階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ベイズ最適化 Bayesian Optimization BO
Data Clustering: A Review
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
ITSにおける 知的ネットワークシステムの構築 - 知的信号機システムの提案 -
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
担当 兵庫県立大学大学院 応用情報科学研究科 神戸商科大学 商経学部管理化学科 教授 有馬 昌宏
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
第 5 章 :周波数応答 5.1 周波数応答と伝達関数 周波数伝達関数,ゲイン,位相 キーワード : 5.2 ベクトル軌跡 ベクトル軌跡
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
感覚運動期(誕生~2歳) 第1段階 反射の修正(出生~約1ヶ月) 第2段階 第1次循環反応(約1ヶ月~4ヶ月)
FSE/ASE勉強会 A10:Software Maintenance II
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

協調機械システム論 (04.12.09,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一

背景 自律分散型ロボットシステム 高度な知能を持つ ロボットシステム 創発ロボットシステム ロボット自体の知能化だけでは技術的限界 多機能化 耐故障性・信頼性 柔軟性・拡張性 作業効率 ロボット自体の知能化だけでは技術的限界 想定外事象への対応 原子力プラント,レスキュー, 医療・福祉など 創発ロボットシステム 適応性

背景・動機 知的に行動できるロボットシステムの社会ニーズ 想定外事象への対応機能 知能ロボットの実用化 プラント保守,レスキュー,他      プラント保守,レスキュー,他 想定外事象への対応機能 知能ロボットの実用化  適応機能 自律分散化(群化) 協調 +創発

Model of Emergent System Emergent Macro Structure (Macro Function) Self-organization of decentralized autonomous systems Boundary condition Constraints Local Interaction

機器システムの適応性

学習 学習と進化 可塑性(Plasticity) 学習手法    脳には「可塑性(かそせい)」という能力がある.「可塑性」とは,柔らかい粘土に力を加わえた場合のように,変形して元に戻らないという意味で,脳には柔軟性,融通性,可変性があるということである. 学習手法    機械学習,統計的パターン認識,人工ニューラルネット(教師あり;supervised)    強化学習,遺伝的アルゴリズム(教師無し)

強化学習の概念 探索と知識利用 ロボットが回避行動を繰り返し実行することにより      適応的な回避行動を自律的に学習

学習の流れ

行動選択のスコア

回避行動の選択

回避行動の報酬に基づく学習

回避行動の評価

状態認識に用いるパラメータ

学習の収束性

シミュレーション実験

行動選択の階層化

一つの物体を回避するための行動選択

各階層の学習 (a)ゴールへ向かうた めの行動選択 (b) 一つの障害物を 回避するための行動 選択 (d) センサグループご  めの行動選択 (b) 一つの障害物を  回避するための行動  選択 (d) センサグループご  との複数物体回避の  ための行動選択 (c) 一台のロボットを  回避するための行動  選択

複数物体回避のための行動選択

強化学習 イベント発生毎に意志決定(離散時間系) ・環境から報酬が選択行動に与えられるため, 自身や環境についての先見的知識はほぼ不必要    自身や環境についての先見的知識はほぼ不必要  ・試行錯誤を通じて環境に適応 複数ロボット環境: ・状態遷移確率と報酬が既知でない ・同じ物理的動作が異なった状態変化    を引き起こし,学習が進行しない イベント発生毎に意志決定(離散時間系)     セミマルコフ決定過程(SMDP)環境に対応したQ学習

確率過程(Stochastic process) 古典力学における微分方程式   現在が決まると未来が決定 マルコフ過程   確率事象の系列で,各事象の発生が直前の結果のみに依存することを仮定する確率過程 マルコフ決定過程(Markov Decision Process)    離散時間系,1ステップダイナミクス(状態遷移確率は現在の状態(知覚行動対)のみに依存),定常性(状態遷移確率が時間的に定常) セミマルコフ決定過程(Semi-Markov Decision Process)    意思決定の時間間隔任意(状態変化が生じるまで一定),離散遷移での報酬を積分で与える

SMDP環境に対応したQ学習 学習アルゴリズム (1) 環境の状態 を観測 (2) 行動選択方法に従って行動 を実行 (1) 環境の状態  を観測 (2) 行動選択方法に従って行動   を実行 (3)イベント(状態遷移)が発生するまで環境から報酬r       を受け取り続け,割引報酬合計   を計算 (4)イベント(状態遷移)発生後の状態   を観測 (5)以下の更新式によりQ値を更新:           αは学習率,γは割引率(      ) (6)時間ステップ t を t+N へ進め,(1)へ戻る

行動選択法と報酬 Boltzmann選択: 評価関数 r=E(t): 状態 x のとき行動 aを選択する確率 p(a|x): 障害物(壁) 大:ランダム,小:決定的 状態 x のとき行動 aを選択する確率 p(a|x): 評価関数 r=E(t): 目標地 ロボット ロボット 障害物(壁)