Presentation is loading. Please wait.

Presentation is loading. Please wait.

協調機械システム論 (04.12.09,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.

Similar presentations


Presentation on theme: "協調機械システム論 (04.12.09,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一."— Presentation transcript:

1 協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一

2 背景 自律分散型ロボットシステム 高度な知能を持つ ロボットシステム 創発ロボットシステム ロボット自体の知能化だけでは技術的限界
多機能化 耐故障性・信頼性 柔軟性・拡張性 作業効率 ロボット自体の知能化だけでは技術的限界 想定外事象への対応 原子力プラント,レスキュー, 医療・福祉など 創発ロボットシステム 適応性

3 背景・動機 知的に行動できるロボットシステムの社会ニーズ 想定外事象への対応機能 知能ロボットの実用化 プラント保守,レスキュー,他
     プラント保守,レスキュー,他 想定外事象への対応機能 知能ロボットの実用化  適応機能 自律分散化(群化) 協調 +創発

4 Model of Emergent System
Emergent Macro Structure (Macro Function) Self-organization of decentralized autonomous systems Boundary condition Constraints Local Interaction

5 機器システムの適応性

6 学習 学習と進化 可塑性(Plasticity) 学習手法
   脳には「可塑性(かそせい)」という能力がある.「可塑性」とは,柔らかい粘土に力を加わえた場合のように,変形して元に戻らないという意味で,脳には柔軟性,融通性,可変性があるということである. 学習手法    機械学習,統計的パターン認識,人工ニューラルネット(教師あり;supervised)    強化学習,遺伝的アルゴリズム(教師無し)

7 強化学習の概念 探索と知識利用 ロボットが回避行動を繰り返し実行することにより      適応的な回避行動を自律的に学習

8 学習の流れ

9 行動選択のスコア

10 回避行動の選択

11 回避行動の報酬に基づく学習

12 回避行動の評価

13 状態認識に用いるパラメータ

14 学習の収束性

15 シミュレーション実験

16 行動選択の階層化

17 一つの物体を回避するための行動選択

18 各階層の学習 (a)ゴールへ向かうた めの行動選択 (b) 一つの障害物を 回避するための行動 選択 (d) センサグループご
 めの行動選択 (b) 一つの障害物を  回避するための行動  選択 (d) センサグループご  との複数物体回避の  ための行動選択 (c) 一台のロボットを  回避するための行動  選択

19 複数物体回避のための行動選択

20 強化学習 イベント発生毎に意志決定(離散時間系) ・環境から報酬が選択行動に与えられるため, 自身や環境についての先見的知識はほぼ不必要
   自身や環境についての先見的知識はほぼ不必要  ・試行錯誤を通じて環境に適応 複数ロボット環境: ・状態遷移確率と報酬が既知でない ・同じ物理的動作が異なった状態変化    を引き起こし,学習が進行しない イベント発生毎に意志決定(離散時間系)     セミマルコフ決定過程(SMDP)環境に対応したQ学習

21 確率過程(Stochastic process)
古典力学における微分方程式   現在が決まると未来が決定 マルコフ過程   確率事象の系列で,各事象の発生が直前の結果のみに依存することを仮定する確率過程 マルコフ決定過程(Markov Decision Process)    離散時間系,1ステップダイナミクス(状態遷移確率は現在の状態(知覚行動対)のみに依存),定常性(状態遷移確率が時間的に定常) セミマルコフ決定過程(Semi-Markov Decision Process)    意思決定の時間間隔任意(状態変化が生じるまで一定),離散遷移での報酬を積分で与える

22 SMDP環境に対応したQ学習 学習アルゴリズム (1) 環境の状態 を観測 (2) 行動選択方法に従って行動 を実行
(1) 環境の状態  を観測 (2) 行動選択方法に従って行動   を実行 (3)イベント(状態遷移)が発生するまで環境から報酬r       を受け取り続け,割引報酬合計   を計算 (4)イベント(状態遷移)発生後の状態   を観測 (5)以下の更新式によりQ値を更新:           αは学習率,γは割引率(      ) (6)時間ステップ t を t+N へ進め,(1)へ戻る

23 行動選択法と報酬 Boltzmann選択: 評価関数 r=E(t): 状態 x のとき行動 aを選択する確率 p(a|x): 障害物(壁)
大:ランダム,小:決定的 状態 x のとき行動 aを選択する確率 p(a|x): 評価関数 r=E(t): 目標地 ロボット ロボット 障害物(壁)


Download ppt "協調機械システム論 (04.12.09,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一."

Similar presentations


Ads by Google