Download presentation
Presentation is loading. Please wait.
Published byえいじろう やすこ Modified 約 7 年前
1
Deep Spatial Autoencoders for Visuomotor Learning 視覚運動学習のための深層空間
オートエンコーダ Finn, Xin Yu Tan, Yan Duan, Trevor Darrel, Sergey Levine, Pieter Abbeel, “Deep Spatial Autoencoders for Visuomotor Learning”, IEEE International Conference on Robotics and Automation(ICRA), pp , 2016 2016年7月31日 ロボティクス研究室 M1 川上蓮也
2
Abstract Reinforcement learning provides a powerful and flexible framework for automated acquisition of robotic motion skills. 強化学習はロボットの運動スキルを自動取得するための強力で柔軟なフレームワークを提供する. However, applying reinforcement learning requires a sufficiently detailed representation of the state, including the configuration of task-relevant objects. しかしながら,強化学習の適用にはタスクに関した物体の構造を含む十分な状態表現が必要となる.
3
Abstract We present an approach that automates state-space construction by learning a state representation directly from camera images. 私たちは,カメラ画像から直接得られる状態表現を学習することによる,状態空間の自動構成手法を提示する.
4
Abstract Our method uses a deep spatial autoencoder to acquire a set of feature points that describe the environment for the current task, such as the positions of objects, and then learns a motion skill with these feature points using an efficient reinforcement learning method based on local linear models. 私たちの手法では,現在のタスクにおける環境を表す 特徴点の集合を深層空間オートエンコーダーを使う ことで得る.この特徴点は例えば物体の位置などである. この処理後,得られた特徴点に対応した運動スキルを 局所線形モデルをベースにした強化学習によって学習する.
5
Abstract The resulting controller reacts continuously to the learned feature points, allowing the robot to dynamically manipulate objects in the world with closed-loop control. 出来上がったコントローラーは,閉ループ制御界で ロボットを動的に操作できるよう連続的に学習済み 特徴点と反応する.
6
Abstract We demonstrate our method with a PR2 robot on tasks that include pushing a free-standing toy block, picking up a bag of rice using a spatula, and hanging a loop of rope on a hook at various positions. 私たちは,この手法をPR2ロボットを使って実際に確認 する.この際用いるタスクとして,自立したブロックの 押し出し,ヘラを使った米俵の持ち上げ,様々な位置に あるフックに輪を引っ掛ける動作を行う.
7
Abstract In each task, our method automatically learns to track task-relevant objects and manipulate their configuration with the robot’s arm. それぞれのタスクにおいて,本手法では自動的にタスクに関した物体の追跡を行い,それらの形状をロボットアームで巧みに扱うことができた.
8
背景 強化学習において基礎的な課題は,タスクに応じた適切な 状態空間を定義することである 一般的にこれは手動で設計されている
状態空間を定義することである 一般的にこれは手動で設計されている →どのような特徴をどのように抽出するか(高コスト) →タスクに合わせた設計であるため,タスクが変わると 学習が上手くいかない この手動プロセスは同じ強化学習アルゴリズムを 複雑で未定義な環境下に適応させることを難しくしている
9
目的 もしロボットが自動的にタスクに対応した特徴量を 決定し,それらを用いて学習することが出来れば, より汎可性の高いシステムが最小限のコストで構築 できる。 →画像からタスクに応じた特徴量の自動取得
10
特徴量の自動取得 本研究ではCNNを用いたオートエンコーダによる 次元圧縮を用いて特徴量を求めている →CNNとは? →オートエンコーダとは?
11
CNN(Convolutional Neural Network)とは
ニューラルネットワークに畳み込み層を導入したもの プーリング層と合わせて用いられることが多い
12
CNNの畳み込み層 概要 入力に対してフィルタを 畳み込み,特徴マップを 生成する層 CNNではこのフィルタの 係数を学習により最適化 する
利点 点ではなく領域ベースの 特徴抽出が可能 →移動不変性が高い
13
フィルタに対応した特徴マップ ぼかし処理 エッジ処理
14
CNNのプーリング層 概要 画像の圧縮を行う層 Max Poolingと呼ばれる各領域内の最大値をとる手法が多く使われている 利点
計算コストの削減 移動不変性をより確かに
15
CNNの概念 高レベルの概念は低レベルの特徴量の組合せで表現 できる 画素からエッジへ ↓ エッジから部品へ 部品から物体へ
16
CNN(Convolutional Neural Network)とは
低レベルの特徴を抽出 例.エッジ 高レベルの特徴を抽出 例.物体の一部 得られた特徴から クラス分類
17
オートエンコーダとは 出力データが入力データと等しくなるように学習したニューラルネットワーク
中間層の次元を入力層より落とすことで入力データの次元圧縮が行える →特徴の抽出
18
本研究における特徴量抽出手法 値より位置に 着目した 特徴量の抽出 活性化している →特徴的な 物体がある
物体がある 1.畳み込み層を3層通し,特徴マップを生成する 2.マップに対して正規化処理を行い,確率分布と見なす ことで活性化している点を確率的に選択する 3.各マップごとに選択された点の座標を特徴量とする
19
実験手法 以下の比較を行い,有効性を評価する (1).視覚情報を用いない強化学習によるタスク処理 (2).(1)に特徴量を加えた強化学習によるタスク処理
20
実験環境 使用するロボット:PR2 腕の自由度:7 使用するセンサ:PR2頭部搭載のKinect
21
タスクの詳細 Lego block Bag transfer Rice scoop Loop hook
初期状態からブロックを30cm左に動かすことで達成 Bag transfer スプーンを使ってバックをボールに入れることで達成 Rice scoop ヘラを使って小さい米俵を持ち上げ,ボールに入れるこ とで達成 Loop hook 輪っかを様々な位置にあるフックにかけることで達成
22
実験結果:各タスクの達成率 各タスクの達成率 特徴量を用いた 強化学習がすべてのタスクに対して 達成率が高いこと がわかる
各タスクの成功例と失敗例
23
実験結果:フック位置ごとの達成率 タスク[Loop hook]は0,8,16,24cmの位置にあるフック に対して輪っかを通すよう学習している 特徴量を用いた強化学習では,学習済みパターン以外の 4,12,20cmの位置にフックがある場合でもタスク達成率 が高いことがわかる フック位置ごとの達成率
24
実験の様子 本実験を紹介した動画は以下のリンク先で見ることが出来る
25
結論 CNNを用いたオートエンコーダによって抽出された特徴 を用いることで,強化学習におけるタスク達成率を改善 することが出来た
物体の位置に着目した特徴量を用いることで,目標物体 の位置が変わってもタスクを達成することができた 有効な特徴量を自動的に抽出することができたといえる
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.