先端研究論文紹介ゼミ M1 石川智昭.

Slides:



Advertisements
Similar presentations
ロボット制御のソフトウェ ア: シミュレータ試作 情報理工学部 情報知能学科 H 207051 中谷聡太郎.
Advertisements

教育と発達. 能力とは何か(まとめ) 能力=何かできること 教育との関連での条件 – 価値ある能力であること – 訓練で発達可能であること – 教えることが可能であること ふたつの階層性 – 価値的な階層 – 発達の規定性としての階層.
OWL-Sを用いたWebアプリケーションの検査と生成
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
実地棚卸/棚卸検数 & 在庫調整 SAP Best Practices.
組織の経営学 第1章 ニモ・クルー・からあげ.
パイプラインパフォーマンス管理 SAP Best Practices.
教育心理学 学習と認知プロセス 伊藤 崇 北海道大学大学院教育学研究院.
エージェントモデル シミュレーション.
      特別支援学校 高等部学習指導要領 聴覚障害教育について.
先端論文紹介ゼミ Tracking control for nonholonomic mobile robots: Integrating the analog neural network into the backstepping technique 非ホロノミック移動ロボットのための追従制御:
第1章 ケース紹介 ソプラノ.
自律学習と動機づけ 教育心理学の観点から 2011/2/19 上淵 寿 (東京学芸大学).
Bassモデルにおける 最尤法を用いたパラメータ推定
顧客/コンタクト管理 SAP Best Practices.
売上原価会計 SAP Best Practices.
グループ研究1班 第一章 経営戦略とは何か 雨森 彩 大嶋 健夫 小沢 博之.
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
プロセス制御工学 6.PID制御 京都大学  加納 学.
マイクロシミュレーションにおける 可変属性セル問題と解法
協調機械システム論 (04.11, 04,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
Designing for Changing Behavior P71-76
文部科学省・大学共同利用機関 メディア教育開発センター 加藤 浩
3次元剛体運動の理論と シミュレーション技法
サーボ機構製作 ~マイコンカーのステアリング機構~
IPv6アドレスによる RFIDシステム利用方式
Occam言語による マルチプリエンプティブシステムの 実装と検証
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
25 ロバスト制御に基づく柔軟ベルト駆動二慣性系の外乱抑制制御 機械創造工学課程 西村光博 担当教員 小林泰秀 准教授
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
思考支援ツールを用いた 情報処理技術知識の学習方式
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
プロセス制御工学 7.多変数プロセスの制御 京都大学  加納 学.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
Introduction to Soft Computing (第11回目)
予測に用いる数学 2004/05/07 ide.
Data Clustering: A Review
AIを用いたドローンの 新たな姿勢制御方法に関する研究
北大MMCセミナー 第95回 附属社会創造数学センター主催 Date: 2019年2月13日(水) 16:30~18:00
1-3 UMLの図(ダイアグラム) コンポーネント図 システムの物理的な構成を表現 ソフトウェアコンポーネントの依存性を表現
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
UMLの概要とオブジェクト指向の基本概念
理論研究:言語文化研究 担当:細川英雄.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
All Rights Reserved, Copyright © 2004, Kobayashi
ETPB: Extraction of Context from Pedestrians' Behavior
北大MMCセミナー 第68回 附属社会創造数学センター主催 Date: 2017年6月15日(木) 16:30~18:00
北大MMCセミナー 第72回 附属社会創造数学センター主催 Date: 2017年7月20日(木) 15:00~16:30
教育と発達.
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
データ中心システム設計方法論“DATARUN” 
自然言語処理2008 平成20年12月22日.
実験計画法 Design of Experiments (DoE)
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
感覚運動期(誕生~2歳) 第1段階 反射の修正(出生~約1ヶ月) 第2段階 第1次循環反応(約1ヶ月~4ヶ月)
一問一答式クイズAQuAsにおける学習支援の方法
信号データの変数代入と変数参照 フィードバック制御系の定常特性 フィードバック制御系の感度特性
学習指導要領の改訂 全国連合小学校長会 会長 大橋 明.
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

先端研究論文紹介ゼミ M1 石川智昭

論文紹介 「Development of hierarchical structures for actions and motor imagery: a constructivist view from synthetic neuro-robotics study」 (2009)Ryunosuke Nishimoto ・ Jun Tani 動作と行動イメージのための階層構造の開発 :合成神経ロボット研究からの構成主義観点

目次 Abstruct Introduction Model Setup of humanoid robot experiments Results Discussion Summary

Ⅰ.Abstract 目標指向行動の発達学習に神経ロボット実験を示す。 反復教師訓練プロセスによって、一連の目標指向行動 を達成する視感覚(visuo-proprioceptive:VP)の流れを予 測するように訓練された。 実験の結果、機能的な階層構造は行動プリミティブが初 期段階に発生し、目標を達成するシーケンスが後の段 階を通して現れることを示した。 操作可能な内部表現が感覚運動の相互作用を通して現 れるという主張はPiagetの構成主義観点と一致。

Ⅱ.Introduction 複数の目標指向行動を一つのニューラルネットワークモ デルに埋め込む分散表現を利用する、いわゆる感覚順 モデルというニューラルネットワークモデルを提案。 感覚順モデルは連続時間リカレントニューラルネットワー クモデル(CTRNN)の順方向ダイナミクスによって指定さ れた目標に基づく視感覚(VP)状態の次の感覚を予測す る。 感覚順モデルの原型の学習能力を調整するために、複 数の時間スケールの活性化ダイナミクスでニューロング ループからなる動的ニューラルネットワークモデルを提 案。

Introduction 意味のある機能的な階層がグループの間で時間スケー ルの違いを利用することで現れると示された。 このモデルで示される分散表現潜在的な階層型の自己 組織の特徴は、明確な局所モジュールと明白な操作を 装う従来の局所表現観点と対をなす。

Ⅲ.Model Multiple Timescales RNN(MTRNN)と呼ばれる感覚順モ デルの考えを実装する方法について モデルは単純な視覚システムによるヒューマノイドロボッ トが教示者の監督下にある物を操作する、複数の目標 指向タスクを学習することを前提とする。 各タスクの目標軌道は使用されるネットワークモデルに いくつかのニューロンの初期状態を設定することで、実 験者によってロボットに提供される。 General

General システムへの入力 腕の関節のエンコーダ値 (正規化された8次元ベクトル) カメラヘッドの角度 (2次元ベクトル) 出力 現在の  と  に基づいて、次の時間ステップにおける 固有感覚の予測 視覚の予測

General MTRNNでモデル化されるシステムの主なコンポーネント はVP状態の現在の入力を受け、次のステップ状態にお ける予測を出力する。 各ニューロンユニットの活性化は時定数τを使った、以下 の微分方程式で定められる。 時定数τはほとんどのユニット活性化ダイナミクスのタイムス ケールを決定し、値が大きくなるとダイナミクスは低速になる。 は、時間ステップtにおけるi番目のニューロンユニットごとの膜電位 は、j番目ユニットの活性化 は、j番目ユニットからi番目ユニットまでのシナプス荷重

General ネットワークは、入出力及び非入出力ユニットで構成さ れ、後者をコンテクストユニットと呼ぶ。 コンテクストユニットは時定数の値に基づいて、 時定数の値が小さい高速コンテクストユニット 時定数の値が大きい低速コンテクストユニット という、2つのグループに分けられた。

Training 教師信号を得るために、実験者は目標行動の軌道に 沿ってロボットの両腕を導く。 ロボットハンドが軌道に沿って導かれているときに感じた VPシーケンスが記録され、教師シーケンスとして用いら れる。 学習の目的は教師シーケンスとモデルの出力の間の誤 差を最小にする結合荷重の最適値を見つけること。 すべてのシーケンスに共通する結合荷重と各シーケンス の低速コンテクストユニットの初期状態の適応のために 通時的誤差逆伝播(BPTT)法を使用する。

Action generation in physical environment and motor image 訓練課程で、ネットワークは次時間ステップにおけるVP 入力を予測するために学習する。 感覚状態の予測はロボットコントローラーに目標関節角 度を提供する。 次ステップへの入力としてVP予測のフィードバックを用い ることで、実際の行動を生じることなく、自律的にVP軌道 を生成できる。 閉ループ生成のプロセスは行動の思考シミュレーション の観点から、運動イメージに対応することができる。

Ⅳ.Setup of humanoid robot experiments 小型ヒューマノイドロボットは実環境と身体の相互作用 の役割で使用された。 作業台はロボットの正面に設置、そこに置かれた立方体 を操作の目標対象として用いた。 ロボットタスクは3つの異なるタスク行動を生成するため に学習すること。

Setup of humanoid robot experiments すべてのタスク行動はホームポジションから始まり、同じ 位置に戻ることで終了。

Setup of humanoid robot experiments 3つの指導セッションでロボットにタスク行動を教える。 第1セッションでは、ネットワークがまだ効果的でないの で、ロボットガイダンスはモータ制御ゲインを0にセットす ることで、ロボットの動きを抑制することで実行される。 第2、3セッションでは、指導は制御ゲインを通常の動作 値の20%に設定し、ロボットの活発な動きを可能にする ことで対話的に実行される。 ネットワークは各セッションで得られた教示シーケンス データを用いてオフラインで訓練される。

学習関連パラメータ 閉ループ比率CLr 1.0のとき完全な閉ループ(先読み予測) 0.0のとき完全な開ループ(1ステップ予測)を意味する。   と  はTPM(topology preserving map)の自己組織化 のために変更される別のパラメータ。

Setup of humanoid robot experiments 3つのセッションの指導の後、タスク3は空中で物を回転 させる新しい行動プリミティブを導入するように修正され る。 セッション4では、訓練パラメータは以前の学習内容と新 しいものの間の干渉を最小にするために緩和されている。

Ⅴ.Result

Summary of the robot experiments Ⅵ.Discussion Summary of the robot experiments 発達過程はいくつかの段階に分類可能。 初期段階では、実際の生成における行動プリミティ ブの大部分が早くてタスクは完了していない。 2段階目では、シーケンスはまだ完了していないが、 大部分の行動プリミティブは実際に発生する。 3段階目では、すべてのタスクがプリミティブの正し い順序で正しく生成される。 下位レベルであるプリミティブレベルが早くに組織化され るのは当然であり、高位レベルのシーケンスレベルは下 位レベルの生成に基づいて後で行われる。

Correspondences to psychology of development and learning Piagetの理論を構成する2つの中心的な概念 同化:対象の既存スキームが物との構造的な結合を確 立するために利用されるプロセス 適応:物との別の構造的な結合を確立するためのス キームを調整する適応可能なプロセス 実験を見ると、Piagetの理論の方式は高速コンテクスト ネットワークに埋め込まれる一組の行動プリミティブに対 応できるかもしれないと理解される。

Correspondences to psychology of development and learning セッション4で、新しい行動を導入した場合はあらかじめ 獲得したプリミティブが新しい行動プリミティブがさらに自 己組織されている間、新しいタスクで利用されるために、 同化と適応が発生すると解釈できる。 6つの行動プリミティブが発達指導の最後において実際 の行動と運動イメージを生成するために組織的に操作さ れたという事実は、特定の動作表現が長期的な自己組 織化プロセスを介して現れると解釈できる。

Correspondences to psychology of development and learning 階層的にゲート制御されたCTRNNを使って同様の実験 を行っているが、現在の方式に比べてパラメータの調整 が困難。 MTRNNはニューロンダイナミクスが推測的な分節メカニ ズムを導入することなく、連続空間と時間領域で感覚運 動フローの並びと相互作用できるように設計された。 従来の感覚順モデルと異なり、有限の目標指向経路の み学ぶので、組み合わせ爆発の問題は起きない。

Robotics synthetic approach 計算論的神経科学のアプローチは、詳細なニューロンメ カニズムが行動データに多くの注意を払うことなく、神経 接続性と細胞発火特性の神経科学データに基づく解剖 学的に関連した神経回路モデルを作ることで検討され逆 方向へ行く。 人間の発達と学習が全体的な視点で見られるならば、ロ ボット実験はそのような視点を実行するために素晴らし いプラットフォームを提供することができる。

Ⅶ.Summary ロボットは、予測行動を生成する際に、低速コンテクスト ダイナミクスと高速コンテクストダイナミクスの共存によっ て特徴付けられたMTRNNモデルで実行された。 複数の目標指向行動のためのロボットの反復指導を通 して、特定の構造的発達過程が発生した。 行動プリミティブは初期に高速コンテクストパートで自己 組織化され、それらのシーケンスは後で低速コンテクスト パートに現れた。 ロボット統合実験の結果は構成主義のPiagetの考えとか なり類似していると述べている。