先端研究論文紹介ゼミ M1 石川智昭
論文紹介 「Development of hierarchical structures for actions and motor imagery: a constructivist view from synthetic neuro-robotics study」 (2009)Ryunosuke Nishimoto ・ Jun Tani 動作と行動イメージのための階層構造の開発 :合成神経ロボット研究からの構成主義観点
目次 Abstruct Introduction Model Setup of humanoid robot experiments Results Discussion Summary
Ⅰ.Abstract 目標指向行動の発達学習に神経ロボット実験を示す。 反復教師訓練プロセスによって、一連の目標指向行動 を達成する視感覚(visuo-proprioceptive:VP)の流れを予 測するように訓練された。 実験の結果、機能的な階層構造は行動プリミティブが初 期段階に発生し、目標を達成するシーケンスが後の段 階を通して現れることを示した。 操作可能な内部表現が感覚運動の相互作用を通して現 れるという主張はPiagetの構成主義観点と一致。
Ⅱ.Introduction 複数の目標指向行動を一つのニューラルネットワークモ デルに埋め込む分散表現を利用する、いわゆる感覚順 モデルというニューラルネットワークモデルを提案。 感覚順モデルは連続時間リカレントニューラルネットワー クモデル(CTRNN)の順方向ダイナミクスによって指定さ れた目標に基づく視感覚(VP)状態の次の感覚を予測す る。 感覚順モデルの原型の学習能力を調整するために、複 数の時間スケールの活性化ダイナミクスでニューロング ループからなる動的ニューラルネットワークモデルを提 案。
Introduction 意味のある機能的な階層がグループの間で時間スケー ルの違いを利用することで現れると示された。 このモデルで示される分散表現潜在的な階層型の自己 組織の特徴は、明確な局所モジュールと明白な操作を 装う従来の局所表現観点と対をなす。
Ⅲ.Model Multiple Timescales RNN(MTRNN)と呼ばれる感覚順モ デルの考えを実装する方法について モデルは単純な視覚システムによるヒューマノイドロボッ トが教示者の監督下にある物を操作する、複数の目標 指向タスクを学習することを前提とする。 各タスクの目標軌道は使用されるネットワークモデルに いくつかのニューロンの初期状態を設定することで、実 験者によってロボットに提供される。 General
General システムへの入力 腕の関節のエンコーダ値 (正規化された8次元ベクトル) カメラヘッドの角度 (2次元ベクトル) 出力 現在の と に基づいて、次の時間ステップにおける 固有感覚の予測 視覚の予測
General MTRNNでモデル化されるシステムの主なコンポーネント はVP状態の現在の入力を受け、次のステップ状態にお ける予測を出力する。 各ニューロンユニットの活性化は時定数τを使った、以下 の微分方程式で定められる。 時定数τはほとんどのユニット活性化ダイナミクスのタイムス ケールを決定し、値が大きくなるとダイナミクスは低速になる。 は、時間ステップtにおけるi番目のニューロンユニットごとの膜電位 は、j番目ユニットの活性化 は、j番目ユニットからi番目ユニットまでのシナプス荷重
General ネットワークは、入出力及び非入出力ユニットで構成さ れ、後者をコンテクストユニットと呼ぶ。 コンテクストユニットは時定数の値に基づいて、 時定数の値が小さい高速コンテクストユニット 時定数の値が大きい低速コンテクストユニット という、2つのグループに分けられた。
Training 教師信号を得るために、実験者は目標行動の軌道に 沿ってロボットの両腕を導く。 ロボットハンドが軌道に沿って導かれているときに感じた VPシーケンスが記録され、教師シーケンスとして用いら れる。 学習の目的は教師シーケンスとモデルの出力の間の誤 差を最小にする結合荷重の最適値を見つけること。 すべてのシーケンスに共通する結合荷重と各シーケンス の低速コンテクストユニットの初期状態の適応のために 通時的誤差逆伝播(BPTT)法を使用する。
Action generation in physical environment and motor image 訓練課程で、ネットワークは次時間ステップにおけるVP 入力を予測するために学習する。 感覚状態の予測はロボットコントローラーに目標関節角 度を提供する。 次ステップへの入力としてVP予測のフィードバックを用い ることで、実際の行動を生じることなく、自律的にVP軌道 を生成できる。 閉ループ生成のプロセスは行動の思考シミュレーション の観点から、運動イメージに対応することができる。
Ⅳ.Setup of humanoid robot experiments 小型ヒューマノイドロボットは実環境と身体の相互作用 の役割で使用された。 作業台はロボットの正面に設置、そこに置かれた立方体 を操作の目標対象として用いた。 ロボットタスクは3つの異なるタスク行動を生成するため に学習すること。
Setup of humanoid robot experiments すべてのタスク行動はホームポジションから始まり、同じ 位置に戻ることで終了。
Setup of humanoid robot experiments 3つの指導セッションでロボットにタスク行動を教える。 第1セッションでは、ネットワークがまだ効果的でないの で、ロボットガイダンスはモータ制御ゲインを0にセットす ることで、ロボットの動きを抑制することで実行される。 第2、3セッションでは、指導は制御ゲインを通常の動作 値の20%に設定し、ロボットの活発な動きを可能にする ことで対話的に実行される。 ネットワークは各セッションで得られた教示シーケンス データを用いてオフラインで訓練される。
学習関連パラメータ 閉ループ比率CLr 1.0のとき完全な閉ループ(先読み予測) 0.0のとき完全な開ループ(1ステップ予測)を意味する。 と はTPM(topology preserving map)の自己組織化 のために変更される別のパラメータ。
Setup of humanoid robot experiments 3つのセッションの指導の後、タスク3は空中で物を回転 させる新しい行動プリミティブを導入するように修正され る。 セッション4では、訓練パラメータは以前の学習内容と新 しいものの間の干渉を最小にするために緩和されている。
Ⅴ.Result
Summary of the robot experiments Ⅵ.Discussion Summary of the robot experiments 発達過程はいくつかの段階に分類可能。 初期段階では、実際の生成における行動プリミティ ブの大部分が早くてタスクは完了していない。 2段階目では、シーケンスはまだ完了していないが、 大部分の行動プリミティブは実際に発生する。 3段階目では、すべてのタスクがプリミティブの正し い順序で正しく生成される。 下位レベルであるプリミティブレベルが早くに組織化され るのは当然であり、高位レベルのシーケンスレベルは下 位レベルの生成に基づいて後で行われる。
Correspondences to psychology of development and learning Piagetの理論を構成する2つの中心的な概念 同化:対象の既存スキームが物との構造的な結合を確 立するために利用されるプロセス 適応:物との別の構造的な結合を確立するためのス キームを調整する適応可能なプロセス 実験を見ると、Piagetの理論の方式は高速コンテクスト ネットワークに埋め込まれる一組の行動プリミティブに対 応できるかもしれないと理解される。
Correspondences to psychology of development and learning セッション4で、新しい行動を導入した場合はあらかじめ 獲得したプリミティブが新しい行動プリミティブがさらに自 己組織されている間、新しいタスクで利用されるために、 同化と適応が発生すると解釈できる。 6つの行動プリミティブが発達指導の最後において実際 の行動と運動イメージを生成するために組織的に操作さ れたという事実は、特定の動作表現が長期的な自己組 織化プロセスを介して現れると解釈できる。
Correspondences to psychology of development and learning 階層的にゲート制御されたCTRNNを使って同様の実験 を行っているが、現在の方式に比べてパラメータの調整 が困難。 MTRNNはニューロンダイナミクスが推測的な分節メカニ ズムを導入することなく、連続空間と時間領域で感覚運 動フローの並びと相互作用できるように設計された。 従来の感覚順モデルと異なり、有限の目標指向経路の み学ぶので、組み合わせ爆発の問題は起きない。
Robotics synthetic approach 計算論的神経科学のアプローチは、詳細なニューロンメ カニズムが行動データに多くの注意を払うことなく、神経 接続性と細胞発火特性の神経科学データに基づく解剖 学的に関連した神経回路モデルを作ることで検討され逆 方向へ行く。 人間の発達と学習が全体的な視点で見られるならば、ロ ボット実験はそのような視点を実行するために素晴らし いプラットフォームを提供することができる。
Ⅶ.Summary ロボットは、予測行動を生成する際に、低速コンテクスト ダイナミクスと高速コンテクストダイナミクスの共存によっ て特徴付けられたMTRNNモデルで実行された。 複数の目標指向行動のためのロボットの反復指導を通 して、特定の構造的発達過程が発生した。 行動プリミティブは初期に高速コンテクストパートで自己 組織化され、それらのシーケンスは後で低速コンテクスト パートに現れた。 ロボット統合実験の結果は構成主義のPiagetの考えとか なり類似していると述べている。