人間の教示動作の視覚処理に基づく物体機能の抽出 〇佐藤啓宏(電通大) 小川原光一(東大) 田貫富和(小松製作所) 木村浩(電通大) 池内克史(東大)
背景 ~人とロボットの協調~ 視覚による動作理解に基づく人とロボットの協調作業 背景 ~人とロボットの協調~ 視覚による動作理解に基づく人とロボットの協調作業 パーツやツール上に設定された機能(Function: 軸,穴,ネジ)へのハンドの操作を自動抽出 (1996年・木村) タスクモデルを自動生成し,作業モデルと補助動作計画に基づいて,人の動作に対応してロボットの協調動作を生成 (1998年・堀内)
本研究の目的 高度な3次元視覚処理が必要 パーツやツール上の機能(=機能の座標系とそれへの操作)の自動抽出 物体の機能部レベルの作業モデルの枠組みの拡張 高度な3次元視覚処理が必要
3次元認識 ~従来の手法~ 連続画像処理へ拡張 見え方モデルと微小テンプレート・クラスタリング (1996年) カラートラッキングビジョンシステム(CTRV)を用いた3次元追跡処理の基礎実験 (1997年) 固有空間法による手形状認識 (1998年) 連続画像処理へ拡張
Topics 3次元テンプレートマッチング リアルタイム9眼ステレオビジョンシステム Mark.D.Wheeler 1995 M推定法を利用したICP(Iterative closet point)法による3次元物体認識アルゴリズム リアルタイム9眼ステレオビジョンシステム コマツ中央研究所1999 マルチベースラインステレオ法 ハードウェアにより毎秒15枚の距離画像を出力可能
3次元テンプレートマッチング ICP(Iterative closet point)法を用いた 3次元対応点探索アルゴリズムの一種 1995年 Mark.D.Wheeler ICP(Iterative closet point)法を用いた 3次元対応点探索アルゴリズムの一種 1.モデルの可観測点の計算 3.ポーズ推定 <R,t>回転・並進行列 hm:モデルのパッチ数 β:任意の3次元ベクトル 2.対応点関係 4.頑健なポーズ最適化 V(p)モデルの可観測点の集合 D:計測データ点群 Mi:モデル点 Rj:最近傍点 Zi(p)I番目のモデルと計測データ間の距離 P:モデルポーズ
リアルタイム 9眼ステレオビジョンシステム 1999年 コマツ中央研究所 マルチベースラインステレオ法 1999年 コマツ中央研究所 マルチベースラインステレオ法 ハードウェアにより毎秒15枚の距離画像を出力可能
3次元トラッキングシステム 概要 モデルベースの物体認識 ・幾何モデル(1モデル当り100~500点) ・色モデル 性能 毎秒4~9回(1物体当り) 位置精度 約5mm トラッキング性能 若干難あり?
システム構成
問題点と解決 距離画像の物体輪郭が膨張 計測領域範囲外の誤対応 色ヒストグラムによる2次元画像上での物体領域の切り抜き ステレオ計測のブロックマッチングの影響により 距離画像の物体輪郭が膨張 計測領域範囲外の誤対応 色ヒストグラムによる2次元画像上での物体領域の切り抜き SSADを利用した膨張確度係数による補正
色ヒストグラムによる2次元画像上での物体領域の切り抜き ①モデルと入力画像のヒストグラムを求める モデルヒストグラム 入力画像ヒストグラム Pixel Pixel RGB RGB ②ヒストグラムの比を求める ③入力画像をRに置き換える R:ヒストグラムの比 M:モデルヒストグラム I:入力画像ヒストグラム モデルに近い色ほど白くなる
Movie
SSADを利用した膨張確度係数による補正 SSAD2-SSAD1 < threshold の画素を無効化 SSAD1 SSADの極小値からなる画像 SSAD2 2番目に小さい極少値からなる画像 Movie
3次元トラッキング実験
物体機能の抽出 物体の動きの軌跡から、意味のセグメンテーションをする。 動作の拘束軸・拘束面 接触の解析 曲率・捩率から評価 Octreeを使った高速かつラフな衝突判定を行う。
実装のために現在進行中 (一時停止中?)の仕事 CVで微分系の計算をするには工夫が必要! カルマンフィルタによるデータの補正 スプラインによる補間 CVでの幾何解析はノイズ対策が重要! ラフな(いい意味でノイズを吸収できる)接触判定
まとめ リアルタイム9眼ステレオビジョン 3次元テンプレートマッチング を利用して、高速・高精度な自由曲面物体の3次元トラッキングを実現した. 処理を単純・高速化することで、物体の移動速度の制限を取り除くことができた.
結論 発展 トラッキングはスピードが命! 処理を単純化して高速化すると、比例するように精度も上がる 処理を単純化して高速化すると、比例するように精度も上がる 発展 トラッカビリティの評価による追跡モードの切り替え 色のクラスタリングによる複数物体のセグメンテーションの精度向上
現在と未来の仕事 過去のシステムをドットちゃんに実装中。 ロボットのタスクモデルの枠組みの拡張 タスクオリエンテッドビジョン 7月ぐらいをめどにロボット学会に投稿する ロボットのタスクモデルの枠組みの拡張 現在止まってしまっている物体機能の話を何としてでもまとめる。 タスクオリエンテッドビジョン その他、たくさんの雑用。。。。
CVLロボット ~ドットちゃん~
Options ~タスクオリエンテッドビジョンの一例~ ステレオ電子ズーム
Q.CVってなんですか? A.CV(コンピュータビジョン)は、主に3次元視覚処理のことです。2次元の画像から3次元を扱う学問の分野です。 対として3次元から2次元への画像処理をCG(コンピュータグラフィックス)と呼びます。
Q.なぜ9台のカメラが必要なのですか? A.ステレオ計測は、異なる視点から実物体上の同じ点を見て、その視差を計算することにより行います. 2つのカメラでは、隠れ(オクルージョン)により見えない点が多く生じてしまいますが、9台のカメラでいろいろな視点から見ることでその影響を抑えることができます.
Q.SSADって何ですか? A.ステレオ計測の対応候補点の類似度評価に用いる値です. ・基準画像と探索画像の探索画素の明度差の絶対値(AD) (Absolute Difference) ・ウィンドウ内重み付け加算した値(SAD) (Sum of ADs) ・全てのステレオ画像対の和(SSAD) (Sum of SADs)
物体機能についての考察 視覚による理解とは、観察した事象を言語(シンボリックな表現)で表すことである。