距離空間ピラミッドを用いた LLCによる3次元物体認識

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
BRIEF: Binary Robust Independent Elementary Features
画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts
Building text features for object image classification
Learning Appearance in Virtual Scenarios for Pedestrian Detection
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パノラマ動画像モデルによる 仮想空間表現システムの研究
「わかりやすいパターン認識」 第1章:パターン認識とは
Pose Tracking from Natural Features on Mobile Phones
画像処理工学 2012年2月2日 担当教員 北川 輝彦.
画像処理論.
イラストの著作権保護のためのHOG特徴量を用いた複製検出
芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
SURF: Speeded Up Robust Features
DARTs: Efficient scale-space extraction of DAISY keypoints
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ランダムプロジェクションを用いた 音声特徴量変換
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第三回 演習課題 画像中からの物体抽出処理(色情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/08.
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
内視鏡画像からの奥行き情報提示による 視覚支援システムの開発
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
大域的特徴としてBoFを導入した CRFによる一般物体認識
決定木とランダムフォレスト 和田 俊和.
視点移動カメラにおけるカメラキャリブレーション
物体領域特徴の自動選定とマルチカーネル学習を用いた 特徴統合による一般物体認識
画像処理工学 2013年1月23日 担当教員 北川 輝彦.
音高による音色変化に着目した音源同定に関する研究
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
複数特徴量の重み付け統合による一般物体認識
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
SURF+BoFによる特定物体認識 卒業研究1 1 11/27/11.
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
マルチ識別器を用いた 花画像検索システムの構築
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
2007年度 長岡オープンハウス クロマキー合成 小山高専 電子制御工学科4年                       針谷 尚裕.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
Webページタイプによるクラスタ リングを用いた検索支援システム
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

距離空間ピラミッドを用いた LLCによる3次元物体認識 神戸大学 システム情報学研究科 CS17 有木研究室 ○堀 貴博  滝口哲也  有木康雄

研究背景・動機 高品質な3次元情報(色,奥行き情報)を提供するRGB-Dカメラ 3次元情報 を用いた3次元物体認識 ロボット視覚への導入 仮想現実感,拡張現実感 計算機による 3次元世界の「理解」が必要 3次元情報 を用いた3次元物体認識

研究背景・動機 umbrella cup 物体認識とは,制約のない実世界シーンの画像に含まれる 物体の名称を計算機が認識することを指す 認識 大きく分けて,物体のカテゴリ名を認識する一般物体認識と 各物体ごとに認識する特定物体認識がある 認識 umbrella 認識 cup 出力結果 入力画像

従来手法の問題点 距離空間ピラミッドを提案し,全体形状を表現 特徴抽出にHONV,コード化処理にLLCを適用 3次元物体認識の従来研究 得られた奥行き情報を2次元距離画像に変換し, 従来の2次元物体認識の手法をそのまま適用している 問題点 奥行き情報を取得することで物体の全体的な形状を把握することが 可能であるにも関わらず,それを一切用いていない カラー画像 奥行き情報 距離画像 距離空間ピラミッドを提案し,全体形状を表現  特徴抽出にHONV,コード化処理にLLCを適用

提案手法の流れ 奥行き情報 ・ ・ ・ ・ ・ ・ 距離画像 HONV LLC 特徴抽出 コード化 プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling

特徴抽出 特徴点 RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 画像上に等間隔で格子上に点を配置し,このグリッド点を特徴点とする RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 2次元画像に用いられる局所特徴量 特徴点      128次元特徴量     (輝度値の勾配情報) RGB画像 距離画像

特徴抽出 距離画像 ---- HONV (Histogram of Oriented Normal Vectors) 局所的3次元形状を表すために設計された局所特徴量 HOG特徴量の3次元拡張 物体の表面点での法線ベクトル方向の2次元ヒストグラム (天頂角θと方位角φ を量子化,投票) X Y Z θ φ 法線ベクトルと天頂角θ,方位角φの関係 HONV特徴量

提案手法の流れ 奥行き情報 ・ ・ ・ ・ ・ ・ 距離画像 HONV LLC 特徴抽出 コード化 プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling

コード化処理 (1/4) コード化 コードブックの作成 特徴量を性能の高い別の特徴量(コード)に変換する処理 コード化処理 (1/4) コード化 特徴量を性能の高い別の特徴量(コード)に変換する処理 2 つのコード化手法と比較して,LLC を説明する コードブックの作成 画像から抽出されたN個の D次元特徴量 K-means法でクラスタリング M個のコードワード  の集合 コードブック

コード化処理 (2/4) Bag of Features (BoF) BoF 入力は最近傍のコードワードに属する コード化処理 (2/4) Bag of Features (BoF) 入力は最近傍のコードワードに属する コードワードの出現頻度ヒストグラムに変換 はコードの集合 BoF ・・・・・・ Codebook Frequency ・・・・・・・ ① ② ③ ④

コード化処理 (3/4) Sparse Coding(SC) BoFでは入力を一つのコードワードで表現していたのを, コード化処理 (3/4) Sparse Coding(SC) 入力特徴量   をM次元コード   で表現する Bag of Features Sparse Coding BoFでは入力を一つのコードワードで表現していたのを, 少数のコードワードで表現可能にした

位置情報を用いて,入力の近傍のコードワードで,入力を表現する コード化処理 (4/4) LLC ( Locality-constrained Linear Coding ) 位置情報アダプタ: 入力特徴量   を M次元コード    で表現する Sparse Coding L L C 位置情報を用いて,入力の近傍のコードワードで,入力を表現する

提案手法の流れ 奥行き情報 ・ ・ ・ ・ ・ ・ 距離画像 HONV LLC 特徴抽出 コード化 プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling

プーリング処理 (2次元) 空間ピラミッド(SP) 画像を階層的に部分領域 に区切って, 各部分領域で特徴量(コード)を統合する プーリング処理 (2次元) 空間ピラミッド(SP) Level 0 画像を階層的に部分領域 に区切って, 各部分領域で特徴量(コード)を統合する プーリング手法 特徴量の各次元の最大値を用いることで 統合する,最大プーリングを行う 画像ごとに特徴量を連結して正規化する Level 1 2階層   M × 5 次元

プーリング処理 (3次元) 距離空間ピラミッド(D-SP) 奥行き値を座標として距離空間を作成し,部分領域に分割する プーリング処理 (3次元) 距離空間ピラミッド(D-SP) 奥行き値を座標として距離空間を作成し,部分領域に分割する 空間ピラミッドの3次元拡張 ただし,通常の座標と異なり,奥行き値 は測定値なので,値にばらつきがある 座標による等分割ではなく, 各部分空間の特徴点の個数が等しくなるように分割を行う Level 0 Level 1 Level 2

提案手法の流れ 奥行き情報 Input 距離画像 RGB画像 Image 特徴抽出 HONV SIFT Keypoints & Features コード化 LLC Coding プーリング SP & D-SP Spatial Pyramid Pooling ・ ・ ・

提案手法の流れ 識別器 認識結果 LLC SIFT HONV ・ ・ ・ 学習画像 テスト画像 特徴抽出 Input Coding Classifier Output LLC コード化 Keypoints & Features プーリング

評価実験 (データセット) RGB-Dオブジェクトデータセット(奥行き情報+色情報)[1] 300物体,51カテゴリ,約42000 枚 評価実験 (データセット) RGB-Dオブジェクトデータセット(奥行き情報+色情報)[1] 300物体,51カテゴリ,約42000 枚 各物体の3つの高さの360度画像 撮影距離 約1メートル [1]K. Lai,L. Bo,X. Ren,and D. Fox, "A Large-Scale Hierarchical Multi-View RGB-D Object Dataset," ICRA,2011.

評価実験 (実験内容) 一般物体認識 特定物体認識 識別器 実験内容 51カテゴリの分類実験 評価実験 (実験内容) 一般物体認識 51カテゴリの分類実験 テストデータとして各カテゴリから1物体選択し,残りを学習データとする               51カテゴリで学習画像 約35000枚,テスト画像 約7000枚 選択はランダムで行い,10回の実験の平均認識率と標準偏差で評価 特定物体認識 300物体(インスタンス)の分類実験 3つの撮影角度のうち,中間の角度をテスト画像,それ以外を学習画像        300物体 学習画像 約28000枚,テスト画像 約14000 識別器 SVM (Support Vector Machine) マルチクラス 線形カーネル 実験内容 色情報のみ(RGB),奥行き情報のみ(Depth),両方使用(RGB-D) の3種類の実験を行い,実験結果を従来手法と比較する

実験結果と考察 (1/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察 (1/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP[2] 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2[3] 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察 提案手法を用いることで,従来手法よりも認識率が向上した [2]L. Bo, X. Ren, and D. Fox, “Hierarchical Matching Pursuit for Image Classification: Architecture and Fast Algorithms,” in NIPS, 2011. [3]L. Bo, X. Ren, and D. Fox, “Unsupervised Feature Learning for RGB-D Based Object Recognition,” In ISER, 2012.

実験結果と考察 (2/5) RGB-Dオブジェクトデータセット 考察 (奥行き情報のみ特定物体認識) HONV特徴量 表面形状特化 実験結果と考察 (2/5) RGB-Dオブジェクトデータセット binder_1 binder_2 binder_3 food_box_6 food_box_7 food_box_8 food_box_9 food_box_10 考察 (奥行き情報のみ特定物体認識) HONV特徴量             表面形状特化 距離空間ピラミッド          全体形状特化

実験結果と考察 (3/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察 (3/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察 LLC,HONV,距離空間ピラミッド それぞれの有効性

実験結果と考察 (4/5) HONVの有効性 距離空間ピラミッドの有効性 RGBD Category Instance Methods 実験結果と考察 (4/5) HONVの有効性 距離画像に対してSIFTを用いる場合と提案手法を比較  距離空間ピラミッドの有効性 距離空間ピラミッドを用いない場合と提案手法を比較 RGBD Category Instance Methods Depth RGB-D D-SIFT 79.2±1.8 88.0±1.8 50.6 94.3 HONV 82.9±2.3 89.2±1.6 42.5 94.2 RGBD Category Instance Methods Depth RGB-D SP 81.7±2.3 88.6±1.6 41.4 94.2 D-SP 82.9±2.3 89.2±1.6 42.5

実験結果と考察 (5/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察 (5/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察 (計算量) SIFTよりも特徴抽出が速いHONVを使用 LLC は近似処理により,高速化が可能 RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元 よって,提案手法は計算量,計算時間,記憶コストの削減を達成している

結論 今後の課題 局所特徴量のHONV,コード化手法のLLCを 3次元物体認識に適用 奥行き情報に基づく距離空間ピラミッドによって, 全体的な物体形状を表す手法を提案 提案手法は従来手法と比較して、認識率の向上, 計算量,計算時間,記憶コストの削減を実現 今後の課題  ・距離空間ピラミッドの領域分割法の改良  ・それに対応する新たなプーリング手法の作成  ・部分領域間の関係性の利用  ・ロボットビジョンへの実装・実世界での実験

ご清聴ありがとうございました

コード化処理 (3/3) LLC ( Locality-constrained Linear Coding ) コード化処理 (3/3) LLC ( Locality-constrained Linear Coding ) 位置情報アダプタ: Bag of Features Sparse Coding L L C 位置情報はスパース性よりも有用なので, 位置情報に特化させて,入力の近傍の点で入力を表現する

誤認識の原因 mushroom_1 mushroom_2 mushroom_3 binder_1 binder_2 binder_3 food_box_6 food_box_7 food_box_8 food_box_9 food_box_10

実験結果と考察 (D-SIFT 込) 実験結果(%) RGBD Category Instance Methods RGB Depth ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed1 85.3±1.6 79.2±1.8 88.0±1.8 93.9 50.6 94.3 Proposed2 82.9±2.3 89.2±1.6 42.5 94.2 考察 提案手法を用いることで,従来手法よりも認識率が向上した RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元 よって,提案手法は計算量,計算時間,記憶コストの削減を達成している

空間ピラミッド (Spatial Pyramid) Level 0 Level 1 Level 2

従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる

従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる