距離空間ピラミッドを用いた LLCによる3次元物体認識 神戸大学 システム情報学研究科 CS17 有木研究室 ○堀 貴博 滝口哲也 有木康雄
研究背景・動機 高品質な3次元情報(色,奥行き情報)を提供するRGB-Dカメラ 3次元情報 を用いた3次元物体認識 ロボット視覚への導入 仮想現実感,拡張現実感 計算機による 3次元世界の「理解」が必要 3次元情報 を用いた3次元物体認識
研究背景・動機 umbrella cup 物体認識とは,制約のない実世界シーンの画像に含まれる 物体の名称を計算機が認識することを指す 認識 大きく分けて,物体のカテゴリ名を認識する一般物体認識と 各物体ごとに認識する特定物体認識がある 認識 umbrella 認識 cup 出力結果 入力画像
従来手法の問題点 距離空間ピラミッドを提案し,全体形状を表現 特徴抽出にHONV,コード化処理にLLCを適用 3次元物体認識の従来研究 得られた奥行き情報を2次元距離画像に変換し, 従来の2次元物体認識の手法をそのまま適用している 問題点 奥行き情報を取得することで物体の全体的な形状を把握することが 可能であるにも関わらず,それを一切用いていない カラー画像 奥行き情報 距離画像 距離空間ピラミッドを提案し,全体形状を表現 特徴抽出にHONV,コード化処理にLLCを適用
提案手法の流れ 奥行き情報 ・ ・ ・ ・ ・ ・ 距離画像 HONV LLC 特徴抽出 コード化 プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling
特徴抽出 特徴点 RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 画像上に等間隔で格子上に点を配置し,このグリッド点を特徴点とする RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 2次元画像に用いられる局所特徴量 特徴点 128次元特徴量 (輝度値の勾配情報) RGB画像 距離画像
特徴抽出 距離画像 ---- HONV (Histogram of Oriented Normal Vectors) 局所的3次元形状を表すために設計された局所特徴量 HOG特徴量の3次元拡張 物体の表面点での法線ベクトル方向の2次元ヒストグラム (天頂角θと方位角φ を量子化,投票) X Y Z θ φ 法線ベクトルと天頂角θ,方位角φの関係 HONV特徴量
提案手法の流れ 奥行き情報 ・ ・ ・ ・ ・ ・ 距離画像 HONV LLC 特徴抽出 コード化 プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling
コード化処理 (1/4) コード化 コードブックの作成 特徴量を性能の高い別の特徴量(コード)に変換する処理 コード化処理 (1/4) コード化 特徴量を性能の高い別の特徴量(コード)に変換する処理 2 つのコード化手法と比較して,LLC を説明する コードブックの作成 画像から抽出されたN個の D次元特徴量 K-means法でクラスタリング M個のコードワード の集合 コードブック
コード化処理 (2/4) Bag of Features (BoF) BoF 入力は最近傍のコードワードに属する コード化処理 (2/4) Bag of Features (BoF) 入力は最近傍のコードワードに属する コードワードの出現頻度ヒストグラムに変換 はコードの集合 BoF ・・・・・・ Codebook Frequency ・・・・・・・ ① ② ③ ④
コード化処理 (3/4) Sparse Coding(SC) BoFでは入力を一つのコードワードで表現していたのを, コード化処理 (3/4) Sparse Coding(SC) 入力特徴量 をM次元コード で表現する Bag of Features Sparse Coding BoFでは入力を一つのコードワードで表現していたのを, 少数のコードワードで表現可能にした
位置情報を用いて,入力の近傍のコードワードで,入力を表現する コード化処理 (4/4) LLC ( Locality-constrained Linear Coding ) 位置情報アダプタ: 入力特徴量 を M次元コード で表現する Sparse Coding L L C 位置情報を用いて,入力の近傍のコードワードで,入力を表現する
提案手法の流れ 奥行き情報 ・ ・ ・ ・ ・ ・ 距離画像 HONV LLC 特徴抽出 コード化 プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling
プーリング処理 (2次元) 空間ピラミッド(SP) 画像を階層的に部分領域 に区切って, 各部分領域で特徴量(コード)を統合する プーリング処理 (2次元) 空間ピラミッド(SP) Level 0 画像を階層的に部分領域 に区切って, 各部分領域で特徴量(コード)を統合する プーリング手法 特徴量の各次元の最大値を用いることで 統合する,最大プーリングを行う 画像ごとに特徴量を連結して正規化する Level 1 2階層 M × 5 次元
プーリング処理 (3次元) 距離空間ピラミッド(D-SP) 奥行き値を座標として距離空間を作成し,部分領域に分割する プーリング処理 (3次元) 距離空間ピラミッド(D-SP) 奥行き値を座標として距離空間を作成し,部分領域に分割する 空間ピラミッドの3次元拡張 ただし,通常の座標と異なり,奥行き値 は測定値なので,値にばらつきがある 座標による等分割ではなく, 各部分空間の特徴点の個数が等しくなるように分割を行う Level 0 Level 1 Level 2
提案手法の流れ 奥行き情報 Input 距離画像 RGB画像 Image 特徴抽出 HONV SIFT Keypoints & Features コード化 LLC Coding プーリング SP & D-SP Spatial Pyramid Pooling ・ ・ ・
提案手法の流れ 識別器 認識結果 LLC SIFT HONV ・ ・ ・ 学習画像 テスト画像 特徴抽出 Input Coding Classifier Output LLC コード化 Keypoints & Features プーリング
評価実験 (データセット) RGB-Dオブジェクトデータセット(奥行き情報+色情報)[1] 300物体,51カテゴリ,約42000 枚 評価実験 (データセット) RGB-Dオブジェクトデータセット(奥行き情報+色情報)[1] 300物体,51カテゴリ,約42000 枚 各物体の3つの高さの360度画像 撮影距離 約1メートル [1]K. Lai,L. Bo,X. Ren,and D. Fox, "A Large-Scale Hierarchical Multi-View RGB-D Object Dataset," ICRA,2011.
評価実験 (実験内容) 一般物体認識 特定物体認識 識別器 実験内容 51カテゴリの分類実験 評価実験 (実験内容) 一般物体認識 51カテゴリの分類実験 テストデータとして各カテゴリから1物体選択し,残りを学習データとする 51カテゴリで学習画像 約35000枚,テスト画像 約7000枚 選択はランダムで行い,10回の実験の平均認識率と標準偏差で評価 特定物体認識 300物体(インスタンス)の分類実験 3つの撮影角度のうち,中間の角度をテスト画像,それ以外を学習画像 300物体 学習画像 約28000枚,テスト画像 約14000 識別器 SVM (Support Vector Machine) マルチクラス 線形カーネル 実験内容 色情報のみ(RGB),奥行き情報のみ(Depth),両方使用(RGB-D) の3種類の実験を行い,実験結果を従来手法と比較する
実験結果と考察 (1/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察 (1/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP[2] 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2[3] 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察 提案手法を用いることで,従来手法よりも認識率が向上した [2]L. Bo, X. Ren, and D. Fox, “Hierarchical Matching Pursuit for Image Classification: Architecture and Fast Algorithms,” in NIPS, 2011. [3]L. Bo, X. Ren, and D. Fox, “Unsupervised Feature Learning for RGB-D Based Object Recognition,” In ISER, 2012.
実験結果と考察 (2/5) RGB-Dオブジェクトデータセット 考察 (奥行き情報のみ特定物体認識) HONV特徴量 表面形状特化 実験結果と考察 (2/5) RGB-Dオブジェクトデータセット binder_1 binder_2 binder_3 food_box_6 food_box_7 food_box_8 food_box_9 food_box_10 考察 (奥行き情報のみ特定物体認識) HONV特徴量 表面形状特化 距離空間ピラミッド 全体形状特化
実験結果と考察 (3/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察 (3/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察 LLC,HONV,距離空間ピラミッド それぞれの有効性
実験結果と考察 (4/5) HONVの有効性 距離空間ピラミッドの有効性 RGBD Category Instance Methods 実験結果と考察 (4/5) HONVの有効性 距離画像に対してSIFTを用いる場合と提案手法を比較 距離空間ピラミッドの有効性 距離空間ピラミッドを用いない場合と提案手法を比較 RGBD Category Instance Methods Depth RGB-D D-SIFT 79.2±1.8 88.0±1.8 50.6 94.3 HONV 82.9±2.3 89.2±1.6 42.5 94.2 RGBD Category Instance Methods Depth RGB-D SP 81.7±2.3 88.6±1.6 41.4 94.2 D-SP 82.9±2.3 89.2±1.6 42.5
実験結果と考察 (5/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察 (5/5) 実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察 (計算量) SIFTよりも特徴抽出が速いHONVを使用 LLC は近似処理により,高速化が可能 RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元 よって,提案手法は計算量,計算時間,記憶コストの削減を達成している
結論 今後の課題 局所特徴量のHONV,コード化手法のLLCを 3次元物体認識に適用 奥行き情報に基づく距離空間ピラミッドによって, 全体的な物体形状を表す手法を提案 提案手法は従来手法と比較して、認識率の向上, 計算量,計算時間,記憶コストの削減を実現 今後の課題 ・距離空間ピラミッドの領域分割法の改良 ・それに対応する新たなプーリング手法の作成 ・部分領域間の関係性の利用 ・ロボットビジョンへの実装・実世界での実験
ご清聴ありがとうございました
コード化処理 (3/3) LLC ( Locality-constrained Linear Coding ) コード化処理 (3/3) LLC ( Locality-constrained Linear Coding ) 位置情報アダプタ: Bag of Features Sparse Coding L L C 位置情報はスパース性よりも有用なので, 位置情報に特化させて,入力の近傍の点で入力を表現する
誤認識の原因 mushroom_1 mushroom_2 mushroom_3 binder_1 binder_2 binder_3 food_box_6 food_box_7 food_box_8 food_box_9 food_box_10
実験結果と考察 (D-SIFT 込) 実験結果(%) RGBD Category Instance Methods RGB Depth ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed1 85.3±1.6 79.2±1.8 88.0±1.8 93.9 50.6 94.3 Proposed2 82.9±2.3 89.2±1.6 42.5 94.2 考察 提案手法を用いることで,従来手法よりも認識率が向上した RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元 よって,提案手法は計算量,計算時間,記憶コストの削減を達成している
空間ピラミッド (Spatial Pyramid) Level 0 Level 1 Level 2
従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる
従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる