距離空間ピラミッドを用いた LLCによる3次元物体認識

Slides:

Advertisements

Similar presentations

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

Advertisements

顔表情クラスタリングによる映像コンテンツへのタギング

遺伝的アルゴリズムにおけるランドスケープによる問題のクラス分類

BRIEF: Binary Robust Independent Elementary Features

画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts

Building text features for object image classification

Learning Appearance in Virtual Scenarios for Pedestrian Detection

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第四回　演習課題画像中からの物体抽出処理（背景情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/15.

パノラマ動画像モデルによる仮想空間表現システムの研究

「わかりやすいパターン認識」第１章：パターン認識とは

Pose Tracking from Natural Features on Mobile Phones

画像処理工学 2012年2月2日担当教員　北川　輝彦.

画像処理論.

イラストの著作権保護のためのHOG特徴量を用いた複製検出

芦田尚美*，髙田雅美*，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館

Web画像を用いたマルチモーダル情報による物体認識

雑音重み推定と音声ＧＭＭを用いた雑音除去

TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.

SURF: Speeded Up Robust Features

DARTs: Efficient scale-space extraction of DAISY keypoints

CV輪講姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡

ランダムプロジェクションを用いた音声特徴量変換

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第三回　演習課題画像中からの物体抽出処理（色情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/08.

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

複数尤度を用いた３次元パーティクルフィルタによる選手の追跡 IS1-39

内視鏡画像からの奥行き情報提示による視覚支援システムの開発

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

大域的特徴としてBoFを導入した CRFによる一般物体認識

決定木とランダムフォレスト和田　俊和.

視点移動カメラにおけるカメラキャリブレーション

物体領域特徴の自動選定とマルチカーネル学習を用いた特徴統合による一般物体認識

画像処理工学 2013年1月23日担当教員　北川　輝彦.

音高による音色変化に着目した音源同定に関する研究

Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University)

高度情報演習1A “テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第二回演習課題

高度情報演習1C 実践画像処理プログラミング第二回演習課題

雑音環境下における非負値行列因子分解を用いた声質変換

第６章特徴空間の変換６．１特徴選択と特徴空間の変換６．２特徴量の正規化平成１５年５月２３日（金）発表者藤井丈明

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

中京大学工学部電気電子工学科白井研究室 4年 T 為房直人

複数特徴量の重み付け統合による一般物体認識

一方向画像からの３Dモデル生成電気電子工学科　白井研究室 T215049　田原　大輝.

SURF+BoFによる特定物体認識卒業研究1 1 11/27/11.

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

マルチ識別器を用いた花画像検索システムの構築

物体検出による視覚補助システム T215085　若松大仁　白井研究室.

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

非負値行列因子分解に基づく唇動画像からの音声生成

Number of random matrices

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

2007年度　長岡オープンハウスクロマキー合成小山高専　電子制御工学科4年　　　　　　　　　　　　　　　　　　　　　　針谷　尚裕.

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

制約付き非負行列因子分解を用いた音声特徴抽出の検討

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

Webページタイプによるクラスタリングを用いた検索支援システム

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

ランダムプロジェクションを用いた音響モデルの線形変換

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

距離空間ピラミッドを用いた LLCによる3次元物体認識神戸大学　システム情報学研究科ＣＳ１７　有木研究室 ○堀　貴博　　滝口哲也　　有木康雄

研究背景・動機高品質な3次元情報（色，奥行き情報）を提供するRGB-Dカメラ 3次元情報を用いた3次元物体認識ロボット視覚への導入仮想現実感，拡張現実感計算機による 3次元世界の「理解」が必要 3次元情報　を用いた3次元物体認識

研究背景・動機 umbrella cup 物体認識とは，制約のない実世界シーンの画像に含まれる物体の名称を計算機が認識することを指す認識大きく分けて，物体のカテゴリ名を認識する一般物体認識と各物体ごとに認識する特定物体認識がある認識 umbrella 認識 cup 出力結果入力画像

従来手法の問題点距離空間ピラミッドを提案し，全体形状を表現特徴抽出にHONV，コード化処理にLLCを適用 3次元物体認識の従来研究得られた奥行き情報を2次元距離画像に変換し，従来の2次元物体認識の手法をそのまま適用している問題点奥行き情報を取得することで物体の全体的な形状を把握することが可能であるにも関わらず，それを一切用いていないカラー画像奥行き情報距離画像距離空間ピラミッドを提案し，全体形状を表現　特徴抽出にHONV，コード化処理にLLCを適用

提案手法の流れ奥行き情報・・・・・・距離画像 HONV LLC 特徴抽出コード化プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling

特徴抽出特徴点 RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 画像上に等間隔で格子上に点を配置し，このグリッド点を特徴点とする RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 2次元画像に用いられる局所特徴量特徴点　　　　　 128次元特徴量　　　（輝度値の勾配情報） RGB画像距離画像

特徴抽出距離画像 ---- HONV (Histogram of Oriented Normal Vectors) 局所的3次元形状を表すために設計された局所特徴量 HOG特徴量の3次元拡張物体の表面点での法線ベクトル方向の2次元ヒストグラム（天頂角θと方位角φ を量子化，投票） X Y Z θ φ 法線ベクトルと天頂角θ，方位角φの関係 HONV特徴量

提案手法の流れ奥行き情報・・・・・・距離画像 HONV LLC 特徴抽出コード化プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling

コード化処理（1/4）コード化コードブックの作成特徴量を性能の高い別の特徴量（コード）に変換する処理コード化処理　（1/4）コード化特徴量を性能の高い別の特徴量（コード）に変換する処理 2 つのコード化手法と比較して，LLC を説明するコードブックの作成画像から抽出されたN個の D次元特徴量 K-means法でクラスタリング M個のコードワード　　の集合コードブック

コード化処理（2/4） Bag of Features (BoF) BoF 入力は最近傍のコードワードに属するコード化処理　（2/4） Bag of Features (BoF) 入力は最近傍のコードワードに属するコードワードの出現頻度ヒストグラムに変換はコードの集合 BoF ・・・・・・ Codebook Frequency ・・・・・・・ ① ② ③ ④

コード化処理（3/4） Sparse Coding(SC) BoFでは入力を一つのコードワードで表現していたのを，コード化処理　（3/4） Sparse Coding(SC) 入力特徴量　　をM次元コード　　で表現する Bag of Features Sparse Coding BoFでは入力を一つのコードワードで表現していたのを，少数のコードワードで表現可能にした

位置情報を用いて，入力の近傍のコードワードで，入力を表現するコード化処理　（4/4） LLC （ Locality-constrained Linear Coding ）位置情報アダプタ：入力特徴量　　を M次元コード　　で表現する Sparse Coding L L C 位置情報を用いて，入力の近傍のコードワードで，入力を表現する

提案手法の流れ奥行き情報・・・・・・距離画像 HONV LLC 特徴抽出コード化プーリング SP & D-SP RGB画像 SIFT LLC Spatial Pyramid Input Image Keypoints & Features Coding Pooling

プーリング処理（2次元）空間ピラミッド（SP）画像を階層的に部分領域に区切って，各部分領域で特徴量（コード）を統合するプーリング処理　（2次元）空間ピラミッド（SP） Level 0 画像を階層的に部分領域に区切って，各部分領域で特徴量（コード）を統合するプーリング手法特徴量の各次元の最大値を用いることで統合する，最大プーリングを行う画像ごとに特徴量を連結して正規化する Level 1 2階層　　　M　×　5 次元

プーリング処理（3次元）距離空間ピラミッド（D-SP）奥行き値を座標として距離空間を作成し，部分領域に分割するプーリング処理　（3次元）距離空間ピラミッド（D-SP）奥行き値を座標として距離空間を作成し，部分領域に分割する空間ピラミッドの3次元拡張ただし，通常の座標と異なり，奥行き値は測定値なので，値にばらつきがある座標による等分割ではなく，各部分空間の特徴点の個数が等しくなるように分割を行う Level 0 Level 1 Level 2

提案手法の流れ奥行き情報 Input 距離画像 RGB画像 Image 特徴抽出 HONV SIFT Keypoints & Features コード化 LLC Coding プーリング SP & D-SP Spatial Pyramid Pooling ・・・

提案手法の流れ識別器認識結果 LLC SIFT HONV ・・・学習画像テスト画像特徴抽出 Input Coding Classifier Output LLC コード化 Keypoints & Features プーリング

評価実験（データセット） RGB-Dオブジェクトデータセット（奥行き情報＋色情報）[1] 300物体，51カテゴリ，約42000 枚評価実験　（データセット） RGB-Dオブジェクトデータセット（奥行き情報＋色情報）[1] 300物体，51カテゴリ，約42000 枚各物体の3つの高さの360度画像撮影距離約1メートル [1]K. Lai，L. Bo，X. Ren，and D. Fox， "A Large-Scale Hierarchical Multi-View RGB-D Object Dataset，" ICRA，2011.

評価実験（実験内容）一般物体認識特定物体認識識別器実験内容 51カテゴリの分類実験評価実験　（実験内容）一般物体認識 51カテゴリの分類実験テストデータとして各カテゴリから1物体選択し，残りを学習データとする　　　　　　　　　　　　　　51カテゴリで学習画像　約35000枚，テスト画像　約7000枚選択はランダムで行い，10回の実験の平均認識率と標準偏差で評価特定物体認識 300物体（インスタンス）の分類実験 3つの撮影角度のうち，中間の角度をテスト画像，それ以外を学習画像　　　　　　　300物体　学習画像　約28000枚，テスト画像　約14000 識別器 SVM (Support Vector Machine)　マルチクラス　線形カーネル実験内容色情報のみ（RGB），奥行き情報のみ（Depth），両方使用（RGB-D）の3種類の実験を行い，実験結果を従来手法と比較する

実験結果と考察（1/5）実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察　（1/5）実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP[2] 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2[3] 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察提案手法を用いることで，従来手法よりも認識率が向上した [2]L. Bo, X. Ren, and D. Fox, “Hierarchical Matching Pursuit for Image Classification: Architecture and Fast Algorithms，” in NIPS, 2011. [3]L. Bo, X. Ren, and D. Fox, “Unsupervised Feature Learning for RGB-D Based Object Recognition，” In ISER, 2012.

実験結果と考察（2/5） RGB-Dオブジェクトデータセット考察（奥行き情報のみ特定物体認識） HONV特徴量表面形状特化実験結果と考察　（2/5） RGB-Dオブジェクトデータセット binder_1 binder_2 binder_3 food_box_6 food_box_7 food_box_8 food_box_9 food_box_10 考察　（奥行き情報のみ特定物体認識） HONV特徴量　　　　　　　　　　　　表面形状特化距離空間ピラミッド　　　　　　　　全体形状特化

実験結果と考察（3/5）実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察　（3/5）実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察 LLC，HONV，距離空間ピラミッド　それぞれの有効性

実験結果と考察（4/5） HONVの有効性距離空間ピラミッドの有効性 RGBD Category Instance Methods 実験結果と考察　（4/5） HONVの有効性距離画像に対してSIFTを用いる場合と提案手法を比較　距離空間ピラミッドの有効性距離空間ピラミッドを用いない場合と提案手法を比較 RGBD Category Instance Methods Depth RGB-D D-SIFT 79.2±1.8 88.0±1.8 50.6 94.3 HONV 82.9±2.3 89.2±1.6 42.5 94.2 RGBD Category Instance Methods Depth RGB-D SP 81.7±2.3 88.6±1.6 41.4 94.2 D-SP 82.9±2.3 89.2±1.6 42.5

実験結果と考察（5/5）実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D 実験結果と考察　（5/5）実験結果(%) RGBD Category Instance Methods RGB Depth RGB-D ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 CKM D N/A 86.4±2.3 82.9 90.4 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed 85.3±1.6 82.9±2.3 89.2±1.6 93.9 42.5 94.2 考察　（計算量） SIFTよりも特徴抽出が速いHONVを使用 LLC は近似処理により，高速化が可能 RGB-Dの特徴量の次元：HMP2は188,300次元，提案手法は25,600次元よって，提案手法は計算量，計算時間，記憶コストの削減を達成している

結論今後の課題局所特徴量のHONV，コード化手法のLLCを 3次元物体認識に適用奥行き情報に基づく距離空間ピラミッドによって，全体的な物体形状を表す手法を提案提案手法は従来手法と比較して、認識率の向上，計算量，計算時間，記憶コストの削減を実現今後の課題　・距離空間ピラミッドの領域分割法の改良　・それに対応する新たなプーリング手法の作成　・部分領域間の関係性の利用　・ロボットビジョンへの実装・実世界での実験

ご清聴ありがとうございました

コード化処理（3/3） LLC （ Locality-constrained Linear Coding ）コード化処理　（3/3） LLC （ Locality-constrained Linear Coding ）位置情報アダプタ： Bag of Features Sparse Coding L L C 位置情報はスパース性よりも有用なので，位置情報に特化させて，入力の近傍の点で入力を表現する

誤認識の原因 mushroom_1 mushroom_2 mushroom_3 binder_1 binder_2 binder_3 food_box_6 food_box_7 food_box_8 food_box_9 food_box_10

実験結果と考察（D-SIFT 込）実験結果(%) RGBD Category Instance Methods RGB Depth ICRA11 74.3±3.3 53.1±1.7 81.9±2.8 59.3 32.3 73.9 Kernel d 80.7±2.1 80.3±2.9 86.5±2.1 90.8 54.7 91.2 HMP 74.7±2.5 70.3±2.2 82.1±3.3 75.8 39.8 78.9 HMP2 82.4±3.1 81.2±2.3 87.5±2.9 92.1 51.7 92.8 Proposed1 85.3±1.6 79.2±1.8 88.0±1.8 93.9 50.6 94.3 Proposed2 82.9±2.3 89.2±1.6 42.5 94.2 考察提案手法を用いることで，従来手法よりも認識率が向上した RGB-Dの特徴量の次元：HMP2は188,300次元，提案手法は25,600次元よって，提案手法は計算量，計算時間，記憶コストの削減を達成している

空間ピラミッド（Spatial Pyramid） Level 0 Level 1 Level 2

従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる

従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる