階層的領域分割法に基づく木構造条件付確率場による一般物体認識

Slides:

Advertisements

Similar presentations

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

Advertisements

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

顔表情クラスタリングによる映像コンテンツへのタギング

BRIEF: Binary Robust Independent Elementary Features

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム

画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts

Building text features for object image classification

人工知能特論８．教師あり学習と教師なし学習

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第四回　演習課題画像中からの物体抽出処理（背景情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/15.

パネル型クエリ生成インタフェース画像検索システムの改良

Pose Tracking from Natural Features on Mobile Phones

時空間データからのオブジェクトベース知識発見

ORB: an efficient alternative to SIFT or SURF

雑音重み推定と音声ＧＭＭを用いた雑音除去

TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.

SURF: Speeded Up Robust Features

クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--

CV輪講姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡

ランダムプロジェクションを用いた音声特徴量変換

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

高山建志五十嵐健夫テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp

サポートベクターマシンによるパターン認識

複数尤度を用いた３次元パーティクルフィルタによる選手の追跡 IS1-39

複数の言語情報を用いたCRFによる音声認識誤りの検出

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

大域的特徴としてBoFを導入した CRFによる一般物体認識

正規分布におけるベーテ近似の解析解と数値解東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

視点移動カメラにおけるカメラキャリブレーション

画像処理工学 2013年1月23日担当教員　北川　輝彦.

第14章　モデルの結合修士２年山川佳洋.

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

Computer Graphics 第10回レンダリング（4）マッピング

東京農業大学東京情報大学附属第一高等学校・中等部附属第二高等学校附属第三高等学校・中等部

複数特徴量の重み付け統合による一般物体認識

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

名古屋市立大学大学院システム自然科学研究科 MIRU2009: 第12回画像の認識・理解シンポジウム

Number of random matrices

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

第4章識別部の設計 4－5 識別部の最適化発表日：2003年5月16日発表者：時田陽一

Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

ブースティングとキーワードフィルタリングによるシステム要求検出

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

HMM音声合成における変分ベイズ法に基づく線形回帰

距離空間ピラミッドを用いた LLCによる3次元物体認識

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

ポッツスピン型隠れ変数による画像領域分割

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

パターン認識特論 ADA Boosting.

制約付き非負行列因子分解を用いた音声特徴抽出の検討

領域ベースの隠れ変数を用いた決定論的画像領域分割

パターン認識特論 ADA Boosting.

Webページタイプによるクラスタリングを用いた検索支援システム

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

Presentation transcript:

階層的領域分割法に基づく木構造条件付確率場による一般物体認識神戸大学大学院工学研究科奥村健志 okumura@me.cs.scitec.kobe-u.ac.jp 神戸大学自然科学系先端融合研究環滝口哲也, 有木康雄 {takigu, ariki}@kobe-u.ac.jp

研究背景と動機 (1/4) 社会的状況とその問題点 HDDの大容量化携帯電話やデジタルカメラの普及ロボット産業の発展仮想現実感，拡張現実感の進歩大量のタグなし動画像が存在　→ 人手による分類・検索が困難計算機による画像の「理解」　→ ヒトの視覚能力との大きな隔たり（一般）物体認識の研究が求められている wall computer 認識率の向上を目的とする．認識 book human desk chair

研究背景と動機 (2/4) 従来アプローチ条件付確率場（CRF: Conditional Random Field）を用いた推定手法領域分割特徴量抽出・グラフ化ラベル推定画像内の物体クラスには共起の関係があるという仮定のもと，CRFを用いたクラス推定手法はよく使われている． ※CRFの一般的な説明もここで入れる． cow grass tree

研究背景と動機 (3/4) 問題点分割誤りを最小限に抑えるため，過分割を行う必要がある領域分割各領域から抽出される特徴量の識別性能の低下物体のスケール変化への頑健性の低下領域分割一つのsuper-pixelが頭一つ⇔一つのsuper-pixleが頭の一部といった違いが出る.

研究背景と動機 (4/4) 問題解決へのアプローチ階層的領域分割法に基づく木構造条件付確率場を提案 coarse fine 階層的領域分割法により複数スケールの特徴量を抽出木構造条件付確率場によりクラス共起を考慮した上で　　　各層のクラス推定結果を統合 fine coarse

提案手法 (1/2) 入力画像階層的領域分割 coarse 特徴量抽出（色、テクスチャなど）クラスごとの信頼度算出 Gentle Adaboost Segmentation by Weighted Aggregation （SWA） fine coarse

（TCRF: Tree Conditional Random Field）提案手法 (2/2) : ノード（各領域） : エッジ（上層と下層を結ぶ） : クラスの信頼度 : クラス共起情報（平滑化項）上層と下層は包含関係木構造条件付確率場（TCRF: Tree Conditional Random Field）

提案手法 (2/2) : メッセージ確率伝播法（BP: Belief Propagation）認識結果 : rhino/hippo : water : snow : vegetation 木構造条件付確率場（TCRF: Tree Conditional Random Field）

階層的領域分割法 Segmentation by Weighted Aggregation （SWA） [Sharon, 2000] クラスタ内の類似度は大きく，クラスタ間の類似度は小さくするクラスタのサイズは均一にするエネルギー関数: High energy cut Low-energy cut クラスタのサイズ: 画像の領域分割というものは画素をサンプルとしたクラスタ分割とみなせる評価関数の話 segment 評価関数: → 　最小化（固有値問題） [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000

木構造条件付確率場木構造グラフのモデルで各層・各領域のクラス信頼度を統合 : エネルギー関数（モデル式） : ポテンシャル関数（クラス分布） : ポテンシャル関数（クラス共起）エネルギーを（確率を）最大化による最適なラベルを推定するエネルギー関数がモデルとなっている． : クラス変数（目的変数） : 観測変数（クラス信頼度） : モデルパラメータ（学習が必要）

木構造条件付確率場木構造グラフのモデルで各層・各領域のクラス信頼度を統合例えば… snow rhino cat water sky 信頼度の分布

木構造条件付確率場木構造グラフのモデルで各層・各領域のクラス信頼度を統合例えば… rhino water cat rhino cat 上もカバであれば下もカバであるとか、隣がカバであるならここは水である確率が高いなどクラスの共起関係というものが存在するはず water の働き平滑化（対角要素）クラス共起（非対角要素）

評価実験 (1/3) 実験データ評価方法 Corel dataset （7クラス，100枚，画像サイズ: 180×120） CV法画素毎に正誤を判定 : rhino/hippo : polar bear : water : snow 88.0% : vegetation : ground : sky 93.6% 入力画像正解ラベル認識結果

評価実験 (2/3) 比較手法ハイパーパラメータ実験結果（認識率） Logistic Regression (LR) : 領域間の関係を考慮しないモデル Conditional Random Field (CRF) : 階層化をしない従来のCRF ハイパーパラメータ実験結果（認識率）階層数最下層の領域数 BoFの単語数 6 150 500 rhino bear water snow vegetation ground sky Average LR 73.5% 65.1% 70.3% 68.2% 75.3% 71.0% 56.6% 68.6% CRF 71.8% 82.6% 70.6% 78.9% 74.7% 41.7% 70.2% TCRF 75.7% 72.7% 73.8% 79.4% 76.5% 49.6% 72.4% 2.2%

評価実験 (3/3) 入力画像正解ラベル LR CRF TCRF （提案手法） : rhino/hippo : polar bear ※ここで提案手法の改善効果（クラスの境界をより詳しく認識できる）を述べる．入力画像正解ラベル LR CRF TCRF （提案手法） : rhino/hippo : polar bear : water : snow : vegetation : ground : sky

まとめと今後の方針まとめ今後の方針階層的領域分割法に基づく木構造条件付確率場による一般物体認識手法を提案　一般物体認識手法を提案異なるスケールの特徴に基づくクラス信頼度を統合することにより　クラス間の境界付近に生じる誤認識を特に改善（認識率 2.2%↑）クラス “sky” をクラス “water” と多く誤認識していることなどから　特徴量・コンテキストレベルで改善を図る必要がある今後の方針 2次元・3次元の幾何的な特徴・コンテキストの利用を検討幾何的なコンテキストの例 : クラスの位置関係，奥行き情報 etc. 単一画像からの3次元形状復元手法をサーベイ ※ここに考察の内容も入れる．

ご清聴ありがとうございましたあと３分ほどお時間をいただいて今後の研究について発表します

単眼画像からの擬似３次元化研究背景と目的現在、3次元動画像をみるには専用の装置が必要動画の3次元化手法はstructure form motionなど確立しているが、画像の3次元化に有効な手法は確立していない → 専用装置を必要とせず、1枚の画像から3次元化が可能な手法が求められる Automatic Photo Popupと呼ばれる既存手法をベースにより高精度な3次元化手法を検討

人検出の機能の追加従来のラベリング：3クラス（水平物、垂直物、空）問題点 HOG特徴を用いたSVMによる人検出を実装画像内の個々の物体（人、車、木など）の認識が困難 HOG特徴を用いたSVMによる人検出を実装人領域を矩形でしか切り出せず粗い結果になる → 個別に物体検出を行って従来のラベリング結果と統合 → 検出結果をシードとしたグラフカットによる自動切り出し　　を行う（予定）

今後の方針別の擬似3次元化のアプローチとの統合大まかな構図を捉える手法に、より詳細な奥行き情報を加えることで、細かい誤りを訂正する狙いステレオカメラで撮った奥行き画像を教師画像とした推定 1枚の画像に対して擬似的に視差をつける手法大まかな構図を捉える手法に、より詳細な奥行き情報を加えることで、細かい誤りを訂正する狙い

関連研究他の階層的手法との比較提案手法のみ複数スケールの特徴量を考慮可能階層数特徴量のスケール [He, 2004] 3 （画素，パッチ，全体） 1 （画素） [Kumar, 2005] 2 （画素，パッチ） [Awasthi, 2007] 任意（グリッド分割） (画素）提案手法階層数に一致 [He, 2004] Xuming He, Richard S. Zemel, and Miguel A. Carreira-Perpinan. Multiscale conditional random fields for image labeling. In CVPR, pp. 695-702, 2004 [Kumar, 2005] Sanjiv Kumar and Martial Hebert. A hierarchical field framework for unified context-based calassification. In ICCV, pp. 1284-1291, 2005 [Awasthi, 2007] Pranjal Awasthi, Aakanksha Gagrani, and Balaraman Ravindran. Image modeling using tree structured conditional random fields. In IJCAI, pp. 2060-2065, 2007

階層的領域分割法 Segmentation by Weighted Aggregation （SWA） [Sharon, 2000] Recursive Coarsening Weighted Aggregation 階層的にする話これらのプロセスを繰り返し行うことで領域が階層化される aggregate k aggregate l [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000

Bag of Features [Csurka, 2004] 特徴量 Bag of Features [Csurka, 2004] 色特徴 RGB, HSV, YCrCb, Lab テクスチャ特徴 Gabor Filter, LoG Filter 形状特徴領域の面積，周囲長位置特徴領域の重心座標 fine coarse Gentle Ababoost 　・ブースティング学習の一種　・（層数）×（クラス数）個の識別器を学習データ　　から個々に学習し，クラスごとの信頼度を算出

木構造条件付確率場クラス推定エネルギー関数 P を最大化する最適ラベル y* を求める確率伝播法（Belief Propagation）により周辺分布を推定する隣接ノードからのメッセージの積で周辺分布を計算する閉路が存在しない木構造であるため厳密推定が可能 (b) 全体図 : rhino/hippo : water : snow : vegetation 最適ラベルを直接求めるのは困難（ノード数に対して指数的）であるので周辺化する．効率よく計算するためメッセージというものを用いる（それが確率伝播法）．いちいち個々に周辺分布を計算するのではなく，メッセージを伝播させることにより，隣接ノードからのメッセージの積で周辺化を可能にする． (a) 周辺分布の計算

Segmentation by Weighted Aggregation 疎補間行列 P の決定 TODO

Segmentation by Weighted Aggregation 状態変数 u の導出固有値問題に帰着ただし，

Bag of Features Bag of Featuresの利点局所パターンの集合であるため，オクルージョンに強い学習用画像 k-meansによるベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間 Codebook (Visual Wordの辞書) 出現頻度 Visual Word Bag of Featuresによる画像の表現 (W次元の正規化されたヒストグラム) ※Wはハイパーパラメータということに言及しておく． ※画像全体を特徴付ける．つまり，画像内にこれとあれの物体が含まれているというような情報を付与． ※正規化していることに言及. クラスタの重心がVisual Word (代表的な局所パターン) 入力画像 Bag of Featuresの利点局所パターンの集合であるため，オクルージョンに強い抽象化されたVisual Wordにより，見え方の変化にも強い

木構造条件付確率場モデルパラメータ学習正解ラベル付き学習データによりパラメータを学習学習の基準は最大事後確率（MAP: Maximum a Posteriori）推定勾配法の一つである L-BFGS 法により解析的に導出勾配（つまり偏微分）が，（真値）－（モデルの期待値）となり，これが小さくなる方向（つまり真値に近づく）に行くようにする．

木構造条件付確率場確率伝播法（BP: Belief Propagation） TODO