大域的特徴としてBoFを導入した CRFによる一般物体認識

大域的特徴としてBoFを導入した CRFによる一般物体認識
第12回　画像の認識・理解シンポジウム Meeting on Image Recognition and Understanding 2009 (MIRU2009) 2009年7月20日（月)～7月22日(水)　島根県松江市　くにびきメッセ神戸大学大学院工学研究科奥村健志神戸大学自然科学系先端融合研究環滝口哲也, 有木康雄 {takigu,

発表概要研究背景・動機提案手法評価実験と考察まとめと今後の方針

研究背景・動機一般物体認識とは sky building tree 認識 grass
コンピュータビジョンの分野で最もチャレンジングな課題の一つ画像検索やロボットビジョンにおいて特に実現が求められている building sky tree grass 認識 ※一般物体認識は制約のないシーンにおいて画像内の各物体を一般的な名称で認識することを指します． ※HDDの容量の増大化とかロボット産業の発展とかの社会状況を云々．

研究背景・動機画素単位のクラス認識（ラベル付け）手法がいくつか提案されている
緩和法によるラベリング [1977, Tenenbaum], Photobook [1995, Minka], Translation model [2001, Forsyth], multiscale Conditional Random Field (mCRF) [2004, He] Conditional Random Field [2001, Lafferty] の利点画像全体のエネルギー(ポテンシャル）関数を最大化（または最小化）することで，大域最適なラベル付けが可能同じグラフィカルモデルである生成モデルのMarkov Random Field (MRF) と違い，観測した特徴間において強い独立性を仮定する必要がない →局所領域間の関係を考慮しての認識が可能 ※CRFは本来どうゆう使われ方をしているか ※観測データから直接ラベル（クラス）を推定する．ただし，エッジにより周辺の推定結果も考慮に入るところがポイント． ※ここか次のスライドで共起の具体的効果（これこれクラスとこれこれクラスは共起しやすいので高めあい，逆も然り）． ※利点→つまりこれこれ…　という流れで言葉で説明 : ノード : エッジ : ポテンシャル関数 →異なる複数の特徴を容易に用いることが可能

研究背景・動機 CRFによる画像の一般物体認識 road car pairwise potential
singleton potential road 学習によって得られるクラス共起情報局所領域から抽出した特徴量に基づくポテンシャル関数 car グラフの構築 : メッセージ 3×4の入力画像メッセージパッシングポテンシャル関数学習によって得られたパラメータ（重み）と抽出した　特徴量から計算されるクラス分布クラス共起情報隣接ノードのクラスは同じクラスになり易い（平滑化） “cow”と”grass”などは同時に存在し易い（共起）メッセージパッシングメッセージとは周辺ノードの情報を含んだクラス分布メッセージを元に各ノードのクラス分布を再計算認識結果

研究背景・動機 CRFによる一般物体認識における問題点認識 airplane tree sky 多クラス認識
グラフにおける多数のノードと多重ループ構造 →計算量などの面から厳密推定が不可能であり近似を行う必要がある →局所最適な認識結果に陥る可能性が生じる認識 airplane tree sky 局所最適な認識結果大域的な特徴として Bag of Features [2004, Csurka] をCRFによる認識に導入することで局所最適な認識結果に陥ることを防ぎ認識精度の向上を図る提案手法

提案手法 road car Conditional Super-pixel 表現 Random による領域分割 Field 入力画像
低次特徴抽出 (色，テクスチャ，形，位置） ↓ 各クラスごとの Gentle Adaboost のスコアグリッドサンプリングによる SIFT記述子の抽出 (SIFT: Scale-Invariant Feature Transform) メッセージパッシング (Loopy Max-Product) によるクラスラベル推定局所的特徴 Bag of Features による特徴付け出現頻度 road : SIFT記述子 car Visual Word 大域的特徴認識結果

Bag of Features (BoF) Bag of Featuresの利点局所パターンの集合であるため，オクルージョンに強い
学習用画像 k-meansによるベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間 Codebook (Visual Wordの辞書) 出現頻度 Visual Word Bag of Featuresによる画像の表現 (W次元の正規化されたヒストグラム) ※Wはハイパーパラメータということに言及しておく． ※画像全体を特徴付ける．つまり，画像内にこれとあれの物体が含まれているというような情報を付与． ※正規化していることに言及. クラスタの重心がVisual Word (代表的な局所パターン) 入力画像 Bag of Featuresの利点局所パターンの集合であるため，オクルージョンに強い抽象化されたVisual Wordにより，見え方の変化にも強い

SIFT記述子のサンプリング元々，SIFT [1999, Lowe] 記述子はDifference of Gaussian (DoG)により検出特徴点の位置とスケールを自動検出し，スケール不変性を獲得できる反面　　輝度勾配の変化が大きいところに特徴点が偏る →画像全体の特徴付けを行うには不安定といえる格子状に一定間隔で特徴点を検出することで偏りのない特徴付けを行うスケールの自動検出の代わりとして複数の固定スケールを設定する複数スケールを持たせたグリッドサンプリング ※赤丸は便宜上の表示で実際はピンクの矢印のように表現されることに言及しておく。 DoG グリッドサンプリング矢印の長さ: 特徴点のスケール, 矢印の向き: 特徴点のオリエンテーション

Gentle Adaboostから各スコアを算出
領域分割と局所的特徴 super-pixel 表現 [2003, Malik] Normalized Cuts [1997, Malik] を利用過分割により分割時の誤りを低減画素と比べ，情報量増 + 冗長性減局所的特徴色特徴 RGB, HSV, YCrCb, Lab テクスチャ特徴 Gabor Filter, LoG Filter 形特徴 super-pixelの面積，周囲長位置特徴 super-pixelの重心座標各クラスごとに学習した Gentle Adaboostから各スコアを算出正規化したベクトル（次元数: クラス数）約200個のsuper-pixel

Conditional Random Field (CRF)
singleton potential pairwise potential i, j: super-pixel（ノード） S: 全ノード集合 N: 近傍ノード集合 Z: 分配関数（正規化項） c: クラス変数 θ = {α, β, γ}: 学習パラメータ l: 局所的特徴（Gentle Adaboostのスコアベクトル） g: 大域的特徴（Bag of Features）・学習データから推定される(クラス数)×(クラス数）の行列・対角要素: 平滑化，非対角要素: 共起　を表す 1 2 C クラス＜ノード i について＞＜ノードｊについて＞ super-pixelに分割された画像（説明のため領域数は実際と異なる）入力画像をsuper-pixelに領域分割後，局所的特徴と大域的特徴を抽出し，CRFのグラフを構築するこの項の存在により，各ノードのクラス推定において周辺ノードとの関係を考慮することが可能（必要）になる画像から抽出した全ての局所的・大域的特徴で条件付けられたクラス分布としてエネルギー関数を定義・各特徴と学習した重みパラメータによってクラス分布を計算・大域的特徴に基づくクラス分布は全ノードにおいて共通

Conditional Random Field (CRF)
MAP推定を基準に正解ラベル付きの学習データから学習 L-BFGS法により解析的に求めるが，分配関数は擬似尤度で近似クラスの推定 MPM推定を基準に各ノードにおいて周辺事後クラス分布を最大化するクラスを割り当てる Loopy Max-Productアルゴリズムにより，局所最適なメッセージ伝播に基づき近似的に推定 ※2枚に分けて詳細にするかは悩みどころ． ※発表中，時間に余裕があれば口で色々と説明する． ※多クラス認識，多重ループ構造における大域最適な推定方法は存在しない．

実験条件データセット評価尺度 MSRC 21 データセット（21クラス，591枚，画像サイズ 320×213）
296枚を学習用，295枚をテスト用として利用 Corel データセット（7クラス，100枚，画像サイズ 180×120） 60枚を学習用，40枚をテスト用として利用評価尺度 Class Average Accuracy（クラスごとの認識率を平均したもの）を用いた sky MSRC 21 データセット ※黒い部分は評価対象外 ※例示している認識率は画像単位でのスコア building (96.8%) vegetation Corel データセット polar bear snow (91.3%) 入力画像正解ラベル認識結果

実験条件比較手法 TextonBoost [2006, Shotton] （MSRC21における従来研究との精度比較）
mCRF [2004, He] （Corelにおける従来研究との精度比較） No Global （局所的特徴のみを用いたCRFによる認識手法） Sparse-Gray （DoGを用いたBag of Featuresを導入した手法） Grid-Gray （グリッドサンプリングに変更した手法） Grid-Color （SIFT記述子に色情報を取り入れた手法） CRFを用いた従来手法提案手法 ※Visual Wordの単語数は変化させた中で最も高いものとする MSRC 21 Corel サンプリング間隔 (pixel) 10 5 SIFT記述子のスケール (pixel) {4, 8, 12, 16} {2, 4, 6, 8} Visual Wordの単語数 (words) 100, 200, …, 1000

Class Average Accuracy (%)
実験結果 MSRC21 について大域的特徴の導入により，認識率が最大6.5%向上したグリッドサンプリングを用いた方が精度が良かったが，色情報を入れると精度が悪くなった Corel について大域的特徴の導入による認識率の向上は最大1.3%と小幅従来手法の方が精度が高かった Class Average Accuracy (%) MSRC 21 Corel TextonBoost 57.7 - mCRF 80.9 No Global 59.0 73.0 Sparse-Gray 62.3 (600 words) 68.0 (800 words) Grid-Gray 65.5 (500 words) 73.0 (400 words) Grid-Color 64.6 (300 words) 74.3 (600 words) 従来手法提案手法

実験結果 (MSRC 21) 局所最適な認識結果からの改善例 grass bird sheep building car bicycle
road grass cow dog bird 入力画像正解クラス No Global 提案手法

実験結果 (Corel) に関する考察低解像度による問題クラス数による問題
輝度勾配情報を用いるSIFT記述子ベースのBoFでは特徴付けが難しい BoFの精度が落ちることにより，提案手法による改善効果が小さくなるクラス数による問題 7クラスと少ないので局所的特徴に基づくクラス分布は単峰性になり易い大域的特徴に基づくクラス分布を足すことによる補正が効きにくい ※予備実験の認識率　＞　大域的特徴なし　→　MSRC 21 ※予備実験の認識率　＜　大域的特徴なし　→　Corel ※Corelのクラス分布は単峰性になりやすい ※普通は平均400個以上とれる特徴点が 1 2 3 4 5 6 7 class

まとめと今後の方針 Bag of Featuresを大域的な特徴としてCRFによる認識に導入
大域的な情報を加えることで局所最適な誤認識を軽減（認識率が最大6.5%向上） Bag of FeaturesにおいてSIFT記述子をグリッドサンプリングで抽出実験結果から，より安定した特徴付けが可能になったことを確認データセットによって提案手法による改善効果に差異が見られる低解像度・少数クラスのデータセットでは精度の改善幅が小さい今後の方針領域統合に基づく階層型CRFの構築により，さらに詳細な大域的情報の獲得コンテキスト情報（物体の位置関係やWord Netなどの辞書）の利用

ご清聴ありがとうございました

SIFT (Scale-Invariant Feature Transform) 記述子
代表オリエンテーションの算出特徴量の記述

低次特徴について次元数色特徴とテクスチャ特徴について領域単位で特徴付けるため統計量を計算する平均，標準偏差，歪度，尖度

Gabor Filter Gabor Filter関数使用したパラメータ値サンプル

Gentle Adaboost

Normalized Cuts

クラス分布

CRFの学習

L-BFGS法準ニュートン法におけるヘッセ行列を逐次近似することにより計算量を大幅に削減した手法

　　　　　　　　　　　　　　　について ○学習データの真値とモデルからの期待値との差に　過学習を防ぐ項を加えた形になる

分配関数と擬似尤度分配関数（正規化項）擬似尤度

クラスの推定

メッセージパッシング

実験結果の補足

Confusion Matrix（MSRC 21）

大域的特徴としてBoFを導入した CRFによる一般物体認識

Similar presentations

Presentation on theme: "大域的特徴としてBoFを導入した CRFによる一般物体認識"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

大域的特徴としてBoFを導入した CRFによる一般物体認識

Similar presentations

Presentation on theme: "大域的特徴としてBoFを導入した CRFによる一般物体認識"— Presentation transcript:

Similar presentations

About project

フィードバック