大域的特徴としてBoFを導入した CRFによる一般物体認識 第12回 画像の認識・理解シンポジウム Meeting on Image Recognition and Understanding 2009 (MIRU2009) 2009年7月20日(月)~7月22日(水) 島根県松江市 くにびきメッセ 神戸大学大学院工学研究科 奥村 健志 okumura@me.cs.scitec.kobe-u.ac.jp 神戸大学自然科学系先端融合研究環 滝口 哲也, 有木 康雄 {takigu, ariki}@kobe-u.ac.jp
発表概要 研究背景・動機 提案手法 評価実験と考察 まとめと今後の方針
研究背景・動機 一般物体認識とは sky building tree 認識 grass コンピュータビジョンの分野で最もチャレンジングな課題の一つ 画像検索やロボットビジョンにおいて特に実現が求められている building sky tree grass 認識 ※一般物体認識は制約のないシーンにおいて画像内の各物体を一般的な名称で認識することを指します. ※HDDの容量の増大化とかロボット産業の発展とかの社会状況を云々.
研究背景・動機 画素単位のクラス認識(ラベル付け)手法がいくつか提案されている 緩和法によるラベリング [1977, Tenenbaum], Photobook [1995, Minka], Translation model [2001, Forsyth], multiscale Conditional Random Field (mCRF) [2004, He] Conditional Random Field [2001, Lafferty] の利点 画像全体のエネルギー(ポテンシャル)関数を最大化(または最小化)することで,大域最適なラベル付けが可能 同じグラフィカルモデルである生成モデルのMarkov Random Field (MRF) と違い,観測した特徴間において強い独立性を仮定する必要がない →局所領域間の関係を考慮しての認識が可能 ※CRFは本来どうゆう使われ方をしているか ※観測データから直接ラベル(クラス)を推定する.ただし,エッジにより周辺の推定結果も考慮に入るところがポイント. ※ここか次のスライドで共起の具体的効果(これこれクラスとこれこれクラスは共起しやすいので高めあい,逆も然り). ※利点→つまりこれこれ… という流れで言葉で説明 : ノード : エッジ : ポテンシャル関数 →異なる複数の特徴を容易に用いることが可能
研究背景・動機 CRFによる画像の一般物体認識 road car pairwise potential singleton potential road 学習によって得られるクラス共起情報 局所領域から抽出した特徴量に基づくポテンシャル関数 car グラフの構築 : メッセージ 3×4の入力画像 メッセージパッシング ポテンシャル関数 学習によって得られたパラメータ(重み)と抽出した 特徴量から計算されるクラス分布 クラス共起情報 隣接ノードのクラスは同じクラスになり易い(平滑化) “cow”と”grass”などは同時に存在し易い(共起) メッセージパッシング メッセージとは周辺ノードの情報を含んだクラス分布 メッセージを元に各ノードのクラス分布を再計算 認識結果
研究背景・動機 CRFによる一般物体認識における問題点 認識 airplane tree sky 多クラス認識 グラフにおける多数のノードと多重ループ構造 →計算量などの面から厳密推定が不可能であり近似を行う必要がある →局所最適な認識結果に陥る可能性が生じる 認識 airplane tree sky 局所最適な認識結果 大域的な特徴として Bag of Features [2004, Csurka] をCRFによる認識に 導入することで局所最適な認識結果に陥ることを防ぎ認識精度の向上を図る 提案手法
提案手法 road car Conditional Super-pixel 表現 Random による領域分割 Field 入力画像 低次特徴抽出 (色,テクスチャ,形,位置) ↓ 各クラスごとの Gentle Adaboost のスコア グリッドサンプリングによる SIFT記述子の抽出 (SIFT: Scale-Invariant Feature Transform) メッセージパッシング (Loopy Max-Product) によるクラスラベル推定 局所的特徴 Bag of Features による特徴付け 出現頻度 road : SIFT記述子 car Visual Word 大域的特徴 認識結果
Bag of Features (BoF) Bag of Featuresの利点 局所パターンの集合であるため,オクルージョンに強い 学習用画像 k-meansによる ベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間 Codebook (Visual Wordの辞書) 出現頻度 Visual Word Bag of Featuresによる 画像の表現 (W次元の正規化されたヒストグラム) ※Wはハイパーパラメータということに言及しておく. ※画像全体を特徴付ける.つまり,画像内にこれとあれの物体が含まれているというような情報を付与. ※正規化していることに言及. クラスタの重心がVisual Word (代表的な局所パターン) 入力画像 Bag of Featuresの利点 局所パターンの集合であるため,オクルージョンに強い 抽象化されたVisual Wordにより,見え方の変化にも強い
SIFT記述子のサンプリング 元々,SIFT [1999, Lowe] 記述子はDifference of Gaussian (DoG)により検出 特徴点の位置とスケールを自動検出し,スケール不変性を獲得できる反面 輝度勾配の変化が大きいところに特徴点が偏る →画像全体の特徴付けを行うには不安定といえる 格子状に一定間隔で特徴点を検出することで偏りのない特徴付けを行う スケールの自動検出の代わりとして複数の固定スケールを設定する 複数スケールを持たせたグリッドサンプリング ※赤丸は便宜上の表示で実際はピンクの矢印のように表現されることに言及しておく。 DoG グリッドサンプリング 矢印の長さ: 特徴点のスケール, 矢印の向き: 特徴点のオリエンテーション
Gentle Adaboostから各スコアを算出 領域分割と局所的特徴 super-pixel 表現 [2003, Malik] Normalized Cuts [1997, Malik] を利用 過分割により分割時の誤りを低減 画素と比べ,情報量増 + 冗長性減 局所的特徴 色特徴 RGB, HSV, YCrCb, Lab テクスチャ特徴 Gabor Filter, LoG Filter 形特徴 super-pixelの面積,周囲長 位置特徴 super-pixelの重心座標 各クラスごとに学習した Gentle Adaboostから各スコアを算出 正規化したベクトル(次元数: クラス数) 約200個のsuper-pixel
Conditional Random Field (CRF) singleton potential pairwise potential i, j: super-pixel(ノード) S: 全ノード集合 N: 近傍ノード集合 Z: 分配関数(正規化項) c: クラス変数 θ = {α, β, γ}: 学習パラメータ l: 局所的特徴(Gentle Adaboostのスコアベクトル) g: 大域的特徴(Bag of Features) ・学習データから推定される(クラス数)×(クラス数)の行列 ・対角要素: 平滑化,非対角要素: 共起 を表す 1 2 C クラス <ノード i について> <ノード j について> super-pixelに分割された画像 (説明のため領域数は実際と異なる) 入力画像をsuper-pixelに領域分割後,局所的特徴と大域的特徴 を抽出し,CRFのグラフを構築する この項の存在により,各ノードのクラス推定において周辺ノード との関係を考慮することが可能(必要)になる 画像から抽出した全ての局所的・大域的特徴で条件付けられた クラス分布としてエネルギー関数を定義 ・各特徴と学習した重みパラメータによってクラス分布を計算 ・大域的特徴に基づくクラス分布は全ノードにおいて共通
Conditional Random Field (CRF) MAP推定を基準に正解ラベル付きの学習データから学習 L-BFGS法により解析的に求めるが,分配関数は擬似尤度で近似 クラスの推定 MPM推定を基準に各ノードにおいて周辺事後クラス分布を最大化するクラスを割り当てる Loopy Max-Productアルゴリズムにより,局所最適なメッセージ伝播に基づき近似的に推定 ※2枚に分けて詳細にするかは悩みどころ. ※発表中,時間に余裕があれば口で色々と説明する. ※多クラス認識,多重ループ構造における大域最適な推定方法は存在しない.
実験条件 データセット 評価尺度 MSRC 21 データセット (21クラス,591枚,画像サイズ 320×213) 296枚を学習用,295枚をテスト用として利用 Corel データセット (7クラス,100枚,画像サイズ 180×120) 60枚を学習用,40枚をテスト用として利用 評価尺度 Class Average Accuracy(クラスごとの認識率を平均したもの)を用いた sky MSRC 21 データセット ※黒い部分は評価対象外 ※例示している認識率は画像単位でのスコア building (96.8%) vegetation Corel データセット polar bear snow (91.3%) 入力画像 正解ラベル 認識結果
実験条件 比較手法 TextonBoost [2006, Shotton] (MSRC21における従来研究との精度比較) mCRF [2004, He] (Corelにおける従来研究との精度比較) No Global (局所的特徴のみを用いたCRFによる認識手法) Sparse-Gray (DoGを用いたBag of Featuresを導入した手法) Grid-Gray (グリッドサンプリングに変更した手法) Grid-Color (SIFT記述子に色情報を取り入れた手法) CRFを用いた従来手法 提案手法 ※Visual Wordの単語数は変化させた中で最も高いものとする MSRC 21 Corel サンプリング間隔 (pixel) 10 5 SIFT記述子のスケール (pixel) {4, 8, 12, 16} {2, 4, 6, 8} Visual Wordの単語数 (words) 100, 200, …, 1000
Class Average Accuracy (%) 実験結果 MSRC21 について 大域的特徴の導入により,認識率が最大6.5%向上した グリッドサンプリングを用いた方が精度が良かったが,色情報を入れると精度が悪くなった Corel について 大域的特徴の導入による認識率の向上は最大1.3%と小幅 従来手法の方が精度が高かった Class Average Accuracy (%) MSRC 21 Corel TextonBoost 57.7 - mCRF 80.9 No Global 59.0 73.0 Sparse-Gray 62.3 (600 words) 68.0 (800 words) Grid-Gray 65.5 (500 words) 73.0 (400 words) Grid-Color 64.6 (300 words) 74.3 (600 words) 従来手法 提案手法
実験結果 (MSRC 21) 局所最適な認識結果からの改善例 grass bird sheep building car bicycle road grass cow dog bird 入力画像 正解クラス No Global 提案手法
実験結果 (Corel) に関する考察 低解像度による問題 クラス数による問題 輝度勾配情報を用いるSIFT記述子ベースのBoFでは特徴付けが難しい BoFの精度が落ちることにより,提案手法による改善効果が小さくなる クラス数による問題 7クラスと少ないので局所的特徴に基づくクラス分布は単峰性になり易い 大域的特徴に基づくクラス分布を足すことによる補正が効きにくい ※予備実験の認識率 > 大域的特徴なし → MSRC 21 ※予備実験の認識率 < 大域的特徴なし → Corel ※Corelのクラス分布は単峰性になりやすい ※普通は平均400個以上とれる特徴点が 1 2 3 4 5 6 7 class
まとめと今後の方針 Bag of Featuresを大域的な特徴としてCRFによる認識に導入 大域的な情報を加えることで局所最適な誤認識を軽減(認識率が最大6.5%向上) Bag of FeaturesにおいてSIFT記述子をグリッドサンプリングで抽出 実験結果から,より安定した特徴付けが可能になったことを確認 データセットによって提案手法による改善効果に差異が見られる 低解像度・少数クラスのデータセットでは精度の改善幅が小さい 今後の方針 領域統合に基づく階層型CRFの構築により,さらに詳細な大域的情報の獲得 コンテキスト情報(物体の位置関係やWord Netなどの辞書)の利用
ご清聴ありがとうございました
SIFT (Scale-Invariant Feature Transform) 記述子 代表オリエンテーションの算出 特徴量の記述
低次特徴について 次元数 色特徴とテクスチャ特徴について 領域単位で特徴付けるため統計量を計算する 平均,標準偏差,歪度,尖度
Gabor Filter Gabor Filter関数 使用したパラメータ値 サンプル
Gentle Adaboost
Normalized Cuts
クラス分布
CRFの学習
L-BFGS法 準ニュートン法におけるヘッセ行列を逐次近似することにより計算量を大幅に削減した手法
について ○学習データの真値とモデルからの期待値との差に 過学習を防ぐ項を加えた形になる
分配関数と擬似尤度 分配関数(正規化項) 擬似尤度
クラスの推定
メッセージパッシング
実験結果の補足
Confusion Matrix(MSRC 21)