階層的領域分割法に基づく 木構造条件付確率場による一般物体認識 神戸大学大学院工学研究科 奥村 健志 okumura@me.cs.scitec.kobe-u.ac.jp 神戸大学自然科学系先端融合研究環 滝口 哲也, 有木 康雄 {takigu, ariki}@kobe-u.ac.jp
研究背景と動機 (1/4) 社会的状況とその問題点 HDDの大容量化 携帯電話やデジタルカメラの普及 ロボット産業の発展 仮想現実感,拡張現実感の進歩 大量のタグなし動画像が存在 → 人手による分類・検索が困難 計算機による画像の「理解」 → ヒトの視覚能力との大きな隔たり (一般)物体認識の研究が求められている wall computer 認識率の向上を目的とする. 認識 book human desk chair
研究背景と動機 (2/4) 従来アプローチ 条件付確率場(CRF: Conditional Random Field)を用いた推定手法 領域分割 特徴量抽出・グラフ化 ラベル推定 画像内の物体クラスには共起の関係があるという仮定のもと,CRFを用いたクラス推定手法はよく使われている. ※CRFの一般的な説明もここで入れる. cow grass tree
研究背景と動機 (3/4) 問題点 分割誤りを最小限に抑えるため,過分割を行う必要がある 領域分割 各領域から抽出される特徴量の識別性能の低下 物体のスケール変化への頑健性の低下 領域分割 一つのsuper-pixelが頭一つ⇔一つのsuper-pixleが頭の一部といった違いが出る.
研究背景と動機 (4/4) 問題解決へのアプローチ 階層的領域分割法に基づく木構造条件付確率場を提案 coarse fine 階層的領域分割法により複数スケールの特徴量を抽出 木構造条件付確率場によりクラス共起を考慮した上で 各層のクラス推定結果を統合 fine coarse
提案手法 (1/2) 入力画像 階層的領域分割 coarse 特徴量抽出(色、テクスチャなど) クラスごとの信頼度算出 Gentle Adaboost Segmentation by Weighted Aggregation (SWA) fine coarse
(TCRF: Tree Conditional Random Field) 提案手法 (2/2) : ノード(各領域) : エッジ(上層と下層を結ぶ) : クラスの信頼度 : クラス共起情報(平滑化項) 上層と下層は包含関係 木構造条件付確率場 (TCRF: Tree Conditional Random Field)
提案手法 (2/2) : メッセージ 確率伝播法 (BP: Belief Propagation) 認識結果 : rhino/hippo : water : snow : vegetation 木構造条件付確率場 (TCRF: Tree Conditional Random Field)
階層的領域分割法 Segmentation by Weighted Aggregation (SWA) [Sharon, 2000] クラスタ内の類似度は大きく,クラスタ間の類似度は小さくする クラスタのサイズは均一にする エネルギー関数: High energy cut Low-energy cut クラスタのサイズ: 画像の領域分割というものは画素をサンプルとしたクラスタ分割とみなせる 評価関数の話 segment 評価関数: → 最小化 (固有値問題) [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000
木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 : エネルギー関数 (モデル式) : ポテンシャル関数 (クラス分布) : ポテンシャル関数 (クラス共起) エネルギーを(確率を)最大化による最適なラベルを推定するエネルギー関数がモデルとなっている. : クラス変数 (目的変数) : 観測変数 (クラス信頼度) : モデルパラメータ (学習が必要)
木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 例えば… snow rhino cat water sky 信頼度の分布
木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 例えば… rhino water cat rhino cat 上もカバであれば下もカバであるとか、隣がカバであるならここは水である確率が高いなどクラスの共起関係というものが存在するはず water の働き 平滑化(対角要素) クラス共起(非対角要素)
評価実験 (1/3) 実験データ 評価方法 Corel dataset (7クラス,100枚,画像サイズ: 180×120) CV法 画素毎に正誤を判定 : rhino/hippo : polar bear : water : snow 88.0% : vegetation : ground : sky 93.6% 入力画像 正解ラベル 認識結果
評価実験 (2/3) 比較手法 ハイパーパラメータ 実験結果(認識率) Logistic Regression (LR) : 領域間の関係を考慮しないモデル Conditional Random Field (CRF) : 階層化をしない従来のCRF ハイパーパラメータ 実験結果(認識率) 階層数 最下層の領域数 BoFの単語数 6 150 500 rhino bear water snow vegetation ground sky Average LR 73.5% 65.1% 70.3% 68.2% 75.3% 71.0% 56.6% 68.6% CRF 71.8% 82.6% 70.6% 78.9% 74.7% 41.7% 70.2% TCRF 75.7% 72.7% 73.8% 79.4% 76.5% 49.6% 72.4% 2.2%
評価実験 (3/3) 入力画像 正解ラベル LR CRF TCRF (提案手法) : rhino/hippo : polar bear ※ここで提案手法の改善効果(クラスの境界をより詳しく認識できる)を述べる. 入力画像 正解ラベル LR CRF TCRF (提案手法) : rhino/hippo : polar bear : water : snow : vegetation : ground : sky
まとめと今後の方針 まとめ 今後の方針 階層的領域分割法に基づく木構造条件付確率場による 一般物体認識手法を提案 一般物体認識手法を提案 異なるスケールの特徴に基づくクラス信頼度を統合することにより クラス間の境界付近に生じる誤認識を特に改善 (認識率 2.2%↑) クラス “sky” をクラス “water” と多く誤認識していることなどから 特徴量・コンテキストレベルで改善を図る必要がある 今後の方針 2次元・3次元の幾何的な特徴・コンテキストの利用を検討 幾何的なコンテキストの例 : クラスの位置関係,奥行き情報 etc. 単一画像からの3次元形状復元手法をサーベイ ※ここに考察の内容も入れる.
ご清聴ありがとうございました あと3分ほどお時間をいただいて 今後の研究について発表します
単眼画像からの擬似3次元化 研究背景と目的 現在、3次元動画像をみるには専用の装置が必要 動画の3次元化手法はstructure form motionなど確立しているが、画像の3次元化に有効な手法は確立していない → 専用装置を必要とせず、1枚の画像から3次元化が可能な手法が求められる Automatic Photo Popupと呼ばれる既存手法をベースに より高精度な3次元化手法を検討
人検出の機能の追加 従来のラベリング:3クラス(水平物、垂直物、空) 問題点 HOG特徴を用いたSVMによる人検出を実装 画像内の個々の物体(人、車、木など)の認識が困難 HOG特徴を用いたSVMによる人検出を実装 人領域を矩形でしか切り出せず粗い結果になる → 個別に物体検出を行って従来のラベリング結果と統合 → 検出結果をシードとしたグラフカットによる自動切り出し を行う(予定)
今後の方針 別の擬似3次元化のアプローチとの統合 大まかな構図を捉える手法に、より詳細な奥行き情報を加えることで、細かい誤りを訂正する狙い ステレオカメラで撮った奥行き画像を教師画像とした推定 1枚の画像に対して擬似的に視差をつける手法 大まかな構図を捉える手法に、より詳細な奥行き情報を加えることで、細かい誤りを訂正する狙い
関連研究 他の階層的手法との比較 提案手法のみ複数スケールの特徴量を考慮可能 階層数 特徴量のスケール [He, 2004] 3 (画素,パッチ,全体) 1 (画素) [Kumar, 2005] 2 (画素,パッチ) [Awasthi, 2007] 任意 (グリッド分割) (画素) 提案手法 階層数に一致 [He, 2004] Xuming He, Richard S. Zemel, and Miguel A. Carreira-Perpinan. Multiscale conditional random fields for image labeling. In CVPR, pp. 695-702, 2004 [Kumar, 2005] Sanjiv Kumar and Martial Hebert. A hierarchical field framework for unified context-based calassification. In ICCV, pp. 1284-1291, 2005 [Awasthi, 2007] Pranjal Awasthi, Aakanksha Gagrani, and Balaraman Ravindran. Image modeling using tree structured conditional random fields. In IJCAI, pp. 2060-2065, 2007
階層的領域分割法 Segmentation by Weighted Aggregation (SWA) [Sharon, 2000] Recursive Coarsening Weighted Aggregation 階層的にする話 これらのプロセスを繰り返し 行うことで領域が階層化される aggregate k aggregate l [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000
Bag of Features [Csurka, 2004] 特徴量 Bag of Features [Csurka, 2004] 色特徴 RGB, HSV, YCrCb, Lab テクスチャ特徴 Gabor Filter, LoG Filter 形状特徴 領域の面積,周囲長 位置特徴 領域の重心座標 fine coarse Gentle Ababoost ・ブースティング学習の一種 ・(層数)×(クラス数)個の識別器を学習データ から個々に学習し,クラスごとの信頼度を算出
木構造条件付確率場 クラス推定 エネルギー関数 P を最大化する最適ラベル y* を求める 確率伝播法(Belief Propagation)により周辺分布を推定する 隣接ノードからのメッセージの積で周辺分布を計算する 閉路が存在しない木構造であるため厳密推定が可能 (b) 全体図 : rhino/hippo : water : snow : vegetation 最適ラベルを直接求めるのは困難(ノード数に対して指数的)であるので周辺化する.効率よく計算するためメッセージというものを用いる(それが確率伝播法). いちいち個々に周辺分布を計算するのではなく,メッセージを伝播させることにより,隣接ノードからのメッセージの積で周辺化を可能にする. (a) 周辺分布の計算
Segmentation by Weighted Aggregation 疎補間行列 P の決定 TODO
Segmentation by Weighted Aggregation 状態変数 u の導出 固有値問題に帰着 ただし,
Bag of Features Bag of Featuresの利点 局所パターンの集合であるため,オクルージョンに強い 学習用画像 k-meansによる ベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間 Codebook (Visual Wordの辞書) 出現頻度 Visual Word Bag of Featuresによる 画像の表現 (W次元の正規化されたヒストグラム) ※Wはハイパーパラメータということに言及しておく. ※画像全体を特徴付ける.つまり,画像内にこれとあれの物体が含まれているというような情報を付与. ※正規化していることに言及. クラスタの重心がVisual Word (代表的な局所パターン) 入力画像 Bag of Featuresの利点 局所パターンの集合であるため,オクルージョンに強い 抽象化されたVisual Wordにより,見え方の変化にも強い
木構造条件付確率場 モデルパラメータ学習 正解ラベル付き学習データによりパラメータを学習 学習の基準は最大事後確率(MAP: Maximum a Posteriori)推定 勾配法の一つである L-BFGS 法により解析的に導出 勾配(つまり偏微分)が,(真値)-(モデルの期待値)となり,これが小さくなる方向(つまり真値に近づく)に行くようにする.
木構造条件付確率場 確率伝播法(BP: Belief Propagation) TODO