TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁
Alpha-expansion graph-cut algorithmによるセグメンテーション はじめに 一般物体認識 TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation [J.Shotton et al. ECCV’06] CRFモデルの作成 Alpha-expansion graph-cut algorithmによるセグメンテーション
Image Database Microsoft Researchで提供されている591枚の画像 21クラスに分類 学習用画像 45% 学習用画像 45% 検証用画像 10% テスト用画像 45% 21クラスに分類 Building, grass, tree, cow, sheep, sky, aeroplane, water, face, car bike, flower, sign, bird, book, chair, road, cat, dog, body, boat 手作業でラベル付け
Conditional Random Field モデルの作成 shape, texture, color, location, edgeの情報を1つの モデルとして扱う
Shape-texture potentials(1/3) Texton 17種類のfilter bank 出力値を用いたマハラノビス距離による k-meansクラスタリング Texton mapの生成
Shape-texture potentials(2/3) Texton mapから特徴量抽出 Shape filterの使用(Integral imageによる効率化) 矩形領域の面積をA i1→A,i2→0,i3→A/2 矩形領域 r にtexton t がどれだけ存在しているか
Shape-texture potentials(3/3) Textonの位置による特徴量の変化
注目クラスは残りのクラスに対して弱識別器を構築 Joint Boosting(1/2) マルチクラス識別器の構築 注目クラスは残りのクラスに対して弱識別器を構築
Joint Boosting(2/2) マルチクラス識別器の構築 評価値の算出 重みの更新
Color potentials Gaussian Mixture Model CIELab パラメータの算出
Edge potentials Pottsモデル 近傍ピクセルが異なるラベルであるか調べる
Location potentials 絶対位置における確率(LUTで保持) 例:skyなら画像の上の方に反応がある
Sub-sampling メモリの軽減 設定したグリッド上を計算 3×3, 5×5
Random feature selection 特徴量をランダムで選択 精度の保持と学習の高速化
セグメンテーション 最大化するラベルcの決定 Alpha-expansion graph-cut algorithm
実験:Boosting accuracy (a) 弱識別器の数とエラー (b)弱識別器の数と精度 276枚の学習用画像 学習回数5000回 特徴量選択無:14,000時間 特徴量選択有:42時間
実験:Object class recognition and segmentation
実験:セグメンテーションと認識精度&速度比較 Unary classifier only において有効 Texton Boostは効果的
セグメンテーション失敗例
クラス毎の精度 全体の精度は72.2%
異なるデータベースによる出力例 異なるデータベースにおいても認識可能
各モデルの出力例 CRFモデルにおいて各モデル毎の結果 (a) 入力画像 (b) 識別器のみ(Shape-texture) (c) Colorモデルなし (d) 全てのモデルを使用
おわりに Texton Boost 意味のあるcontext情報の追加 物体の構造 appearance, shape, context情報を同時に捉える特徴量 Boostingとピクセルごとの効果的な学習法 特徴量の共有とIntegral imageの組み合わせによるラベリング 意味のあるcontext情報の追加 物体の構造 object ‘parts’