階層的領域分割法に基づく 木構造条件付確率場による一般物体認識

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
顔表情クラスタリングによる 映像コンテンツへのタギング
BRIEF: Binary Robust Independent Elementary Features
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts
Building text features for object image classification
人工知能特論 8.教師あり学習と教師なし学習
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
Pose Tracking from Natural Features on Mobile Phones
時空間データからのオブジェクトベース知識発見
ORB: an efficient alternative to SIFT or SURF
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
SURF: Speeded Up Robust Features
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
サポートベクターマシン によるパターン認識
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
複数の言語情報を用いたCRFによる音声認識誤りの検出
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
大域的特徴としてBoFを導入した CRFによる一般物体認識
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
視点移動カメラにおけるカメラキャリブレーション
画像処理工学 2013年1月23日 担当教員 北川 輝彦.
第14章 モデルの結合 修士2年 山川佳洋.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
Computer Graphics 第10回 レンダリング(4) マッピング
東京農業大学 東京情報大学 附属第一高等学校・中等部 附属第二高等学校 附属第三高等学校・中等部
複数特徴量の重み付け統合による一般物体認識
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
名古屋市立大学大学院システム自然科学研究科 MIRU2009: 第12回 画像の認識・理解シンポジウム
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
距離空間ピラミッドを用いた LLCによる3次元物体認識
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
パターン認識特論 ADA Boosting.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
領域ベースの隠れ変数を用いた決定論的画像領域分割
パターン認識特論 ADA Boosting.
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

階層的領域分割法に基づく 木構造条件付確率場による一般物体認識 神戸大学大学院工学研究科 奥村 健志 okumura@me.cs.scitec.kobe-u.ac.jp 神戸大学自然科学系先端融合研究環 滝口 哲也, 有木 康雄 {takigu, ariki}@kobe-u.ac.jp

研究背景と動機 (1/4) 社会的状況とその問題点 HDDの大容量化 携帯電話やデジタルカメラの普及 ロボット産業の発展 仮想現実感,拡張現実感の進歩 大量のタグなし動画像が存在  → 人手による分類・検索が困難 計算機による画像の「理解」  → ヒトの視覚能力との大きな隔たり (一般)物体認識の研究が求められている wall computer 認識率の向上を目的とする. 認識 book human desk chair

研究背景と動機 (2/4) 従来アプローチ 条件付確率場(CRF: Conditional Random Field)を用いた推定手法 領域分割 特徴量抽出・グラフ化 ラベル推定 画像内の物体クラスには共起の関係があるという仮定のもと,CRFを用いたクラス推定手法はよく使われている. ※CRFの一般的な説明もここで入れる. cow grass tree

研究背景と動機 (3/4) 問題点 分割誤りを最小限に抑えるため,過分割を行う必要がある 領域分割 各領域から抽出される特徴量の識別性能の低下 物体のスケール変化への頑健性の低下 領域分割 一つのsuper-pixelが頭一つ⇔一つのsuper-pixleが頭の一部といった違いが出る.

研究背景と動機 (4/4) 問題解決へのアプローチ 階層的領域分割法に基づく木構造条件付確率場を提案 coarse fine 階層的領域分割法により複数スケールの特徴量を抽出 木構造条件付確率場によりクラス共起を考慮した上で    各層のクラス推定結果を統合 fine coarse

提案手法 (1/2) 入力画像 階層的領域分割 coarse 特徴量抽出(色、テクスチャなど) クラスごとの信頼度算出 Gentle Adaboost Segmentation by Weighted Aggregation (SWA) fine coarse

(TCRF: Tree Conditional Random Field) 提案手法 (2/2) : ノード(各領域) : エッジ(上層と下層を結ぶ) : クラスの信頼度 : クラス共起情報(平滑化項) 上層と下層は包含関係 木構造条件付確率場 (TCRF: Tree Conditional Random Field)

提案手法 (2/2) : メッセージ 確率伝播法 (BP: Belief Propagation) 認識結果 : rhino/hippo : water : snow : vegetation 木構造条件付確率場 (TCRF: Tree Conditional Random Field)

階層的領域分割法 Segmentation by Weighted Aggregation (SWA) [Sharon, 2000] クラスタ内の類似度は大きく,クラスタ間の類似度は小さくする クラスタのサイズは均一にする エネルギー関数: High energy cut Low-energy cut クラスタのサイズ: 画像の領域分割というものは画素をサンプルとしたクラスタ分割とみなせる 評価関数の話 segment 評価関数: →  最小化 (固有値問題) [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000

木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 : エネルギー関数 (モデル式) : ポテンシャル関数 (クラス分布) : ポテンシャル関数 (クラス共起) エネルギーを(確率を)最大化による最適なラベルを推定するエネルギー関数がモデルとなっている. : クラス変数 (目的変数) : 観測変数 (クラス信頼度) : モデルパラメータ (学習が必要)

木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 例えば… snow rhino cat water sky 信頼度の分布

木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 例えば… rhino water cat rhino cat 上もカバであれば下もカバであるとか、隣がカバであるならここは水である確率が高いなどクラスの共起関係というものが存在するはず water の働き 平滑化(対角要素) クラス共起(非対角要素)

評価実験 (1/3) 実験データ 評価方法 Corel dataset (7クラス,100枚,画像サイズ: 180×120) CV法 画素毎に正誤を判定 : rhino/hippo : polar bear : water : snow 88.0% : vegetation : ground : sky 93.6% 入力画像 正解ラベル 認識結果

評価実験 (2/3) 比較手法 ハイパーパラメータ 実験結果(認識率) Logistic Regression (LR) : 領域間の関係を考慮しないモデル Conditional Random Field (CRF) : 階層化をしない従来のCRF ハイパーパラメータ 実験結果(認識率) 階層数 最下層の領域数 BoFの単語数 6 150 500 rhino bear water snow vegetation ground sky Average LR 73.5% 65.1% 70.3% 68.2% 75.3% 71.0% 56.6% 68.6% CRF 71.8% 82.6% 70.6% 78.9% 74.7% 41.7% 70.2% TCRF 75.7% 72.7% 73.8% 79.4% 76.5% 49.6% 72.4% 2.2%

評価実験 (3/3) 入力画像 正解ラベル LR CRF TCRF (提案手法) : rhino/hippo : polar bear ※ここで提案手法の改善効果(クラスの境界をより詳しく認識できる)を述べる. 入力画像 正解ラベル LR CRF TCRF (提案手法) : rhino/hippo : polar bear : water : snow : vegetation : ground : sky

まとめと今後の方針 まとめ 今後の方針 階層的領域分割法に基づく木構造条件付確率場による 一般物体認識手法を提案   一般物体認識手法を提案 異なるスケールの特徴に基づくクラス信頼度を統合することにより   クラス間の境界付近に生じる誤認識を特に改善 (認識率 2.2%↑) クラス “sky” をクラス “water” と多く誤認識していることなどから   特徴量・コンテキストレベルで改善を図る必要がある 今後の方針 2次元・3次元の幾何的な特徴・コンテキストの利用を検討 幾何的なコンテキストの例 : クラスの位置関係,奥行き情報 etc. 単一画像からの3次元形状復元手法をサーベイ ※ここに考察の内容も入れる.

ご清聴ありがとうございました あと3分ほどお時間をいただいて 今後の研究について発表します

単眼画像からの擬似3次元化 研究背景と目的 現在、3次元動画像をみるには専用の装置が必要 動画の3次元化手法はstructure form motionなど確立しているが、画像の3次元化に有効な手法は確立していない → 専用装置を必要とせず、1枚の画像から3次元化が可能な手法が求められる Automatic Photo Popupと呼ばれる既存手法をベースに より高精度な3次元化手法を検討

人検出の機能の追加 従来のラベリング:3クラス(水平物、垂直物、空) 問題点 HOG特徴を用いたSVMによる人検出を実装 画像内の個々の物体(人、車、木など)の認識が困難 HOG特徴を用いたSVMによる人検出を実装 人領域を矩形でしか切り出せず粗い結果になる → 個別に物体検出を行って従来のラベリング結果と統合 → 検出結果をシードとしたグラフカットによる自動切り出し   を行う(予定)

今後の方針 別の擬似3次元化のアプローチとの統合 大まかな構図を捉える手法に、より詳細な奥行き情報を加えることで、細かい誤りを訂正する狙い ステレオカメラで撮った奥行き画像を教師画像とした推定 1枚の画像に対して擬似的に視差をつける手法 大まかな構図を捉える手法に、より詳細な奥行き情報を加えることで、細かい誤りを訂正する狙い

関連研究 他の階層的手法との比較 提案手法のみ複数スケールの特徴量を考慮可能 階層数 特徴量のスケール [He, 2004] 3 (画素,パッチ,全体) 1 (画素) [Kumar, 2005] 2 (画素,パッチ) [Awasthi, 2007] 任意 (グリッド分割) (画素) 提案手法 階層数に一致 [He, 2004] Xuming He, Richard S. Zemel, and Miguel A. Carreira-Perpinan. Multiscale conditional random fields for image labeling. In CVPR, pp. 695-702, 2004 [Kumar, 2005] Sanjiv Kumar and Martial Hebert. A hierarchical field framework for unified context-based calassification. In ICCV, pp. 1284-1291, 2005 [Awasthi, 2007] Pranjal Awasthi, Aakanksha Gagrani, and Balaraman Ravindran. Image modeling using tree structured conditional random fields. In IJCAI, pp. 2060-2065, 2007

階層的領域分割法 Segmentation by Weighted Aggregation (SWA) [Sharon, 2000] Recursive Coarsening Weighted Aggregation 階層的にする話 これらのプロセスを繰り返し 行うことで領域が階層化される aggregate k aggregate l [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000

Bag of Features [Csurka, 2004] 特徴量 Bag of Features [Csurka, 2004] 色特徴 RGB, HSV, YCrCb, Lab テクスチャ特徴 Gabor Filter, LoG Filter 形状特徴 領域の面積,周囲長 位置特徴 領域の重心座標 fine coarse Gentle Ababoost  ・ブースティング学習の一種  ・(層数)×(クラス数)個の識別器を学習データ   から個々に学習し,クラスごとの信頼度を算出

木構造条件付確率場 クラス推定 エネルギー関数 P を最大化する最適ラベル y* を求める 確率伝播法(Belief Propagation)により周辺分布を推定する 隣接ノードからのメッセージの積で周辺分布を計算する 閉路が存在しない木構造であるため厳密推定が可能 (b) 全体図 : rhino/hippo : water : snow : vegetation 最適ラベルを直接求めるのは困難(ノード数に対して指数的)であるので周辺化する.効率よく計算するためメッセージというものを用いる(それが確率伝播法). いちいち個々に周辺分布を計算するのではなく,メッセージを伝播させることにより,隣接ノードからのメッセージの積で周辺化を可能にする. (a) 周辺分布の計算

Segmentation by Weighted Aggregation 疎補間行列 P の決定 TODO

Segmentation by Weighted Aggregation 状態変数 u の導出 固有値問題に帰着 ただし,

Bag of Features Bag of Featuresの利点 局所パターンの集合であるため,オクルージョンに強い 学習用画像 k-meansによる ベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間 Codebook (Visual Wordの辞書) 出現頻度 Visual Word Bag of Featuresによる 画像の表現 (W次元の正規化されたヒストグラム) ※Wはハイパーパラメータということに言及しておく. ※画像全体を特徴付ける.つまり,画像内にこれとあれの物体が含まれているというような情報を付与. ※正規化していることに言及. クラスタの重心がVisual Word (代表的な局所パターン) 入力画像 Bag of Featuresの利点 局所パターンの集合であるため,オクルージョンに強い 抽象化されたVisual Wordにより,見え方の変化にも強い

木構造条件付確率場 モデルパラメータ学習 正解ラベル付き学習データによりパラメータを学習 学習の基準は最大事後確率(MAP: Maximum a Posteriori)推定 勾配法の一つである L-BFGS 法により解析的に導出 勾配(つまり偏微分)が,(真値)-(モデルの期待値)となり,これが小さくなる方向(つまり真値に近づく)に行くようにする.

木構造条件付確率場 確率伝播法(BP: Belief Propagation) TODO