チュートリアル講演 特定物体認識 大阪府立大学大学院 黄瀬浩一.

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
BRIEF: Binary Robust Independent Elementary Features
Building text features for object image classification
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
「わかりやすいパターン認識」 第1章:パターン認識とは
リアルタイム単語認識技術を利用した カメラベース情報取得システム
Pose Tracking from Natural Features on Mobile Phones
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
画像処理論.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
イラストの著作権保護のためのHOG特徴量を用いた複製検出
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
ファイルシステムキャッシュを 考慮した仮想マシン監視機構
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
DARTs: Efficient scale-space extraction of DAISY keypoints
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
テキストの類似度計算
ランダムプロジェクションを用いた 音声特徴量変換
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
金沢大学 工学部 情報システム工学科3年 岩淵 勇樹
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
IPv6アドレスによる RFIDシステム利用方式
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
IIR輪講復習 #1 Boolean retrieval
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
IIR輪講復習 #17 Hierarchical clustering
IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)
雑音環境下における 非負値行列因子分解を用いた声質変換
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
第12回   ディジタル画像(3) ディジタル画像処理(3)
Javaを対象としたソフトウェア部品 検索システムSPARS-Jの実験的評価
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
数独の解生成と 解に対する番号付け 理学部 情報科学科 渡辺研究室 戸神星也.
複数特徴量の重み付け統合による一般物体認識
SURF+BoFによる特定物体認識 卒業研究1 1 11/27/11.
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
距離空間ピラミッドを用いた LLCによる3次元物体認識
アルゴリズムとデータ構造1 2009年6月15日
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
ネット時代のセキュリティ3(暗号化) 2SK 情報機器工学.
テキストデータベース.
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
アルゴリズムとデータ構造 2010年6月17日
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
市松模様を使用した カメラキャリブレーション
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

チュートリアル講演 特定物体認識 大阪府立大学大学院 黄瀬浩一

目次 背景 DEMO 処理の流れ まとめ

物体認識 competitors: RFIDs, Barcodes 一般物体認識 特定物体認識 認識 応用 class (category) instance a car the car (specific model X) intelligent robot image tagging object IDs competitors: RFIDs, Barcodes

適用例:カタログショッピング このハサミが欲しい!

バーコードの利用

認識による実現 Webに アクセス 認識 (インスタンス) 特定物体認識

画像検索 姫路城 クエリ 検索システム 同じ特定物体を含む 画像の検索

実世界指向Web 感想・コメント の交換 クチコミ情報 の登録・検索 商品情報 趣味情報 の取得 仮想現実感 文書 レストラン 画像検索 カタログ こんにちは 商品情報 の取得 趣味情報 仮想現実感

DEMO

DEMO DEMO: 5000物体 100万物体 実際には Bag-Of-Features(BOF)表現 記憶:5ペタ(1015)バイト 26億次元,100万ベクトル 記憶:5ペタ(1015)バイト 照合:250日 実際には 記憶:33GB(15万分の1) 照合:60ms/query(4億分の1)

特定物体認識の問題点と解決策 問題点 大規模化 解決策 先人に学ぶ 下手な鉄砲も数打ちゃ当たる 乾いた雑巾を絞る 当たらずといえども遠からず

処理の流れ 出力 照合 検証 特徴抽出 画像表現 visual word 索引 付け visual words 画像DB クエリ 画像 DB の抽出 DB 画像 索引 付け visual words 画像DB

処理の流れ 出力 照合 検証 特徴抽出 画像表現 visual word 索引 付け visual words 画像DB クエリ 画像 DB の抽出 DB 画像 索引 付け visual words 画像DB

特徴抽出 局所特徴量 SIFT(128次元), PCA-SIFT(36次元), etc.

局所特徴量の性質と問題点 性質 問題点 局所 高い安定性 高い識別性 数が多い:数百から数万/画像 記憶・照合が大変! 局所特徴量をもとにした新しい画像表現

処理の流れ 出力 照合 検証 特徴抽出 画像表現 visual word 索引 付け visual words 画像DB クエリ 画像 DB の抽出 DB 画像 索引 付け visual words 画像DB

画像表現 文書検索の表現方法 BOW (Bag-Of-Words) 先人に学ぶ

Bag-Of-Words (BOW) むかしむかしあるところにおじいさんとおばあさんがいました。おじいさんは山へ柴刈りに、おばあさんは川へ洗濯に行きました。 … むかし おじいさん おばあさん 山 川 柴刈り 洗濯 2 1 ( ) … 山 柴刈り おばあさん 洗濯 いる 行く むかし ベクトル化 重み (頻度など)

画像表現 文書検索の表現方法 単語はどうやって定めるか? BOW (Bag-Of-Words) 局所特徴量には似たものがあるはず それらを一つの「単語」(visual word)として抽出 局所特徴量のベクトル量子化 Bag-Of-Features (BOF) 表現[Sivic2003] Bag-Of-Visual-Words, Bag-Of-Keypointsなどとも呼ばれる

Bag of Features (BOF) 局所特徴量 (特徴ベクトル) Fei-Fei Li (http://vision.cs.princeton.edu/teaching.html)を改変

Bag of Features クラスタリング visual word

Bag of Features visual wordを次元 とする特徴ベクトル 共通の「語彙」で 様々な画像を表現 頻度に基づく 重みを記録

個々の画像の表現

画像表現の作成 局所特徴量

画像表現の作成 局所特徴量 visual word 最近傍探索 実数値ベクトル 整数値 (visual word ID)

画像表現 先輩に見習う 単語はどうやって定めるか? いくつの単語が必要か? 文書検索の表現方法 局所特徴量には似たものがあるはず BOW (Bag-Of-Words) 単語はどうやって定めるか? 局所特徴量には似たものがあるはず それらを一つの「単語」(visual word)として抽出 局所特徴量のベクトル量子化 Bag-Of-Features 表現 [Sivic2003] いくつの単語が必要か?

現状の比較 107 1010 106 108 105 105 103 102 102 識別対象 の数 visual word の数 特定 物体認識 105 105 一般 物体認識 103 102 102 特殊 一般性 一般

特定物体認識の場合 認識率 メモリ量・計算量 Visual wordの数は多ければ多いほどよい 究極は全部別物として保存 元の木阿弥 [Nistér06]では局所特徴量2~3個に対して1個 究極は全部別物として保存 我々の場合 メモリ量・計算量 元の木阿弥 記憶に膨大なメモリ量 visual wordとの照合に膨大な計算量 別の方法が必要 量子化に工夫

スカラ量子化 次元ごとに量子化 メモリ量は圧縮可能 照合の計算量は依然として大きい k level / 次元, D 次元 → kD個のvisual wordを表現 k=4, D=36でも1021 100万画像,26億個の局所特徴量の例 k=4 (2bit/次元)でも,認識率に差なし メモリ量は圧縮可能 照合の計算量は依然として大きい

中間的な量子化 Hamming Embedding [Jegou2008] ベクトル量子化が基本 スカラ量子化で表現力を補う

Hamming Embedding visual word visual wordの数は少 なく抑える 不足する識別性を スカラ量子化 (binary signature) により確保 00 01 10 11

中間的な量子化 Hamming Embedding [Jegou2008] Product 量子化 [Jegou2009a] ベクトル量子化が基本 スカラ量子化で表現力を補う Product 量子化 [Jegou2009a] スカラ量子化が基本 部分的にベクトル量子化を導入

Product 量子化 D/D’個 D’次元の部分ベクトル 各々k*レベルに ベクトル量子化 D’ D’ D/D’次元のベクトル; (k*)D/D’個のvisual word

Soft Assignment visual word クエリの 局所特徴量 最近傍ではなく, k近傍で表現

一件落着? 具体例で考える 問題あり 局所特徴量:36次元,1,000/画像,100万画像 1千visual word メモリ: visual word 72KB, BOF表現 2GB 照合: visual word 0.26s, BOF表現: 7s 100万 visual word メモリ: visual word 72MB, BOF表現 2TB 照合: visual word 260s, BOF表現: 7,000s = 2時間 10億 visual word メモリ: visual word 72GB, BOF表現2PB 照合: visual word 260,000s=3日, BOF表現: 7,000,000s = 81日 問題あり BOF表現の記録:膨大なメモリ量 BOF表現の照合:膨大な計算時間

一件落着? [ms] メモリ 処理時間 BOF表現の記憶と照合が問題 局所特徴量:36次元,1,000/画像 DB:100万画像 BOF 1PB VW 1TB VW 1GB 1MB 1KB visual word数 visual word数 BOF表現の記憶と照合が問題

処理の流れ 出力 照合 検証 特徴抽出 画像表現 visual word 索引 付け visual words 画像DB クエリ 画像 DB の抽出 DB 画像 索引 付け visual words 画像DB

索引付け 先人に学ぶ 解決策 BOF表現のベクトルは極めてスパース 転置インデックス 非ゼロ要素のみ記録→メモリ量解決 照合を容易にするため転置→計算量解決 先人に学ぶ

転置インデックス 非ゼロ要素 のみ記録 BOF表現 w1 w2 w1 w2 ( ( v4:2 v6:1 v1:1 v1:2 v2:3 DB image BOF表現 非ゼロ要素 のみ記録 w1 w2 w1 w2 ( ( v4:2 v6:1 v1:1 v1:2 v2:3 v4:1 v5:1 visual word v1 v2 v3 v4 v5 v6 1 2 2 3 1 ) )

転置インデックス 転置 w1:1 w2:2 v1 v2 v3 v4 v5 v6 w2:3 w2:1 w1:2 w1 w2 w1 v4:2 DB image 転置 w1:1 w2:2 v1 v2 v3 v4 v5 v6 w2:3 w2:1 w1:2 inverted index w1 w2 w1 v4:2 v6:1 v1:1 w2 v1:2 v2:3 v4:1 v5:1 画像IDをキー ( ( v1 v2 v3 v4 v5 v6 1 2 2 3 1 visual word ID をキー ) )

BOF表現の照合 内積が基本 wq・wi クエリ画像の BOF表現 DB画像の BOF表現

内積計算 wq・w1 =2 wq・w2 =3+1 内積 wq w1 w2 ( ( ( 1 v1 v2 v3 v4 v5 v6 1 2 2 3 query image DB image inverted index 内積 wq w1 w2 ( ( ( 1 v1 v2 v3 v4 v5 v6 1 2 2 3 1 v1 v2 v3 v4 v5 v6 w1:1 w2:2 wq・w1 =2 w2:3 w2:3 wq・w2 =3+1 w1:2 w1:2 w2:1 w2:1 w2:1 w1:1 ) ) )

残る問題と解決策 BOF表現の照合,メモリ量の問題は解決 クエリの局所特徴量とvisual wordの照合が残る 高速化できない(denseだから) 正確な最近傍を諦め,近似する 近似最近傍探索 ANN

処理の流れ 出力 照合 検証 特徴抽出 画像表現 visual word 索引 付け visual words 画像DB クエリ 画像 DB の抽出 DB 画像 索引 付け visual words 画像DB

Vocabulary Tree :クエリの特徴ベクトル Hierarchical K-Means (HKM) visual wordを抽出するときのクラスタリング 階層的→木が得られる この木(vocabulary tree)を使って照合   :クエリの特徴ベクトル

残る問題と解決策 BOF表現の照合,メモリ量の問題は解決 局所特徴量とvisual wordの照合が残る 正確な最近傍を諦め,近似する 高速化できない(denseだから) 実はvisual wordを求めるときもこの問題が生じる 正確な最近傍を諦め,近似する Vocabulary Tree 近似最近傍探索 ANN

ANN(1): k-d 木 セル visual word 特徴空間

ANN(1): k-d 木   :クエリの局所特徴量

ANN(1): k-d 木  に対して最近傍探索を行う 次元が増えると有効性が低下 (15次元程度で無力に)

ANN(2): 近似  に対して    最近傍探索を行う 近似 探索結果 このセルは 探索されなくなった

ANN(2): 近似 近似 近似をすると 誤ることがある に対して 最近傍探索を行う 正しい探索結果 誤った探索結果  に対して    最近傍探索を行う 近似 内側の円が小さいほど近似を行う 正しい探索結果 近似をすると 誤ることがある 誤った探索結果

野口らの手法(手前味噌) ハッシュを用いた近似最近傍探索

visual wordの登録 (21,-45,-798,154,…,61) ( 1, 0, 0, 1,…, 1) 123 ハッシュ表 量子化 PCA-SIFTの特徴ベクトル 量子化 二値化 1 ( 1, 0, 0, 1,…, 1) ビットベクトル … ハッシュ関数 123 123 登録 … n ハッシュ表

visual wordの登録 ハッシュ表 複数の登録にはリストを使う 特徴ベクトル 画像ID 特徴ベクトル 画像ID … 122 123 124 複数の登録にはリストを使う 125 126 … ハッシュ表

visual wordの照合 クエリ DB画像 visual word 値が変動する (5,-17,-2,…,555) (-2,-7,-50,…,542) (1, 0, 0,…, 1) ( 0, 0, 0,…, 1) 異なる 45 86

変動への対処 閾値を超えて変動しそう (1,-45,-798,-3,…,61) (1, 0, 0, 1,…, 1) PCA-SIFTの特徴ベクトル 正負を用いて二値化 (1, 0, 0, 1,…, 1) (0, 0, 0, 1,…, 1)

距離計算 ハッシュ表 距離計算 最近傍 (0,…,0,…) (1,…,0,…) (0,…,1,…) (1,…,1,…) 特徴ベクトル 画像ID 特徴ベクトル 画像ID 特徴ベクトル 画像ID (0,…,0,…) … 特徴ベクトル 画像ID (1,…,0,…) … 特徴ベクトル 画像ID (0,…,1,…) … 特徴ベクトル 画像ID 特徴ベクトル 画像ID (1,…,1,…) … ハッシュ表 距離計算 最近傍

結局何をやっているか 下手な鉄砲も 数打ちゃ当たる 一致検索による類似検索の近似 様々な一致を試す 類似検索:最も似ているものを検索 低速 一致検索:同一のものを検索 高速に検索可能 様々な一致を試す 下手な鉄砲も 数打ちゃ当たる

その他の工夫 高速化 省メモリ 高精度化 多段階化[野口2009] Bloomier filter [Inoue2009] miniBOF [Jégou2009b] 2次記憶のための方法 [Froundorfer2007, Himei2009] 高精度化 生成型 [黄瀬2009] query expansion [Chum2007]

miniBOF 乾いた雑巾 を絞る BOF表現は大きすぎる 100万画像 容量をさらに圧縮する方法 640MB 640B/image

miniBOF 実数ベクトル:1 BOF miniBOF (○ ○ ○ ○ ○ ○) (○ ○ ○ ○) 局所特徴量抽出 + ベクトル量子化 + Hamming Embedding (○ ○ ○ ○) 射影 (○ ○ ○ ○) 実数ベクトル:多 (○ ○ ○ ○) 整数値:m + α 転置インデックス 1 q1( ) + h1( ) 2 q2( ) + h2( ) スコア 統合 3 q3( ) + h3( ) m qm( ) + hm( )

処理の流れ 出力 照合 検証 特徴抽出 画像表現 visual word 索引 付け visual words 画像DB クエリ 画像 DB の抽出 DB 画像 索引 付け visual words 画像DB

検証 低 高 次元 低 高 BOF表現 識別性 少 多 メモリ量 利用可能なメモリが少ない場合 低い識別性で何とかする方法が必要

検証 BOF表現の識別性 当たらずといえども 遠からず 高 低 ○ ○ × 別の情報 ○ ○ × × × × × ○ × ○ 上位N位 類似度 ○ ○ × 高 別の情報 ○ ○ × × × × × ○ × 低 ○ 上位N位

検証: Weak Geometry Consistency 一貫しているハズ 角度の差 スケールの比

まとめ 特定物体認識 問題点 解決策 物体の外観をIDに変換 規模との戦い 先人に学ぶ:文書検索の手法を導入 数打ちゃ当たる:近似最近傍探索 乾いた雑巾を絞る:miniBOF 当たらずといえども遠からず:WSG

今後の課題 さらなる大規模化 現状:メガオーダ(106) 将来:ギガからテラへ 対象の拡大 平面から立体 剛体から柔軟物体 など

チュートリアル講演 特定物体認識 大阪府立大学大学院 黄瀬浩一