CV-Reading Describing Objects by their Attributes 山内悠嗣.

Slides:



Advertisements
Similar presentations
知能情報工学 年4月26日 吉川雅博 第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別辞書 (プロトタイプ) 音声や画像 (アナログ信号) 識別 結果 識別が容易な 特徴を抽出 プロトタイプと比較.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
Building text features for object image classification
Learning Appearance in Virtual Scenarios for Pedestrian Detection
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
ロボットビジョン(ロボットの視覚能力)のための デジタル画像処理
「わかりやすいパターン認識」 第1章:パターン認識とは
Pose Tracking from Natural Features on Mobile Phones
Deep learningによる 読唇システム
画像処理論.
芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
Web画像を用いた マルチモーダル情報による物体認識
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
SURF: Speeded Up Robust Features
DARTs: Efficient scale-space extraction of DAISY keypoints
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第三回 演習課題 画像中からの物体抽出処理(色情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/08.
Semi-Supervised QA with Generative Domain-Adaptive Nets
果物識別 マハラノビス距離を求める.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
Dataset.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
大域的特徴としてBoFを導入した CRFによる一般物体認識
ビデオデータベース.
決定木とランダムフォレスト 和田 俊和.
音高による音色変化に着目した音源同定に関する研究
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
第12回   ディジタル画像(3) ディジタル画像処理(3)
Data Clustering: A Review
複数特徴量の重み付け統合による一般物体認識
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
Data Clustering: A Review
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
コーディングパターンの あいまい検索の提案と実装
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
距離空間ピラミッドを用いた LLCによる3次元物体認識
モデル作成にクラスタリングを用いた視線認識
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
セマンティックWebの 生産管理システムへの適用
時間連続性を考慮した 動画からの人物の姿勢推定
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
セマンティックWebの 生産管理システムへの適用
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
市松模様を使用した カメラキャリブレーション
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

CV-Reading Describing Objects by their Attributes 山内悠嗣

はじめに ٥Describing Objects by their Attributes ٥Ali Farhadi ٥Ian Endres ٥Derek Hoiem ٥Photo Pop-up, Objects in Perspective ٥David Forsyth ٥Image annotation, Understanding Human Activity ٥ コンピュータビジョンの筆者

この物体は何か

わからない ٥4 本の脚がある ٥ 毛に覆われている ٥2 本の角がある

わからない ٥4 本の脚がある ٥ 毛に覆われている ٥2 本の角がある 属性 (attribute) カテゴリの認識よりも,属性の識別をメインとした手法

応用先

提案手法

意味のある属性 ٥3 種類の属性に分類 ٥ パーツ ٥ 目,角,車輪,窓, … ٥ 形状 ٥ 四角形,三角形,円形,水平,垂直, … ٥ 物質 ٥ 金属,木材,布, …

属性の例 形状 : 垂直の円筒形状 パーツ : 翼, プロペラ, 窓, 車輪 材質 : 金属,ガラス 形状 : パーツ : 窓,車輪,ドア,ヘッドラ イト 材質 : 金属,光沢がある

基本特徴量 ٥Bag of Words のアプローチが基本 ٥ ベクトル量子化後にベクトル量子化ヒストグラムを作成 ٥ パーツ: Visual Word ٥ 多重解像度画像から HOG 特徴量を抽出 ٥K-means により 1,000 クラスタにベクトル量子化 ٥ 形状:エッジ ٥ 各ピクセルに対して勾配強度と方向を算出し, 8 方向にベクトル量子 化 ٥ 材質:テクスチャ,カラー ٥Texton 特徴量 ٥LAB 色空間に変換し, k-means により 128 クラスタにベクトル量子化 入力画像を 2×3 に分割し,各領域ごとにベクトル量子化ヒストグラムを作成

データセット ٥ 用意するデータ ٥ 画像 ٥ 対象物体を囲う矩形 ٥ 属性 ٥ 作成したデータセット ٥a-Pascal : PASCAL2008 から主要な 20 カテゴリを使用 ٥people, bird, cat, cow, dog, horse, sheep aeroplane, bicycle, boat, bus, car, motorbike,train, bottle, chair, dining table, potted plant, sofa, and tv/monitor. ٥a-Yahoo : Yahoo 画像検索より 12 カテゴリを収集 ٥wolf, zebra, goat, donkey, monkey, statue of people, centaur, bag, building, jet ski, carriage, and mug..

属性の付加 ٥Amazon Mechanical Turk ٥ 依頼主がコンピュータ処理できない仕事,人間が向いている仕事を 小額の報酬と共に Web 上に依頼し,人間が仕事を行うシステム

属性の学習 ٥ 最もシンプルな学習方法 ٥ 属性 1 個に対して,全ての基本特徴量を用いて学習 “ 車輪 ” がある “ 車輪 ” がない

問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 )

問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 )

問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 ) “ 金属 ” がない “ 車輪 ” がない

問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 ) “ 金属 ” がない “ 車輪 ” がない 属性の誤識別 = カテゴリ分類が困難

誤識別する属性を用いたカテゴリ認識 例 ٥ 車,バイク,バス,電車のカテゴリ分類 ٥“ 車輪 ” があり, “ 金属 ” に覆われている ٥ 車,バイク,バス ٥“ 車輪 ” がなく, “ 金属 ” に覆われている ٥ 電車 “ 車輪 ” という属性は,車,バイク,バスと電車を区別不可 能 “ 車輪 ” という属性は,車,バイク,バスと電車を区別不可 能 ٥ 入力は画像と物体を囲う矩形 ٥ セグメンテーションされていない

相関関係の影響を受けない学習 ٥1 クラスに着目した学習 ٥1 つのクラスにおける “ 車輪 ” のあるサンプルと “ 車輪 ” のないサンプルを 使用 ٥L1-norm を用いたロジスティック回帰による識別 1) を利用した特徴選択 “ 車輪 ” あり “ 車輪 ” なし vs. 車両における “ 車輪 ” 識別器の特徴量 ボートにおける “ 車輪 ” 識別器の特徴量 飛行機における “ 車輪 ” 識別器の特徴量 全てのカテゴリにおける “ 車輪 ” 識別器の特徴量 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004

相関関係の影響を受けない学習 ٥1 クラスに着目した学習 ٥1 つのクラスにおける “ 車輪 ” のあるサンプルと “ 車輪 ” のないサンプルを 使用 ٥L1-norm を用いたロジスティック回帰による識別 1) を利用した特徴選択 “ 車輪 ” あり “ 車輪 ” なし vs. 車両における “ 車輪 ” 識別器の特徴量 ボートにおける “ 車輪 ” 識別器の特徴量 飛行機における “ 車輪 ” 識別器の特徴量 全てのカテゴリにおける “ 車輪 ” 識別器の特徴量 SVM 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004

2 手法における相関関係の比較 ٥“ 車輪 ” と “ 金属 ” の相関 ٥a-Pascal , a-Yahoo の正解ラベルを使用 ٥a-Pascal : 0.71 ٥a-Yahoo : 0.17 ٥ 全特徴量を使用する手法と特徴選択する提案手法の比較 ٥ 学習は a-Pascal ,評価は a-Yahoo ٥ 識別結果の属性を用いた相関値を比較 ٥ 全特徴量: 0.56 ٥ 特徴選択: 0.28

評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識

属性の識別結果

3 種類に分類した属性の識別結果 パーツ材質形状 a-Pascal a-Yahoo

属性識別結果の例 1

属性識別結果の例 2

評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識

珍しい属性識別パターンの識別結果 ٥ カテゴリと属性は強い相関 ٥ あるはずの属性が無い場合 ٥ ないはずの属性がある場合 珍しい属性として識別し,出力することが可能

存在するはずの属性がないとして出 力

存在しないはずの属性がないとして出 力

属性識別結果の応用 ٥ 鳥と “ 葉 ” の関係 ٥ 鳥そのものには “ 葉 ” という属性は付加されない 鳥が “ 葉 ” の近くにいる 属性のローカライズが可能

属性のローカライズ

珍しい属性のローカライズ

評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識

カテゴリ認識の流れ 属性

カテゴリ認識 ٥ 識別した属性を特徴量として学習に利用 ٥SVM もしくはロジスティック回帰により学習 (1 対多 ) ٥ 識別結果 ٥ ほぼ同等 ( ただし,属性を使用する手法は物体を囲う矩形も入力 ) ٥ 結果の傾向 ٥ 提案手法が得意:バイクと人 ٥ 提案手法が苦手:ソファと椅子 PASCAL 2008 基本特徴量意味ある 属性 全属性 クラス毎の識別精度の平均 58.5%54.6%59.4% サンプル毎の識別精度の平均 35.5%28.4%37.7%

少数サンプルと属性 ٥ サンプルが少ない学習 ٥ 判別モデル (SVM) → 生成モデル ( ニアレストネイバー (NN))

おわりに ٥ 物体の属性を識別とその応用法を提案 ٥ 属性を識別する手法自体はシンプル ٥ 特徴量 → 認識の中間表現として属性を利用 ٥ 他にも多数の応用先がある

認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶:経験したエピソードに関する記憶 ٥ 意味記憶:文脈が特定できない記憶,知識 ٥ 意味を記憶する辞書:心内辞書 ٥ 意味の検索:意味記憶階層ネットワークモデル [1969 Collins A.]

意味記憶の階層ネットワークモデル ٥ カテゴリと意味の検索にされている可能性がある ٥ 属性からカテゴリの検索 もしくは カテゴリから属性の検索 ٥ 離れるほど検索に時間が必要であることが実験により証明

認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶:経験したエピソードに関する記憶 ٥ 意味記憶:文脈が特定できない記憶,知識 ٥ 意味を記憶する辞書:心内辞書 ٥ 意味の検索:意味記憶階層ネットワークモデル 視覚情報カテゴリ 意味 ( 属性 ) 視覚情報カテゴリ 単純な特徴量 複合的な特徴量 視覚情報カテゴリ複合的な特徴量単純な特徴量 単純な特徴量

意味記憶階層ネットワークモデルに基づくカテゴリ認 識 ٥ カテゴリと意味 ( 属性 ) の階層ネットワークの構築 ٥ 自動構築: ٥ 追加サンプルによる再構築:人間と同じように対話型 ٥ 進化 ( 最適化 ) : GA ٥ 意味記憶階層ネットワークモデルを用いたカテゴリ認識 ( 検 索 ) ٥ 意味という中間表現方法に適した認識 ( 検索 ) 方法 ٥ 大量カテゴリの認識 ٥ 従来の方法では表現不可能 ( メモリの使用量の点において )