CV-Reading Describing Objects by their Attributes 山内悠嗣.

CV-Reading Describing Objects by their Attributes 山内悠嗣

はじめに ٥Describing Objects by their Attributes ٥Ali Farhadi ٥Ian Endres ٥Derek Hoiem ٥Photo Pop-up, Objects in Perspective ٥David Forsyth ٥Image annotation, Understanding Human Activity ٥ コンピュータビジョンの筆者

この物体は何か

わからない ٥4 本の脚がある ٥ 毛に覆われている ٥2 本の角がある

わからない ٥4 本の脚がある ٥ 毛に覆われている ٥2 本の角がある属性 (attribute) カテゴリの認識よりも，属性の識別をメインとした手法

応用先

提案手法

意味のある属性 ٥3 種類の属性に分類 ٥ パーツ ٥ 目，角，車輪，窓， … ٥ 形状 ٥ 四角形，三角形，円形，水平，垂直， … ٥ 物質 ٥ 金属，木材，布， …

属性の例形状 : 垂直の円筒形状パーツ : 翼, プロペラ, 窓, 車輪材質 : 金属，ガラス形状 : パーツ : 窓，車輪，ドア，ヘッドライト材質 : 金属，光沢がある

基本特徴量 ٥Bag of Words のアプローチが基本 ٥ ベクトル量子化後にベクトル量子化ヒストグラムを作成 ٥ パーツ： Visual Word ٥ 多重解像度画像から HOG 特徴量を抽出 ٥K-means により 1,000 クラスタにベクトル量子化 ٥ 形状：エッジ ٥ 各ピクセルに対して勾配強度と方向を算出し， 8 方向にベクトル量子化 ٥ 材質：テクスチャ，カラー ٥Texton 特徴量 ٥LAB 色空間に変換し， k-means により 128 クラスタにベクトル量子化入力画像を 2×3 に分割し，各領域ごとにベクトル量子化ヒストグラムを作成

データセット ٥ 用意するデータ ٥ 画像 ٥ 対象物体を囲う矩形 ٥ 属性 ٥ 作成したデータセット ٥a-Pascal ： PASCAL2008 から主要な 20 カテゴリを使用 ٥people, bird, cat, cow, dog, horse, sheep aeroplane, bicycle, boat, bus, car, motorbike,train, bottle, chair, dining table, potted plant, sofa, and tv/monitor. ٥a-Yahoo ： Yahoo 画像検索より 12 カテゴリを収集 ٥wolf, zebra, goat, donkey, monkey, statue of people, centaur, bag, building, jet ski, carriage, and mug..

属性の付加 ٥Amazon Mechanical Turk ٥ 依頼主がコンピュータ処理できない仕事，人間が向いている仕事を小額の報酬と共に Web 上に依頼し，人間が仕事を行うシステム

属性の学習 ٥ 最もシンプルな学習方法 ٥ 属性 1 個に対して，全ての基本特徴量を用いて学習 “ 車輪 ” がある “ 車輪 ” がない

問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは， “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが， “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも， “ 金属 ” を捉える特徴量の方が良い場合に発生 )

問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは， “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが， “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも， “ 金属 ” を捉える特徴量の方が良い場合に発生 ) “ 金属 ” がない “ 車輪 ” がない

問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは， “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが， “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも， “ 金属 ” を捉える特徴量の方が良い場合に発生 ) “ 金属 ” がない “ 車輪 ” がない属性の誤識別 = カテゴリ分類が困難

誤識別する属性を用いたカテゴリ認識例 ٥ 車，バイク，バス，電車のカテゴリ分類 ٥“ 車輪 ” があり， “ 金属 ” に覆われている ٥ 車，バイク，バス ٥“ 車輪 ” がなく， “ 金属 ” に覆われている ٥ 電車 “ 車輪 ” という属性は，車，バイク，バスと電車を区別不可能 “ 車輪 ” という属性は，車，バイク，バスと電車を区別不可能 ٥ 入力は画像と物体を囲う矩形 ٥ セグメンテーションされていない

相関関係の影響を受けない学習 ٥1 クラスに着目した学習 ٥1 つのクラスにおける “ 車輪 ” のあるサンプルと “ 車輪 ” のないサンプルを使用 ٥L1-norm を用いたロジスティック回帰による識別 1) を利用した特徴選択 “ 車輪 ” あり “ 車輪 ” なし vs. 車両における “ 車輪 ” 識別器の特徴量ボートにおける “ 車輪 ” 識別器の特徴量飛行機における “ 車輪 ” 識別器の特徴量全てのカテゴリにおける “ 車輪 ” 識別器の特徴量 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004

相関関係の影響を受けない学習 ٥1 クラスに着目した学習 ٥1 つのクラスにおける “ 車輪 ” のあるサンプルと “ 車輪 ” のないサンプルを使用 ٥L1-norm を用いたロジスティック回帰による識別 1) を利用した特徴選択 “ 車輪 ” あり “ 車輪 ” なし vs. 車両における “ 車輪 ” 識別器の特徴量ボートにおける “ 車輪 ” 識別器の特徴量飛行機における “ 車輪 ” 識別器の特徴量全てのカテゴリにおける “ 車輪 ” 識別器の特徴量 SVM 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004

2 手法における相関関係の比較 ٥“ 車輪 ” と “ 金属 ” の相関 ٥a-Pascal ， a-Yahoo の正解ラベルを使用 ٥a-Pascal ： 0.71 ٥a-Yahoo ： 0.17 ٥ 全特徴量を使用する手法と特徴選択する提案手法の比較 ٥ 学習は a-Pascal ，評価は a-Yahoo ٥ 識別結果の属性を用いた相関値を比較 ٥ 全特徴量： 0.56 ٥ 特徴選択： 0.28

評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識

属性の識別結果

3 種類に分類した属性の識別結果パーツ材質形状 a-Pascal0.7940.739 a-Yahoo0.7260.6450.677

属性識別結果の例 1

属性識別結果の例 2

珍しい属性識別パターンの識別結果 ٥ カテゴリと属性は強い相関 ٥ あるはずの属性が無い場合 ٥ ないはずの属性がある場合珍しい属性として識別し，出力することが可能

存在するはずの属性がないとして出力

存在しないはずの属性がないとして出力

属性識別結果の応用 ٥ 鳥と “ 葉 ” の関係 ٥ 鳥そのものには “ 葉 ” という属性は付加されない鳥が “ 葉 ” の近くにいる属性のローカライズが可能

属性のローカライズ

珍しい属性のローカライズ

カテゴリ認識の流れ属性

カテゴリ認識 ٥ 識別した属性を特徴量として学習に利用 ٥SVM もしくはロジスティック回帰により学習 (1 対多 ) ٥ 識別結果 ٥ ほぼ同等 ( ただし，属性を使用する手法は物体を囲う矩形も入力 ) ٥ 結果の傾向 ٥ 提案手法が得意：バイクと人 ٥ 提案手法が苦手：ソファと椅子 PASCAL 2008 基本特徴量意味ある属性全属性クラス毎の識別精度の平均 58.5%54.6%59.4% サンプル毎の識別精度の平均 35.5%28.4%37.7%

少数サンプルと属性 ٥ サンプルが少ない学習 ٥ 判別モデル (SVM) → 生成モデル ( ニアレストネイバー (NN))

おわりに ٥ 物体の属性を識別とその応用法を提案 ٥ 属性を識別する手法自体はシンプル ٥ 特徴量 → 認識の中間表現として属性を利用 ٥ 他にも多数の応用先がある

認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶：経験したエピソードに関する記憶 ٥ 意味記憶：文脈が特定できない記憶，知識 ٥ 意味を記憶する辞書：心内辞書 ٥ 意味の検索：意味記憶階層ネットワークモデル [1969 Collins A.]

意味記憶の階層ネットワークモデル ٥ カテゴリと意味の検索にされている可能性がある ٥ 属性からカテゴリの検索もしくはカテゴリから属性の検索 ٥ 離れるほど検索に時間が必要であることが実験により証明

認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶：経験したエピソードに関する記憶 ٥ 意味記憶：文脈が特定できない記憶，知識 ٥ 意味を記憶する辞書：心内辞書 ٥ 意味の検索：意味記憶階層ネットワークモデル視覚情報カテゴリ意味 ( 属性 ) 視覚情報カテゴリ単純な特徴量複合的な特徴量視覚情報カテゴリ複合的な特徴量単純な特徴量単純な特徴量

意味記憶階層ネットワークモデルに基づくカテゴリ認識 ٥ カテゴリと意味 ( 属性 ) の階層ネットワークの構築 ٥ 自動構築： ٥ 追加サンプルによる再構築：人間と同じように対話型 ٥ 進化 ( 最適化 ) ： GA ٥ 意味記憶階層ネットワークモデルを用いたカテゴリ認識 ( 検索 ) ٥ 意味という中間表現方法に適した認識 ( 検索 ) 方法 ٥ 大量カテゴリの認識 ٥ 従来の方法では表現不可能 ( メモリの使用量の点において )

CV-Reading Describing Objects by their Attributes 山内悠嗣.

Similar presentations

Presentation on theme: "CV-Reading Describing Objects by their Attributes 山内悠嗣."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

CV-Reading Describing Objects by their Attributes 山内悠嗣.

Similar presentations

Presentation on theme: "CV-Reading Describing Objects by their Attributes 山内悠嗣."— Presentation transcript:

Similar presentations

About project

フィードバック