CV-Reading Describing Objects by their Attributes 山内悠嗣
はじめに ٥Describing Objects by their Attributes ٥Ali Farhadi ٥Ian Endres ٥Derek Hoiem ٥Photo Pop-up, Objects in Perspective ٥David Forsyth ٥Image annotation, Understanding Human Activity ٥ コンピュータビジョンの筆者
この物体は何か
わからない ٥4 本の脚がある ٥ 毛に覆われている ٥2 本の角がある
わからない ٥4 本の脚がある ٥ 毛に覆われている ٥2 本の角がある 属性 (attribute) カテゴリの認識よりも,属性の識別をメインとした手法
応用先
提案手法
意味のある属性 ٥3 種類の属性に分類 ٥ パーツ ٥ 目,角,車輪,窓, … ٥ 形状 ٥ 四角形,三角形,円形,水平,垂直, … ٥ 物質 ٥ 金属,木材,布, …
属性の例 形状 : 垂直の円筒形状 パーツ : 翼, プロペラ, 窓, 車輪 材質 : 金属,ガラス 形状 : パーツ : 窓,車輪,ドア,ヘッドラ イト 材質 : 金属,光沢がある
基本特徴量 ٥Bag of Words のアプローチが基本 ٥ ベクトル量子化後にベクトル量子化ヒストグラムを作成 ٥ パーツ: Visual Word ٥ 多重解像度画像から HOG 特徴量を抽出 ٥K-means により 1,000 クラスタにベクトル量子化 ٥ 形状:エッジ ٥ 各ピクセルに対して勾配強度と方向を算出し, 8 方向にベクトル量子 化 ٥ 材質:テクスチャ,カラー ٥Texton 特徴量 ٥LAB 色空間に変換し, k-means により 128 クラスタにベクトル量子化 入力画像を 2×3 に分割し,各領域ごとにベクトル量子化ヒストグラムを作成
データセット ٥ 用意するデータ ٥ 画像 ٥ 対象物体を囲う矩形 ٥ 属性 ٥ 作成したデータセット ٥a-Pascal : PASCAL2008 から主要な 20 カテゴリを使用 ٥people, bird, cat, cow, dog, horse, sheep aeroplane, bicycle, boat, bus, car, motorbike,train, bottle, chair, dining table, potted plant, sofa, and tv/monitor. ٥a-Yahoo : Yahoo 画像検索より 12 カテゴリを収集 ٥wolf, zebra, goat, donkey, monkey, statue of people, centaur, bag, building, jet ski, carriage, and mug..
属性の付加 ٥Amazon Mechanical Turk ٥ 依頼主がコンピュータ処理できない仕事,人間が向いている仕事を 小額の報酬と共に Web 上に依頼し,人間が仕事を行うシステム
属性の学習 ٥ 最もシンプルな学習方法 ٥ 属性 1 個に対して,全ての基本特徴量を用いて学習 “ 車輪 ” がある “ 車輪 ” がない
問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 )
問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 )
問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 ) “ 金属 ” がない “ 車輪 ” がない
問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは, “ 車輪 ” の周りに “ 金属 ” が存在 “ 車輪 ” 識別器を学習したいが, “ 金属 ” 識別器になる可能性がある ( “ 車輪 ” を捉える特徴量よりも, “ 金属 ” を捉える特徴量の方が良い場合に発生 ) “ 金属 ” がない “ 車輪 ” がない 属性の誤識別 = カテゴリ分類が困難
誤識別する属性を用いたカテゴリ認識 例 ٥ 車,バイク,バス,電車のカテゴリ分類 ٥“ 車輪 ” があり, “ 金属 ” に覆われている ٥ 車,バイク,バス ٥“ 車輪 ” がなく, “ 金属 ” に覆われている ٥ 電車 “ 車輪 ” という属性は,車,バイク,バスと電車を区別不可 能 “ 車輪 ” という属性は,車,バイク,バスと電車を区別不可 能 ٥ 入力は画像と物体を囲う矩形 ٥ セグメンテーションされていない
相関関係の影響を受けない学習 ٥1 クラスに着目した学習 ٥1 つのクラスにおける “ 車輪 ” のあるサンプルと “ 車輪 ” のないサンプルを 使用 ٥L1-norm を用いたロジスティック回帰による識別 1) を利用した特徴選択 “ 車輪 ” あり “ 車輪 ” なし vs. 車両における “ 車輪 ” 識別器の特徴量 ボートにおける “ 車輪 ” 識別器の特徴量 飛行機における “ 車輪 ” 識別器の特徴量 全てのカテゴリにおける “ 車輪 ” 識別器の特徴量 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004
相関関係の影響を受けない学習 ٥1 クラスに着目した学習 ٥1 つのクラスにおける “ 車輪 ” のあるサンプルと “ 車輪 ” のないサンプルを 使用 ٥L1-norm を用いたロジスティック回帰による識別 1) を利用した特徴選択 “ 車輪 ” あり “ 車輪 ” なし vs. 車両における “ 車輪 ” 識別器の特徴量 ボートにおける “ 車輪 ” 識別器の特徴量 飛行機における “ 車輪 ” 識別器の特徴量 全てのカテゴリにおける “ 車輪 ” 識別器の特徴量 SVM 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004
2 手法における相関関係の比較 ٥“ 車輪 ” と “ 金属 ” の相関 ٥a-Pascal , a-Yahoo の正解ラベルを使用 ٥a-Pascal : 0.71 ٥a-Yahoo : 0.17 ٥ 全特徴量を使用する手法と特徴選択する提案手法の比較 ٥ 学習は a-Pascal ,評価は a-Yahoo ٥ 識別結果の属性を用いた相関値を比較 ٥ 全特徴量: 0.56 ٥ 特徴選択: 0.28
評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識
属性の識別結果
3 種類に分類した属性の識別結果 パーツ材質形状 a-Pascal a-Yahoo
属性識別結果の例 1
属性識別結果の例 2
評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識
珍しい属性識別パターンの識別結果 ٥ カテゴリと属性は強い相関 ٥ あるはずの属性が無い場合 ٥ ないはずの属性がある場合 珍しい属性として識別し,出力することが可能
存在するはずの属性がないとして出 力
存在しないはずの属性がないとして出 力
属性識別結果の応用 ٥ 鳥と “ 葉 ” の関係 ٥ 鳥そのものには “ 葉 ” という属性は付加されない 鳥が “ 葉 ” の近くにいる 属性のローカライズが可能
属性のローカライズ
珍しい属性のローカライズ
評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識
カテゴリ認識の流れ 属性
カテゴリ認識 ٥ 識別した属性を特徴量として学習に利用 ٥SVM もしくはロジスティック回帰により学習 (1 対多 ) ٥ 識別結果 ٥ ほぼ同等 ( ただし,属性を使用する手法は物体を囲う矩形も入力 ) ٥ 結果の傾向 ٥ 提案手法が得意:バイクと人 ٥ 提案手法が苦手:ソファと椅子 PASCAL 2008 基本特徴量意味ある 属性 全属性 クラス毎の識別精度の平均 58.5%54.6%59.4% サンプル毎の識別精度の平均 35.5%28.4%37.7%
少数サンプルと属性 ٥ サンプルが少ない学習 ٥ 判別モデル (SVM) → 生成モデル ( ニアレストネイバー (NN))
おわりに ٥ 物体の属性を識別とその応用法を提案 ٥ 属性を識別する手法自体はシンプル ٥ 特徴量 → 認識の中間表現として属性を利用 ٥ 他にも多数の応用先がある
認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶:経験したエピソードに関する記憶 ٥ 意味記憶:文脈が特定できない記憶,知識 ٥ 意味を記憶する辞書:心内辞書 ٥ 意味の検索:意味記憶階層ネットワークモデル [1969 Collins A.]
意味記憶の階層ネットワークモデル ٥ カテゴリと意味の検索にされている可能性がある ٥ 属性からカテゴリの検索 もしくは カテゴリから属性の検索 ٥ 離れるほど検索に時間が必要であることが実験により証明
認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶:経験したエピソードに関する記憶 ٥ 意味記憶:文脈が特定できない記憶,知識 ٥ 意味を記憶する辞書:心内辞書 ٥ 意味の検索:意味記憶階層ネットワークモデル 視覚情報カテゴリ 意味 ( 属性 ) 視覚情報カテゴリ 単純な特徴量 複合的な特徴量 視覚情報カテゴリ複合的な特徴量単純な特徴量 単純な特徴量
意味記憶階層ネットワークモデルに基づくカテゴリ認 識 ٥ カテゴリと意味 ( 属性 ) の階層ネットワークの構築 ٥ 自動構築: ٥ 追加サンプルによる再構築:人間と同じように対話型 ٥ 進化 ( 最適化 ) : GA ٥ 意味記憶階層ネットワークモデルを用いたカテゴリ認識 ( 検 索 ) ٥ 意味という中間表現方法に適した認識 ( 検索 ) 方法 ٥ 大量カテゴリの認識 ٥ 従来の方法では表現不可能 ( メモリの使用量の点において )