Building text features for object image classification 福田考晃
はじめに Wang, Hoiemらによって提案 [CVPR,2009] なにをするものか? どのように? 組み合わせて利用 未知画像の既知カテゴリへの分類 どのように? 画像から得られる特徴 テキストの特徴( flickr tag ) 組み合わせて利用
手法の流れ 入力:未知画像 処理:2つの識別器を構築 ビジュアル識別器 テキスト識別器 出力:カテゴリ
ビジュアル特徴 5つの特徴量を利用 SIFT Gist カラーヒストグラム 勾配特徴 Unified特徴(上記4つをまとめたもの)
Gist 画像全体から得られる特徴量 画像を小領域に分割 任意周波数,方向のGaborフィルタの応答算出 強度 Gabor filter
Unified特徴の最適化 2枚を1組の画像対を利用 Unified特徴 重みを変更し,以下の式を最小化 Si:画像対の関係を表す
手法の流れ 入力:未知画像 処理:2つの識別器を構築 ビジュアル識別器 テキスト識別器 出力:カテゴリ
インターネットから取得したデータセット 画像テキスト間の関係 1,000,000枚のデータセット 700,000枚 300,000枚 58カテゴリでflickrを検索 PASCAL + Caltech 256カテゴリ 300,000枚 以下からダウンロード
手法の流れ 入力:未知画像 処理:2つの識別器を構築 ビジュアル識別器 テキスト識別器 出力:カテゴリ
テキスト特徴 Flickrデータセットから6000個のタグとグループ名を抽出 手順 画像入力 K – Nearest Neighborでk個の画像をFlickrデータセットから取得 取得した画像のタグとグループ名から特徴量算出
手法の流れ 入力:未知画像 処理:2つの識別器を構築 ビジュアル識別器 テキスト識別器 出力:カテゴリ
識別器の構築 ビジュアル識別器 テキスト識別器 SVMの利用 識別器の統合 カイ二乗カーネル ロジスティック回帰 特徴量をカイ2乗距離へ射影 検証用データセットを利用 K(x,y)= exp{-² (x,y)} ² (x,y) = i { (||xi-yi||) ² / ||xi+yi|| }
実験 以下を確認 異なるビジュアル特徴量におけるテキスト特徴の影響 テキスト特徴とビジュアル特徴の統合の影響 学習画像の影響 補助データセットの画像枚数の影響 カテゴリ名の影響
実験1 異なるビジュアル特徴におけるテキスト特徴の構築 KNN精度に依存 各特徴量の精度比較 ビジュアル特徴に依存 カラーヒストグラムが低 Unifiedが高
実験2 テキスト特徴とビジュアル特徴の統合の影響 互いが相互に作用
実験3 学習画像枚数の影響 画像数少 テキスト特徴の影響大 画像数多 テキスト特徴の影響小 最も高い利得 テキストとビジュアルが一致したとき
実験4 補助データセットの画像枚数 精度上昇 ≠ 枚数 200,000〜600,000 600,000〜1,000,000 精度上昇大 精度上昇小 精度上昇 ≠ 枚数
実験5 カテゴリ名の影響 実験対象 類似カテゴリの存在に依存しない カテゴリ名に類似したタグが存在する (W) カテゴリ名に類似したタグが存在しない (WO) 類似カテゴリの存在に依存しない
おわりに テキストの特徴 Unified特徴量は有効に作用 テキスト識別器 + ビジュアル識別器 = 相互に作用 Flickrのタグ,グループ名を利用 Unified特徴量は有効に作用 テキスト識別器 + ビジュアル識別器 = 相互に作用 学習画像数が少ない時テキスト特徴の影響大 精度向上≠ 補助データセット枚数 カテゴリ名の影響はない