Web画像を用いた マルチモーダル情報による物体認識 2013年度電子情報通信学会全国大会 Web画像を用いた マルチモーダル情報による物体認識 西村仁志 小篠裕子 有木康雄 (神戸大学) 中野幹生(HRI-JP) ARIKI Lab. Kobe Univ.
背景 (音声認識+画像認識)が必要となる コップをとって マルチモーダル情報を用いた物体認識手法 家庭環境内の作業用ロボット ユーザに発話指示された物体を把持するタスクは最低限必要 コップをとって (音声認識+画像認識)が必要となる マルチモーダル情報を用いた物体認識手法 [1] Y.Ozasa et al., “Disambiguation in Unknown Object Detection by Integrating Image and Speech Recognition Confidences” ACCV, 2012 ARIKI Lab. Kobe Univ.
従来手法の問題点と提案手法 Web画像を用いた マルチモーダル情報による物体認識を提案 従来手法の問題点: 音声モデル、画像モデルの両方を事前に保持しておく必要 音声モデル: 大語彙辞書により事前に保持していると考えてよいのでは? 画像モデル: 不足画像をWebから収集しモデルに利用すればいいのでは? Web画像を用いた マルチモーダル情報による物体認識を提案 提案手法の特徴: Webから収集した画像で画像モデルを補完 音声認識結果を用いて候補を絞り込み物体認識 ARIKI Lab. Kobe Univ.
Web画像を用いた マルチモーダル情報による物体認識 音声認識結果を用いて候補を絞り込み統合特徴を用いて物体認識 仮定:音声誤認識時も正解は 高々10候補以内に入る 入力 音声 画像 認識結果 候補算出 提案手法の流れ 1. 音声認識結果上位10個 算出 2. 候補10個に対して、 画像モデルの有無を判別 3. 画像モデルがない場合、 ウェブから画像収集 モデル構築 4. 音声と画像を統合し認識 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.
物体認識問題の簡単化 音声認識結果を用いて候補を絞り込み物体認識 音声認識結果候補 全候補を算出 音声認識結果候補 第10位までを算出 従来手法 提案手法 音声認識結果候補 全候補を算出 音声認識結果候補 第10位までを算出 音声認識結果全候補と 画像認識結果を統合し て認識 音声認識結果候補10位までと画像認識結果と統合して認識 物体認識問題の簡単化 ARIKI Lab. Kobe Univ.
Web画像による画像モデル構築 Webから収集した画像で画像モデルを補完 画像データ Web画像 画像特徴量 SIFT 特徴表現 LLC 局所特徴が局所の少数コードワードと関係を持つ ARIKI Lab. Kobe Univ.
統合特徴による物体認識 音声情報と画像情報を統合して物体認識 物体認識には,音声認識結果候補の尤度 と 候補に対応する画像尤度 を 物体認識には,音声認識結果候補の尤度 と 候補に対応する画像尤度 を 下記のロジスティック関数により統合して用いる[1] 統合特徴による物体認識 ARIKI Lab. Kobe Univ.
評価実験 実験内容 1,音声認識実験 2,統合特徴を用いた 物体認識実験 提案手法 入力 音声 画像 認識結果 候補算出 HMM 物体認識実験 入力 音声 画像 認識結果 候補算出 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.
評価実験 実験内容 1,音声認識実験 2,統合特徴を用いた 物体認識実験 提案手法 入力 音声 画像 認識結果 候補算出 HMM 物体認識実験 入力 音声 画像 認識結果 候補算出 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.
音声認識実験 認識率94% 誤認識した際も最低でも8位以内に入った 実験目的: 仮定:正解は音声認識結果上位10位以内に入る→検証 実験条件: MFCC25次元,triphoneHMM,Julius使用 ・辞書 家庭内にあると想定される物体名をWebから1000語選出 ・実験方法 1000語の中から選んだ20単語を発話 (2回,男性3人,女性2人) 結果: 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位以下 個数 188 7 2 1 認識率94% 誤認識した際も最低でも8位以内に入った ARIKI Lab. Kobe Univ.
評価実験 実験内容 1,音声認識実験 2,統合特徴を用いた 物体認識実験 提案手法 入力 音声 画像 認識結果 候補算出 HMM 物体認識実験 入力 音声 画像 認識結果 候補算出 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.
マルチモーダル情報による 物体認識実験 94.73% 41.23% 94.04% ほぼ同じ [原因] 画像認識精度が あまりに低い 実験方法: 物体名を発話した1音声とその物体の画像1枚を入力として実験 ・テストデータ 音声 男性1人の20発話 画像 音声と対応した物体 画像各80枚 ・学習データ 音声 別の被験者の20発話を使用 画像 20物体の画像各200枚を使用 (※テストデータは含まない) 結果: 音声のみ 画像のみ 統合特徴 94.73% 41.23% 94.04% ほぼ同じ [原因] 画像認識精度が あまりに低い ARIKI Lab. Kobe Univ.
Web画像による画像認識結果の考察 物体毎の認識率 7~70%と物体毎に認識率が大きく異なる ARIKI Lab. Kobe Univ.
学習データの考察 最も認識率の高い物体(学習データ)例 ※ シロツメクサ ARIKI Lab. Kobe Univ.
学習データの考察 最も認識率の高い物体(学習データ)例 ※ シロツメクサ データセットがよい 同じ概念で構成されている ※ シロツメクサ データセットがよい 同じ概念で構成されている 人などが入り込んでいない ARIKI Lab. Kobe Univ.
学習データの考察 最も認識率の低い物体(学習データ)例 ※ チーク ARIKI Lab. Kobe Univ.
学習データの考察 最も認識率の低い物体(学習データ)例 ※ チーク データセットの悪さが目立つ (1) 複数の同音異義語 チーク(化粧品) ※ チーク データセットの悪さが目立つ (1) 複数の同音異義語 チーク(化粧品) チーク(木材) (2) チークに関する画像 チークブラシ チークの入れ方説明画 チーク材でできた製品 (3) 全く関係のない画像 ARIKI Lab. Kobe Univ.
スコア比,検索ワードに関する考察 認識率(%) 平均尤度比 平均ヒット数 0-30 0.87708 244700 30-50 0.57592 266730 50-80 0.22055 422925 ・データが誤って適応してしまったのでは? ・検索ワードの良し悪しは精度に関わる ARIKI Lab. Kobe Univ.
まとめ Web画像を用いたマルチモーダル情報による 物体認識手法を提案 Web画像により画像モデルを補完することで逐次的に物体学習が可能 画像情報を用いることで音声の曖昧性が解消 → しかしながらWeb画像による認識に問題 今後の予定 Web画像ならではの特性を考慮した工夫 ARIKI Lab. Kobe Univ.
ご清聴ありがとうございました ARIKI Lab. Kobe Univ.
テストに用いた物体名リスト 1,単語カード 26% 12,アイリッド 27% 2,花瓶 65% 13,電気毛布 38% 1,単語カード 26% 12,アイリッド 27% 2,花瓶 65% 13,電気毛布 38% 3,ダンボール 42% 14,シロツメクサ 70% 4,フリージア 46% 15,パラソルハンガー 37% 5,クリーム絞り 21% 16,動物の耳 14% 6,チーク 7% 17,フラワーリボン 34% 7,修正テープ 50% 18,大判焼き 36% 8,ゼッケン 41% 19,串 64% 9,レインジャケット 43% 10,補修布 36% 11,結露給水テープ 34% ARIKI Lab. Kobe Univ.
全発話物体名リスト例 1,単語カード 16,パラソルハンガー 31,鳥よけ 2,花瓶 17,動物の耳 32,湯おけ 3,ダンボール 18,フラワーリボン 33,おたま 4,フリージア 19,大判焼き 34,灯油缶カバー 5,クリーム絞り 20,串 35,バスライト 6,チーク 21,とじ針 36,布団圧縮袋 7,修正テープ 22,キイチゴ 37,散水ノズル 8,ゼッケン 23,スタンプインク 38,ファスナー 9,レインジャケット 24,ループエンド 39,はちまき 10,補修布 25,カラーサンド 40,保冷バッグ 11,結露給水テープ 26,外反母趾パッド 41,ポインセチア 12,アイリッド 27,ゴム 42,灯油ポンプストッカー 13,電気毛布 28,洗濯機 14,シロツメクサ 29,結束バンド 15,ピーラー 30,計量スプーン ARIKI Lab. Kobe Univ.
BOF+SVMでの評価 94.73% 34.59% 94.54% 実験方法: 物体名を発話した1音声とその物体の画像1枚を入力として実験 ・テストデータ 音声 男性1人の20発話 画像 音声と対応した物体 画像各100枚 ・学習データ 音声 別の被験者の20発話を使用 画像 20物体の画像各200枚を使用 (※テストデータは含まない) 結果: 音声のみ 画像のみ 統合特徴 94.73% 34.59% 94.54% ARIKI Lab. Kobe Univ.