Web画像を用いたマルチモーダル情報による物体認識

Web画像を用いたマルチモーダル情報による物体認識
2013年度電子情報通信学会全国大会 Web画像を用いたマルチモーダル情報による物体認識西村仁志　小篠裕子　有木康雄　(神戸大学) 中野幹生（HRI-JP） ARIKI Lab. Kobe Univ.

背景（音声認識＋画像認識）が必要となるコップをとってマルチモーダル情報を用いた物体認識手法家庭環境内の作業用ロボット
ユーザに発話指示された物体を把持するタスクは最低限必要コップをとって（音声認識＋画像認識）が必要となるマルチモーダル情報を用いた物体認識手法 [1] Y.Ozasa et al., “Disambiguation in Unknown Object Detection by Integrating Image and Speech Recognition Confidences” ACCV, 2012 ARIKI Lab. Kobe Univ.

従来手法の問題点と提案手法Ｗｅｂ画像を用いたマルチモーダル情報による物体認識を提案従来手法の問題点：
音声モデル、画像モデルの両方を事前に保持しておく必要音声モデル：　大語彙辞書により事前に保持していると考えてよいのでは？画像モデル：不足画像をWebから収集しモデルに利用すればいいのでは？Ｗｅｂ画像を用いたマルチモーダル情報による物体認識を提案提案手法の特徴：Ｗｅｂから収集した画像で画像モデルを補完音声認識結果を用いて候補を絞り込み物体認識 ARIKI Lab. Kobe Univ.

Web画像を用いたマルチモーダル情報による物体認識
音声認識結果を用いて候補を絞り込み統合特徴を用いて物体認識仮定：音声誤認識時も正解は高々10候補以内に入る入力音声画像認識結果候補算出提案手法の流れ 1. 音声認識結果上位１０個算出 2. 候補10個に対して、　画像モデルの有無を判別 3. 画像モデルがない場合、　ウェブから画像収集　モデル構築 4. 音声と画像を統合し認識 HMM 画像モデルなし Web 画像モデル画像モデル構築統合による物体認識出力認識結果 ARIKI Lab. Kobe Univ.

物体認識問題の簡単化音声認識結果を用いて候補を絞り込み物体認識音声認識結果候補全候補を算出音声認識結果候補第10位までを算出
従来手法提案手法音声認識結果候補全候補を算出音声認識結果候補第10位までを算出音声認識結果全候補と画像認識結果を統合して認識音声認識結果候補10位までと画像認識結果と統合して認識物体認識問題の簡単化 ARIKI Lab. Kobe Univ.

Web画像による画像モデル構築Ｗｅｂから収集した画像で画像モデルを補完画像データ Web画像画像特徴量 SIFT 特徴表現 LLC
局所特徴が局所の少数コードワードと関係を持つ ARIKI Lab. Kobe Univ.

統合特徴による物体認識音声情報と画像情報を統合して物体認識物体認識には，音声認識結果候補の尤度と候補に対応する画像尤度を
物体認識には，音声認識結果候補の尤度と候補に対応する画像尤度を下記のロジスティック関数により統合して用いる[1] 統合特徴による物体認識 ARIKI Lab. Kobe Univ.

評価実験実験内容１，音声認識実験２，統合特徴を用いた物体認識実験提案手法入力音声画像認識結果候補算出 HMM
　　物体認識実験入力音声画像認識結果候補算出 HMM 画像モデルなし Web 画像モデル画像モデル構築統合による物体認識出力認識結果 ARIKI Lab. Kobe Univ.

音声認識実験認識率94% 誤認識した際も最低でも8位以内に入った実験目的：仮定：正解は音声認識結果上位10位以内に入る→検証
実験条件： MFCC25次元，triphoneHMM，Julius使用・辞書家庭内にあると想定される物体名をWebから1000語選出・実験方法 1000語の中から選んだ20単語を発話（2回，男性3人，女性2人）結果：１位２位３位４位５位６位７位８位９位１０位以下個数 188 7 2 1 認識率94% 誤認識した際も最低でも8位以内に入った ARIKI Lab. Kobe Univ.

評価実験実験内容１，音声認識実験２，統合特徴を用いた物体認識実験提案手法入力音声画像認識結果候補算出 HMM
　　物体認識実験入力音声画像認識結果候補算出 HMM 画像モデルなし Web 画像モデル画像モデル構築統合による物体認識出力認識結果 ARIKI Lab. Kobe Univ.

マルチモーダル情報による物体認識実験 94.73% 41.23% 94.04% ほぼ同じ [原因] 画像認識精度があまりに低い
実験方法：物体名を発話した1音声とその物体の画像1枚を入力として実験・テストデータ音声　男性1人の20発話画像　音声と対応した物体　　　画像各80枚・学習データ音声　別の被験者の20発話を使用画像　20物体の画像各200枚を使用（※テストデータは含まない）結果：音声のみ画像のみ統合特徴 94.73% 41.23% 94.04% ほぼ同じ [原因] 画像認識精度があまりに低い ARIKI Lab. Kobe Univ.

Web画像による画像認識結果の考察物体毎の認識率 7～70％と物体毎に認識率が大きく異なる ARIKI Lab. Kobe Univ.

学習データの考察最も認識率の高い物体(学習データ)例 ※　シロツメクサ ARIKI Lab. Kobe Univ.

学習データの考察最も認識率の高い物体(学習データ)例 ※ シロツメクサデータセットがよい同じ概念で構成されている
※　シロツメクサデータセットがよい同じ概念で構成されている人などが入り込んでいない ARIKI Lab. Kobe Univ.

学習データの考察最も認識率の低い物体(学習データ)例 ※　チーク ARIKI Lab. Kobe Univ.

学習データの考察最も認識率の低い物体(学習データ)例 ※ チークデータセットの悪さが目立つ (1) 複数の同音異義語チーク(化粧品)
※　チークデータセットの悪さが目立つ (1)　複数の同音異義語チーク(化粧品) チーク(木材) (2)　チークに関する画像チークブラシチークの入れ方説明画チーク材でできた製品 (3)　全く関係のない画像 ARIKI Lab. Kobe Univ.

スコア比,検索ワードに関する考察認識率(％) 平均尤度比平均ヒット数 0-30 0.87708 244700 30-50 0.57592
266730 50-80 422925 ・データが誤って適応してしまったのでは？・検索ワードの良し悪しは精度に関わる ARIKI Lab. Kobe Univ.

まとめＷｅｂ画像を用いたマルチモーダル情報による物体認識手法を提案Ｗｅｂ画像により画像モデルを補完することで逐次的に物体学習が可能
画像情報を用いることで音声の曖昧性が解消 →　しかしながらWeb画像による認識に問題今後の予定Ｗｅｂ画像ならではの特性を考慮した工夫 ARIKI Lab. Kobe Univ.

ご清聴ありがとうございました ARIKI Lab. Kobe Univ.

テストに用いた物体名リスト 1,単語カード 26% 12,アイリッド 27% 2,花瓶 65% 13,電気毛布 38%
1,単語カード　 26% 12,アイリッド 27% 2,花瓶　 65% 13,電気毛布 38% 3,ダンボール　 42% 14,シロツメクサ 70% 4,フリージア　46% 15,パラソルハンガー　37% 5,クリーム絞り 21% 16,動物の耳 14% 6,チーク 7% 17,フラワーリボン 34% 7,修正テープ　50% 18,大判焼き 36% 8,ゼッケン 41% 19,串 64% 9,レインジャケット 43% 10,補修布 36% 11,結露給水テープ 34% ARIKI Lab. Kobe Univ.

全発話物体名リスト例 1,単語カード 16,パラソルハンガー 31,鳥よけ 2,花瓶 17,動物の耳 32,湯おけ 3,ダンボール
18,フラワーリボン 33,おたま 4,フリージア 19,大判焼き 34,灯油缶カバー 5,クリーム絞り 20,串 35,バスライト 6,チーク 21,とじ針 36,布団圧縮袋 7,修正テープ 22,キイチゴ 37,散水ノズル 8,ゼッケン 23,スタンプインク 38,ファスナー 9,レインジャケット 24,ループエンド 39,はちまき 10,補修布 25,カラーサンド 40,保冷バッグ 11,結露給水テープ 26,外反母趾パッド 41,ポインセチア 12,アイリッド 27,ゴム 42,灯油ポンプストッカー 13,電気毛布 28,洗濯機 14,シロツメクサ 29,結束バンド 15,ピーラー 30,計量スプーン ARIKI Lab. Kobe Univ.

BOF＋SVMでの評価 94.73% 34.59% 94.54% 実験方法：物体名を発話した1音声とその物体の画像1枚を入力として実験
・テストデータ音声　男性1人の20発話画像　音声と対応した物体　　　画像各100枚・学習データ音声　別の被験者の20発話を使用画像　20物体の画像各200枚を使用（※テストデータは含まない）結果：音声のみ画像のみ統合特徴 94.73% 34.59% 94.54% ARIKI Lab. Kobe Univ.

Web画像を用いたマルチモーダル情報による物体認識

Similar presentations

Presentation on theme: "Web画像を用いたマルチモーダル情報による物体認識"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Web画像を用いた マルチモーダル情報による物体認識

Similar presentations

Presentation on theme: "Web画像を用いた マルチモーダル情報による物体認識"— Presentation transcript:

Similar presentations

About project

フィードバック

Web画像を用いたマルチモーダル情報による物体認識

Presentation on theme: "Web画像を用いたマルチモーダル情報による物体認識"— Presentation transcript: