Web画像を用いた マルチモーダル情報による物体認識

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
Building text features for object image classification
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
Pose Tracking from Natural Features on Mobile Phones
Deep learningによる 読唇システム
音響モデルを利用したシングルチャネルに よる音源方向推定
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
中京大学 情報理工学部 機械情報学科 H 野口裕司
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
複数特徴量の重み付け統合による一般物体認識
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
距離空間ピラミッドを用いた LLCによる3次元物体認識
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
時間連続性を考慮した 動画からの人物の姿勢推定
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ロボットから人に話しかける 判断モデルの構築
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Presentation transcript:

Web画像を用いた マルチモーダル情報による物体認識 2013年度電子情報通信学会全国大会 Web画像を用いた マルチモーダル情報による物体認識 西村仁志 小篠裕子 有木康雄 (神戸大学) 中野幹生(HRI-JP) ARIKI Lab. Kobe Univ.

背景 (音声認識+画像認識)が必要となる コップをとって マルチモーダル情報を用いた物体認識手法 家庭環境内の作業用ロボット ユーザに発話指示された物体を把持するタスクは最低限必要 コップをとって (音声認識+画像認識)が必要となる マルチモーダル情報を用いた物体認識手法 [1] Y.Ozasa et al., “Disambiguation in Unknown Object Detection by Integrating Image and Speech Recognition Confidences” ACCV, 2012 ARIKI Lab. Kobe Univ.

従来手法の問題点と提案手法 Web画像を用いた マルチモーダル情報による物体認識を提案 従来手法の問題点: 音声モデル、画像モデルの両方を事前に保持しておく必要 音声モデル:  大語彙辞書により事前に保持していると考えてよいのでは? 画像モデル: 不足画像をWebから収集しモデルに利用すればいいのでは? Web画像を用いた マルチモーダル情報による物体認識を提案 提案手法の特徴: Webから収集した画像で画像モデルを補完 音声認識結果を用いて候補を絞り込み物体認識 ARIKI Lab. Kobe Univ.

Web画像を用いた マルチモーダル情報による物体認識 音声認識結果を用いて候補を絞り込み統合特徴を用いて物体認識 仮定:音声誤認識時も正解は 高々10候補以内に入る 入力 音声 画像 認識結果 候補算出 提案手法の流れ 1. 音声認識結果上位10個 算出 2. 候補10個に対して、   画像モデルの有無を判別 3. 画像モデルがない場合、   ウェブから画像収集   モデル構築 4. 音声と画像を統合し認識 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.

物体認識問題の簡単化 音声認識結果を用いて候補を絞り込み物体認識 音声認識結果候補 全候補を算出 音声認識結果候補 第10位までを算出 従来手法 提案手法 音声認識結果候補 全候補を算出 音声認識結果候補 第10位までを算出 音声認識結果全候補と 画像認識結果を統合し て認識 音声認識結果候補10位までと画像認識結果と統合して認識 物体認識問題の簡単化 ARIKI Lab. Kobe Univ.

Web画像による画像モデル構築 Webから収集した画像で画像モデルを補完 画像データ Web画像 画像特徴量 SIFT 特徴表現 LLC 局所特徴が局所の少数コードワードと関係を持つ ARIKI Lab. Kobe Univ.

統合特徴による物体認識 音声情報と画像情報を統合して物体認識 物体認識には,音声認識結果候補の尤度 と 候補に対応する画像尤度 を 物体認識には,音声認識結果候補の尤度 と 候補に対応する画像尤度 を 下記のロジスティック関数により統合して用いる[1] 統合特徴による物体認識 ARIKI Lab. Kobe Univ.

評価実験 実験内容 1,音声認識実験 2,統合特徴を用いた 物体認識実験 提案手法 入力 音声 画像 認識結果 候補算出 HMM   物体認識実験 入力 音声 画像 認識結果 候補算出 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.

評価実験 実験内容 1,音声認識実験 2,統合特徴を用いた 物体認識実験 提案手法 入力 音声 画像 認識結果 候補算出 HMM   物体認識実験 入力 音声 画像 認識結果 候補算出 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.

音声認識実験 認識率94% 誤認識した際も最低でも8位以内に入った 実験目的: 仮定:正解は音声認識結果上位10位以内に入る→検証 実験条件: MFCC25次元,triphoneHMM,Julius使用 ・辞書 家庭内にあると想定される物体名をWebから1000語選出 ・実験方法 1000語の中から選んだ20単語を発話 (2回,男性3人,女性2人) 結果: 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位以下 個数 188 7 2 1 認識率94% 誤認識した際も最低でも8位以内に入った ARIKI Lab. Kobe Univ.

評価実験 実験内容 1,音声認識実験 2,統合特徴を用いた 物体認識実験 提案手法 入力 音声 画像 認識結果 候補算出 HMM   物体認識実験 入力 音声 画像 認識結果 候補算出 HMM 画像モデルなし Web 画像モデル 画像モデル 構築 統合による 物体認識 出力 認識結果 ARIKI Lab. Kobe Univ.

マルチモーダル情報による 物体認識実験 94.73% 41.23% 94.04% ほぼ同じ [原因] 画像認識精度が あまりに低い 実験方法: 物体名を発話した1音声とその物体の画像1枚を入力として実験 ・テストデータ 音声 男性1人の20発話 画像 音声と対応した物体    画像各80枚 ・学習データ 音声 別の被験者の20発話を使用 画像 20物体の画像各200枚を使用 (※テストデータは含まない) 結果: 音声のみ 画像のみ 統合特徴 94.73% 41.23% 94.04% ほぼ同じ [原因] 画像認識精度が あまりに低い ARIKI Lab. Kobe Univ.

Web画像による画像認識結果の考察 物体毎の認識率 7~70%と物体毎に認識率が大きく異なる ARIKI Lab. Kobe Univ.

学習データの考察 最も認識率の高い物体(学習データ)例 ※ シロツメクサ ARIKI Lab. Kobe Univ.

学習データの考察 最も認識率の高い物体(学習データ)例 ※ シロツメクサ データセットがよい 同じ概念で構成されている ※ シロツメクサ データセットがよい 同じ概念で構成されている 人などが入り込んでいない ARIKI Lab. Kobe Univ.

学習データの考察 最も認識率の低い物体(学習データ)例 ※ チーク ARIKI Lab. Kobe Univ.

学習データの考察 最も認識率の低い物体(学習データ)例 ※ チーク データセットの悪さが目立つ (1) 複数の同音異義語 チーク(化粧品) ※ チーク データセットの悪さが目立つ (1) 複数の同音異義語 チーク(化粧品) チーク(木材) (2) チークに関する画像 チークブラシ チークの入れ方説明画 チーク材でできた製品 (3) 全く関係のない画像 ARIKI Lab. Kobe Univ.

スコア比,検索ワードに関する考察 認識率(%) 平均尤度比 平均ヒット数 0-30 0.87708 244700 30-50 0.57592 266730 50-80 0.22055 422925 ・データが誤って適応してしまったのでは? ・検索ワードの良し悪しは精度に関わる ARIKI Lab. Kobe Univ.

まとめ Web画像を用いたマルチモーダル情報による 物体認識手法を提案 Web画像により画像モデルを補完することで逐次的に物体学習が可能 画像情報を用いることで音声の曖昧性が解消 → しかしながらWeb画像による認識に問題 今後の予定 Web画像ならではの特性を考慮した工夫 ARIKI Lab. Kobe Univ.

ご清聴ありがとうございました ARIKI Lab. Kobe Univ.

テストに用いた物体名リスト 1,単語カード 26% 12,アイリッド 27% 2,花瓶 65% 13,電気毛布 38% 1,単語カード  26% 12,アイリッド 27% 2,花瓶  65% 13,電気毛布 38% 3,ダンボール  42% 14,シロツメクサ 70% 4,フリージア  46% 15,パラソルハンガー 37% 5,クリーム絞り 21% 16,動物の耳 14% 6,チーク 7% 17,フラワーリボン 34% 7,修正テープ  50% 18,大判焼き 36% 8,ゼッケン 41% 19,串 64% 9,レインジャケット 43% 10,補修布 36% 11,結露給水テープ 34% ARIKI Lab. Kobe Univ.

全発話物体名リスト例 1,単語カード 16,パラソルハンガー 31,鳥よけ 2,花瓶 17,動物の耳 32,湯おけ 3,ダンボール 18,フラワーリボン 33,おたま 4,フリージア 19,大判焼き 34,灯油缶カバー 5,クリーム絞り 20,串 35,バスライト 6,チーク 21,とじ針 36,布団圧縮袋 7,修正テープ 22,キイチゴ 37,散水ノズル 8,ゼッケン 23,スタンプインク 38,ファスナー 9,レインジャケット 24,ループエンド 39,はちまき 10,補修布 25,カラーサンド 40,保冷バッグ 11,結露給水テープ 26,外反母趾パッド 41,ポインセチア 12,アイリッド 27,ゴム 42,灯油ポンプストッカー 13,電気毛布 28,洗濯機 14,シロツメクサ 29,結束バンド 15,ピーラー 30,計量スプーン ARIKI Lab. Kobe Univ.

BOF+SVMでの評価 94.73% 34.59% 94.54% 実験方法: 物体名を発話した1音声とその物体の画像1枚を入力として実験 ・テストデータ 音声 男性1人の20発話 画像 音声と対応した物体    画像各100枚 ・学習データ 音声 別の被験者の20発話を使用 画像 20物体の画像各200枚を使用 (※テストデータは含まない) 結果: 音声のみ 画像のみ 統合特徴 94.73% 34.59% 94.54% ARIKI Lab. Kobe Univ.