ブースティングとキーワードフィルタリング によるシステム要求検出

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
高精度画像マッチングを用いた SAR衛星画像からの地表変位推定
最大エントロピーモデルに基づく形態素解析と辞書による影響
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
Deep learningによる 読唇システム
音響モデルを利用したシングルチャネルに よる音源方向推定
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
AdaBoostを用いた システムへの問い合わせと雑談の判別
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第5回音声ドキュメント処理ワークショップ (2011/3/7)
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

ブースティングとキーワードフィルタリング によるシステム要求検出 神戸大学大学院 自然科学研究科 佐古淳,滝口哲也,有木康雄

背景・目的 音声による機器の操作 雑談に反応してシステムが誤動作 ロボット・カーナビなど スイッチを用いた音声入力制御 使いにくい・音声を使うメリットが減少 スイッチレスで 自動的にシステム要求と雑談を判別

目的 システム要求と雑談の判別 「こっちに、 えーと、来て」 「どうやって 動かすの?」 「こっちに来て」 って言うと動くよ 了解 ……  えーと、来て」 「どうやって  動かすの?」 「こっちに来て」 って言うと動くよ 了解 …… ……

従来手法 キーワード・スポッティング 問題点 柔軟な表現の受理が困難 ネットワークの構築コスト ガベージ・モデルの構築方法  単語ベース ネットワーク文法 ガベージ・モデル 問題点 柔軟な表現の受理が困難 ネットワークの構築コスト ガベージ・モデルの構築方法  単語ベース  自動的に学習

単語ベースでの要求検出 単語ベースで受理(検出) 問題点 「えー こっちに 来て ちょうだい」 「こっちに えーと 来て」 「こっちに 来て って言うと」 わき出しに弱い

提案手法 単語ベースで受理+拒否 単語による要求・雑談への重み付き投票で判別 えー こっちに 来て ちょうだい こっちに えーと 来て こっちに 来て って言うと システム要求 雑談 投票 単語による要求・雑談への重み付き投票で判別 どの単語を用いるか - 投票の重みは? ブースティングにより学習

ブースティング ブースティングによるテキスト分類 注目する単語と投票重みをコーパスから学習 Decision Stumps [Schapire,98] 単語ベースの単純・高速な手法 true システム要求 単語Aがある 単語Aがない 雑談 false 注目する単語と投票重みをコーパスから学習

コーパス 収録環境 規模 2人とロボットが存在 人同士で会話しながら任意にシステム要求 マイクは発話者2人の胸元に設置 コマンドは8種 異なり単語数:約700語 規模 1時間程度(実質発話時間は20分程度) 切り出し後にラベル付与 330発話(うち49発話がシステム要求)

コーパス 具体例 ラベル 発話内容 -1 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と +1 +1:システム要求 -1:雑談 具体例 ラベル 発話内容 -1 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と +1 こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て

実験 音声認識結果に対する要求検出 音声認識結果に対する要求検出

音声認識結果の判別 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ 16KHz   サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ 16KHz MFCC(25次元) 20ms 10ms ハミング窓 タイプ 混合数 244音節 32混合 母音(V) 子音+母音(CV) 5状態3ループ 7状態5ループ 音響分析条件 H M

音声認識結果の判別 実験条件 音響モデル: CSJベースにMLLR+MAP適応 言語モデル: 書き起こしから学習 認識結果 未知語なし(語彙数700語) 話者Aの認識に、話者Bのモデルを利用 認識結果 単語正解精度:42.1% キーワードF値:0.76

音声認識結果の判別 AdaBoostにより選択された素性語例 素性語例(キーワード) システム 要  求 ください 写真 来て 向こう おいで 場所 止まっ  雑  談 で たら ん って が ない とか の あー よ ちょっと 素性語数:約40語 /700語

音声認識結果の判別 実験結果 Leave-one-out 法により実験 結果はF値が最大のケース 適合率 再現率 F値 unigram 0.92 bi-gram 0.94 0.93 高精度に判別可能

従来手法 キーワード・スポッティング 問題点 問題点 柔軟な表現の受理が困難 ネットワーク文法の構築コスト ガベージ・モデルの構築方法

キーワード・フィルタリング ブースティングによる学習の結果…… 未知語発話時…… システム要求素性 雑談素性 約20語 約20語 ガベージ・モデル 語彙全体 約660語 未知語発話時…… ガベージ単語と認識  :判別に影響無し 雑談素性と認識    :問題低 システム要求素性と認識:問題あり

未知語を含む要求検出 未知語がある場合でも頑健に動作 辞書から単語を削除(キーワード以外) 要求検出F値 F 値 辞書未知語率 1 0.9 0.8 0.7 F 値 0.6 0.5 0.4 未知語がある場合でも頑健に動作 0.3 0.2 0.1 10% 20% 30% 40% 50% 辞書未知語率

まとめ システム要求と雑談の判別 音声認識結果(言語情報)を利用 今後の課題 単語認識精度:42.1%において 適合率:0.94 再現率:0.92 F値:0.93 未知語に対しても頑健に動作 今後の課題 タスクの規模・難易度の向上 言語のみで判別不能なケースへの対応