AdaBoostを用いたシステムへの問い合わせと雑談の判別

Slides:

Advertisements

Similar presentations

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

Advertisements

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

顔表情クラスタリングによる映像コンテンツへのタギング

Building text features for object image classification

最大エントロピーモデルに基づく形態素解析と辞書による影響

「わかりやすいパターン認識」第１章：パターン認識とは

音響モデルを利用したシングルチャネルによる音源方向推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

芦田尚美*，髙田雅美*，木目沢司†，城和貴* *奈良女子大学大学院 †国立国会図書館

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

雑音重み推定と音声ＧＭＭを用いた雑音除去

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

CV輪講姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡

ランダムプロジェクションを用いた音声特徴量変換

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

画像情報を用いた交通流計測情報工学科藤吉研究室 EP02076 都築勇司

動詞の共起パターンを用いた動作性名詞の述語項構造解析

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

文字画像の変形・生成に関する　　　　　　　　　研究愛知県立大学情報科学部　　　情報科学研究科大槻　汎　　　巣　宇燕　　　何　立風.

Buried Markov Modelを用いた構音障害者の音声認識の検討

非負値行列因子分解による構音障害者の声質変換

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

複数の言語情報を用いたCRFによる音声認識誤りの検出

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

視点移動カメラにおけるカメラキャリブレーション

音高による音色変化に着目した音源同定に関する研究

Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University)

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

Data Clustering: A Review

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

論文紹介: “Joint Embedding of Words and Labels for Text Classification”

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

サポートベクターマシン Support Vector Machine SVM

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

ブースティングとキーワードフィルタリングによるシステム要求検出

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

パターン認識特論 ADA Boosting.

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

第５回音声ドキュメント処理ワークショップ (2011/3/7)

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

パターン認識特論 ADA Boosting.

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

CSP係数の識別に基づく話者の頭部方向の推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

AdaBoostを用いたシステムへの問い合わせと雑談の判別神戸大学大学院自然科学研究科佐古淳，滝口哲也，有木康雄

背景・目的音声による機器の操作雑談に反応してシステムが誤動作ロボット・カーナビなどスイッチを用いた音声入力制御使いにくい・音声を使うメリットが減少スイッチレスで自動的にシステム要求と雑談を判別

目的システム要求と雑談の判別（ケース１）雑談雑談「こっちに来て」 …… 了解

目的システム要求と雑談の判別（ケース２）「こっちに、えーと、来て」「どうやって動かすの？」「こっちに来て」って言うと動くよ　えーと、来て」「どうやって　動かすの？」「こっちに来て」って言うと動くよ了解 …… ……

従来手法画像情報音響情報視線必ずしもシステムを見ないカーナビでは使用不能ピッチ・パワー距離一定の制約が必要必ずしも判別可能でない

従来手法言語情報キーワードスポッティングキーワードのわき出しが問題音声プロジェクタ [石塚ら’98] キーワードと競合する言語モデルを利用ネットワーク文法でコマンド受理

従来手法言語情報ネットワーク文法柔軟な表現を受理できない /こっちに来て/ 拒否わき出し /*こっちに来て*/ ふふふ、こっちに来てこっちに来てよこっちに来てちょうだいこっちに、えーと、来て /こっちに来て/ 拒否こっちに来てとかこっちに来てって言うとわき出し /*こっちに来て*/

提案手法素性（単語）をベースに判別コーパスから素性を学習 AdaBoostにより学習ふふふ、こっちに来てシステム要求素性こっちに来てよこっちに来てちょうだいこっちに、えーと、来てこっちに来てとかこっちに来てって言うと雑談素性コーパスから素性を学習 AdaBoostにより学習

コーパスシステム要求＋雑談コーパスロボットを例に収録カーナビを用いた収録は困難マイクカメラ車輪

コーパス収録環境規模２人とロボットが存在人同士で会話しながら任意にシステム要求マイクは発話者２人の胸元に設置コマンドは８種異なり単語数：約700語規模１時間程度（実質発話時間は20分程度）切り出し後にラベル付与 330発話（うち49発話がシステム要求）

コーパス具体例ラベル発話内容 -1 こっち、こっちでよかったっけこっちに来て、とか言うと +1 +1：システム要求 -1：雑談具体例ラベル発話内容 -1 こっち、こっちでよかったっけこっちに来て、とか言うと +1 こっちに来てくださいふふふ来たこっちおいでーあと写真を撮ってがあるなあ写真を撮って

ブースティングによる素性の学習 AdaBoost 多数の弱識別器による重み付き投票弱識別器・重みを学習する手法：弱識別器：重み

ブースティングによる素性の学習弱識別器 AdaBoostによる学習方法 Decision Stumps [Schapire’98] 素性（単語・bi-gramなど）の有無で識別例）「ください」がある  システム要求　　「とか」がない  システム要求　　「とか」がある  雑談 AdaBoostによる学習方法最も精度のよい弱識別器を選択識別誤りデータの重みを増やす繰り返す

学習例初期状態ラベル発話内容重み -1 こっち、こっちでよかったっけ 0.14 こっちに来て、とか言うと +1 こっちに来てくださいふふふ来たこっちおいでーあと写真を撮ってがあるなあ写真を撮って

学習例「ください」がある  +1 ラベル発話内容重み -1 こっち、こっちでよかったっけ 0.1 こっちに来て、とか言うと +1 こっちに来てくださいふふふ来たこっちおいでー 0.25 あと写真を撮ってがあるなあ写真を撮って

学習例「た」がない  +1 ラベル発話内容重み -1 こっち、こっちでよかったっけ 0.06 こっちに来て、とか言うと 0.25 +1 こっちに来てくださいふふふ来たこっちおいでー 0.16 あと写真を撮ってがあるなあ写真を撮って

学習例「おいでー」がある  +1 ラベル発話内容重み -1 こっち、こっちでよかったっけ 0.04 こっちに来て、とか言うと 0.16 +1 こっちに来てください 0.14 ふふふ来たこっちおいでー 0.1 あと写真を撮ってがあるなあ写真を撮って 0.36

学習例「とか」がない  +1 ラベル発話内容重み -1 こっち、こっちでよかったっけ 0.08 こっちに来て、とか言うと 0.11 +1 こっちに来てください 0.09 ふふふ来たこっちおいでー 0.07 あと写真を撮ってがあるなあ 0.33 写真を撮って 0.23

識別例識別関数素性語条件重みα h1(x) くださいある 0.46 h2(x) たない 0.69 h3(x) おいでー 0.64 とか 0.58 未知の入力：「来てくださいとか」+0.46+0.69-0.64-0.58=-0.07

比較手法 Support Vector Machines (SVM) ネットワーク文法より柔軟文章ベースによる判別マージン最大化 +

実験クリーン（書き起こし）テキストの判別クリーン（書き起こし）テキストの判別音声認識結果に対する判別

クリーンテキストの判別 AdaBoost AdaBoostにより選択された素性弱識別器：uni-gramを素性語素性システム要　　求ください　写真　来て　向こう　おいで　場所　止まっ　雑　　談で　たら　ん　って　が　ない　とか　の　あー　よ　ちょっと

クリーンテキストの判別 SVM カーネル：Gauss Kernel 特徴量：単語の頻度ベクトル例）「こっち、こっちに来て」約70個のサポートベクターにより判別 … こっちに来て 2 1

クリーンテキストの判別実験結果 Leave-one-out 法により実験結果はF値が最大のケース適合率再現率 F値 Boosting 94.0% 95.9% 0.95 SVM 97.9% 0.97 適合率高い：わき出し少　再現率高い：未検出少

クリーンテキストの判別成功例失敗例こっちに来てって言ったら  -1 ふふふ、こっちに、えーと、来て  +1 ジェロームツー +1  -1（未知素性）ちょっと認識してない、止まって +1  -1 こっちに来てって言うと -1  +1 +1：システム要求 -1：雑談

ブースティングとSVMの比較性能はSVMが上？未知の表現に対する適合率は？ Boosting SVM 適合率 94.0% 97.9%

ブースティングとSVMの比較実験識別結果素性ベースの方が未知表現に対し柔軟な可能性 Boosting SVM 識別率 100.0% 学習：「こっちに来て、とか」未学習：「向こうに行って、とか」未学習：「写真を撮って、とか」未学習：「ついて来て、とか」　　　　　……など識別 Boosting SVM 識別率 100.0% 21.4% 結果素性ベースの方が未知表現に対し柔軟な可能性

ブースティングとSVMの比較ブースティング (Decision stumps) Support Vector Machines 素性が学習済みなら未知文章も判別可判別に有効な素性が明確 Support Vector Machines 既知表現では高精度未知表現の判別が苦手

実験クリーン（書き起こし）テキストの判別音声認識結果に対する判別音声認識結果に対する判別

音声認識結果の判別音響分析条件・HMM サンプリング周波数特徴パラメータフレーム長フレーム周期窓タイプ 16KHz サンプリング周波数特徴パラメータフレーム長フレーム周期窓タイプ 16KHz MFCC(25次元) 20ms 10ms ハミング窓タイプ混合数 244音節 32混合母音(V) 子音＋母音(CV) 5状態3ループ 7状態5ループ音響分析条件 H M

音声認識結果の判別実験条件音響モデル: CSJベースにMLLR+MAP適応言語モデル: 書き起こしから学習 Open Close 未知語なし Open: 話者Aの認識に、話者Bのモデルを利用言語モデル Open Close 約30% - 約40% 約60% 音響モデル

音声認識結果の判別実験結果 Leave-one-out 法により実験結果はF値が最大のケース適合率再現率 F値 Boosting 91.8% 0.92 SVM 97.8% 0.95 クリーン (0.95) (0.97) 音声認識結果も高精度に判別可能

まとめシステム要求と雑談の判別音声認識結果（言語情報）を利用今後の課題単語認識精度：42.1%において適合率：91.8% 再現率：91.8% F値：0.92 今後の課題タスクの規模・難易度の向上言語のみで判別不能なケースへの対応音響情報との統合

ネットワーク文法との比較受理できないケースふふふ、こっちに来てこっちに来てちょうだいこっちに来てよこっちに来て……あれ？こっちに、えーと、来て素性ベースでは判別可能

ブースティングとSVMの比較識別関数 AdaBoost SVM 素性の有無で投票文章全体との類似度（内積）で投票くださいがあるとかがないとかがあるくださいがない素性の有無で投票：重み：ラベル：SVの特徴ベクトル文章全体との類似度（内積）で投票

ブースティングとSVMの比較 SVM 未知：「写真を撮ってとか」を識別したい学習：「こっちに来てとか」 雑談学習：「写真を撮って」 システム要求 … こっちに来て写真を撮ってとか 1 類似度 1 … こっちに来て写真を撮ってとか 1 類似度 3 … こっちに来て写真を撮ってとか 1 システム要求と誤識別

ブースティングとSVMの比較素性ベースの場合学習：「こっちに来てとか」未知：「写真を撮ってとか」素性投票先重み来て システム要求中とか 雑談大素性投票先重み写真 システム要求中とか 雑談大