3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
アプローチ山形知行　佐古淳　滝口哲也　有木康雄　(神戸大) 目的統合 S V M 音声音響特徴量生成音声入力システムの用途カーナビ等の手を使うことが困難な機器での利用が顕著．問題点入力される音声がシステムに向かっての発話か，他の人との雑談かを区別できない．コマンドを入力する際にはボタンを押す必要がある (カーナビ)．システム要求 or 雑談雑談システム要求音声認識言語特徴量生成システム (カーナビ，ロボット等) 例) 「ルートを探して」物理的なスイッチを使うことなく，システム要求と雑談を判別したい．従来手法関連研究ユーザーの(音響的な)発話の特徴は，話す対象に応じて無意識に変わる． [Shinya Yamada, “Linguistic and Acoustic Features Depending on Different Situations”, Interspeech 2005] 人同士の会話ではラッチングに見られるようなスムーズなターンテイキングが行われる． [Tomoko Ohsuga, "Investigation of the Relationship between Turn-taking and Prosodic Features in Spontaneous Dialogue“, Interspeech 2005] 全体構成音響情報での判別一発話ごとの声の大きさや抑揚等のノンバーバルな特徴での判別言語情報(音声認識結果) での判別発話の意味・内容をもとにした判別音声音響特徴量生成 S V M システム要求 or 雑談話者交替特徴量生成コーパスデータ数収録条件音響特徴量人間2人 + ロボットの対話人同士で雑談をしながら任意に　　ロボットにシステム要求発話をする．胸元にマイクを設置し収録全発話システム要求発話 1025 108 従来発話区間全体から特徴量を求めていた処理の流れパワーを閾値に明確な発話区間を設定システム要求発話の例　　「こっちに来てください。」　　「向こうへ行って」　　「こっち来てー」　　「写真を撮って」　　「止まってください。」前後に短いマージンを追加 Time 明確な発話区間 Amplitude 対話型移動ロボット音声コマンドにより室内を移動 3区間からそれぞれパワー平均分散最大最大-最小ピッチ音響特徴量発話区間を明確な発話区間とその前後の３区間として特徴量を求める．を求め，音響特徴量とする． Amplitude Time Margin Detected Utterance Section 自然発話とシステム要求発話の音響的な違いは主に発話の前や後ろに現れる．自然な発話ではフィラーや言い淀み等が多い．検出された発話区間からだけではなく，前後のマージンからも下記の音響特徴量を求める. 明確な発話区間 Amplitude Time マージン従来の発話区間　自然な発話発話の開始・終了は不明確フィラーや言い淀みが多い　コマンド発話の開始・終了は明確前後が無音になることが多い a) 自然発話 Time Amplitude Margin Detected Utterance Section Time 明確な発話区間 Amplitude マージン従来の発話区間音響特徴量 Power 平均偏差最大最大 – 最小 Pitch b) システム要求発話 ※ VADはJulius Adintoolを使用

話者交替特徴量コーパス実験結果まとめ実験結果
人同士の会話では，ある人が話し終わるまでに次の人が話し始めるラッチングがよく起こる．　このため，2人が同時に発声している場合はシステム要求発話でないと考えられる．　マイク入力のパワー等を用いる方法では，隣の人の声が入ってしまうためにどちらの人が発話しているか判別しにくい．全発話数システム要求発話 330 発話 49 発話収録環境人間2人 + ロボットの 3者対話人同士で雑談をしながら任意に　　ロボットにシステム要求発話をする．胸元にマイクを設置し収録雑談の例　　「こっち、こっちで良かったっけ」　　「ふふ、なんかさっきからあっち、あっち回ったり　　こっち回ったり。」　　「あーあと写真を撮ってがあるなあ」　　「ふふふははは、これは難易度高いですよ。はは」システム要求発話の例　　「こっちに来てください。」　　「こっち来てー」　　「写真を撮って」　　「止まってください。」例えば，マイク間距離が近い，もしくは声が大きい場合はa)の場合も話者数が2人と誤検出される．装備 2chのマイク　※収録用とは別物全方位カメラ (上下2台) グリッパー台車 (前後移動・転回が可能) 機能例 CSPによる話者方向認識障害物検知と移動ルート探索話者方向/反対方向への移動顔写真の撮影グリッパーによるボトルの設置 Recorder Recorder ※ ロボットが受理できるコマンドに加え，ロボットの動作を期待した発話をシステム要求発話とした． b) 話者数: 2 a) 話者数: 1 CSP係数を用いることにより話者数をより正確に検出できる．実験結果音響特徴量の改良結果 time k N/2 N 1 speaker 2 speakers 適合率再現率 F値音響 0.71 0.61 0.66 音響(3区間) 0.80 0.92 0.86 音響・言語特徴量の統合結果適合率再現率 F値言語 0.94 言語+音響 0.96 0.95 p2: high high low p1: low high high CSP Peak Trace Leave-one-out法によるオープンでの評価でF値最大の結果．ただしSVMのKernelにはGaussian Kernelを用いた．実験結果 10 foldsでF値最大の結果．ただしSVMのKernelにはGaussian Kernelを用いた．結果はF値が最大となった場合．まとめ考察音響特徴によりシステム要求判別をする場合，明確な発話区間の前後の情報を利用することが有益である．発話区間前後での話者の交替を考慮することで，判別精度が上がる．今後の課題ノイズ環境下での評価カーナビ等のコマンドの複雑な環境での評価

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

Similar presentations

Presentation on theme: "3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

Similar presentations

Presentation on theme: "3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別"— Presentation transcript:

Similar presentations

About project

フィードバック