3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別 アプローチ 山形知行 佐古淳 滝口哲也 有木康雄 (神戸大) 目的 統 合 S V M 音声 音響特徴量生成 音声入力システムの用途 カーナビ等の手を使うことが困難な機器での利用が顕著. 問題点 入力される音声がシステムに向かっての発話か,他の人との雑談かを区別できない. コマンドを入力する際にはボタンを押す必要がある (カーナビ). システム要求 or 雑談 雑談 システム要求 音声認識 言語特徴量生成 システム (カーナビ,ロボット等) 例) 「ルートを探して」 物理的なスイッチを使うことなく,システム要求と雑談を判別したい. 従来手法 関連研究 ユーザーの(音響的な)発話の特徴は,話す対象に応じて無意識に変わる. [Shinya Yamada, “Linguistic and Acoustic Features Depending on Different Situations”, Interspeech 2005] 人同士の会話ではラッチングに見られるようなスムーズなターンテイキングが行われる. [Tomoko Ohsuga, "Investigation of the Relationship between Turn-taking and Prosodic Features in Spontaneous Dialogue“, Interspeech 2005] 全体構成 音響情報での判別 一発話ごとの声の大きさや抑揚等のノンバーバルな特徴での判別 言語情報(音声認識結果) での判別 発話の意味・内容をもとにした判別 音声 音響特徴量生成 S V M システム要求 or 雑談 話者交替 特徴量生成 コーパス データ数 収録条件 音響特徴量 人間2人 + ロボット の対話 人同士で雑談をしながら任意に ロボットにシステム要求発話をする. 胸元にマイクを設置し収録 全発話 システム要求発話 1025 108 従来発話区間全体から特徴量を求めていた 処理の流れ パワーを閾値に明確な発話区間を設定 システム要求発話の例 「 こっち に 来 て ください 。 」 「向こう へ 行っ て」 「 こっち 来 て ー 」 「 写真 を 撮っ て 」 「 止まっ て ください 。 」 前後に短いマージンを追加 Time 明確な発話区間 Amplitude 対話型移動ロボット 音声コマンドにより室内を移動 3区間からそれぞれ パワー 平均 分散 最大 最大-最小 ピッチ 音響特徴量 発話区間を明確な発話区間とその前後の3区間として特徴量を求める. を求め,音響特徴量とする. Amplitude Time Margin Detected Utterance Section 自然発話とシステム要求発話の音響的な違いは主に発話の前や後ろに現れる. 自然な発話ではフィラーや言い淀み等が多い. 検出された発話区間からだけではなく,前後のマージンからも下記の音響特徴量を求める. 明確な発話区間 Amplitude Time マージン 従来の発話区間 自然な発話 発話の開始・終了は不明確 フィラーや言い淀みが多い コマンド 発話の開始・終了は明確 前後が無音になることが多い a) 自然発話 Time Amplitude Margin Detected Utterance Section Time 明確な発話区間 Amplitude マージン 従来の発話区間 音響特徴量 Power 平均 偏差 最大 最大 – 最小 Pitch b) システム要求発話 ※ VADはJulius Adintoolを使用
話者交替特徴量 コーパス 実験結果 まとめ 実験結果 人同士の会話では,ある人が話し終わるまでに次の人が話し始めるラッチングがよく起こる. このため,2人が同時に発声している場合はシステム要求発話でないと考えられる. マイク入力のパワー等を用いる方法では,隣の人の声が入ってしまうためにどちらの人が発話しているか判別しにくい. 全発話数 システム要求発話 330 発話 49 発話 収録環境 人間2人 + ロボット の 3者対話 人同士で雑談をしながら任意に ロボットにシステム要求発話をする. 胸元にマイクを設置し収録 雑談の例 「 こっち 、 こっち で 良かっ た っけ 」 「 ふ ふ 、 なんか さっき から あっち 、 あっち 回っ たり こっち 回っ たり 。 」 「 あー あと 写真 を 撮っ て が ある なあ 」 「 ふふふ ははは 、 これ は 難易 度 高い です よ 。 はは 」 システム要求発話の例 「 こっち に 来 て ください 。 」 「 こっち 来 て ー 」 「 写真 を 撮っ て 」 「 止まっ て ください 。 」 例えば,マイク間距離が近い,もしくは声が大きい場合はa)の場合も話者数が2人と誤検出される. 装備 2chのマイク ※収録用とは別物 全方位カメラ (上下2台) グリッパー 台車 (前後移動・転回が可能) 機能例 CSPによる話者方向認識 障害物検知と移動ルート探索 話者方向/反対方向への移動 顔写真の撮影 グリッパーによるボトルの設置 Recorder Recorder ※ ロボットが受理できるコマンドに加え,ロボットの動作を期待した発話をシステム要求発話とした. b) 話者数: 2 a) 話者数: 1 CSP係数を用いることにより話者数をより正確に検出できる. 実験結果 音響特徴量の改良結果 time k N/2 N 1 speaker 2 speakers 適合率 再現率 F値 音響 0.71 0.61 0.66 音響(3区間) 0.80 0.92 0.86 音響・言語特徴量の統合結果 適合率 再現率 F値 言語 0.94 言語+音響 0.96 0.95 p2: high high low p1: low high high CSP Peak Trace Leave-one-out法によるオープンでの評価でF値最大の結果.ただしSVMのKernelにはGaussian Kernelを用いた. 実験結果 10 foldsでF値最大の結果. ただしSVMのKernelにはGaussian Kernelを用いた. 結果はF値が最大となった場合. まとめ 考察 音響特徴によりシステム要求判別をする場合,明確な発話区間の前後の情報を利用することが有益である. 発話区間前後での話者の交替を考慮することで,判別精度が上がる. 今後の課題 ノイズ環境下での評価 カーナビ等のコマンドの複雑な環境での評価