3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
顔表情クラスタリングによる 映像コンテンツへのタギング
聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
音声からの心的状態の推定における 生理心理学的アプローチの導入
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
顔部品の検出システムの構築 指導教員 廉田浩 教授 1DS04188W  田中 甲太郎.
複数の言語情報を用いたCRFによる音声認識誤りの検出
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
中京大学 情報理工学部 機械情報学科 H 野口裕司
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
工学部 電気電子工学科 白井研究室 T 山田 翔也
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
部分的最小二乗回帰 Partial Least Squares Regression PLS
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
視覚補助のための物体検出 白井研究室 T 若松大仁
イラストで学ぶ 音声認識 荒木雅弘 著 講談社 2015.
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
市松模様を使用した カメラキャリブレーション
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別 アプローチ 山形知行 佐古淳 滝口哲也 有木康雄 (神戸大) 目的 統 合 S V M 音声 音響特徴量生成 音声入力システムの用途 カーナビ等の手を使うことが困難な機器での利用が顕著. 問題点 入力される音声がシステムに向かっての発話か,他の人との雑談かを区別できない. コマンドを入力する際にはボタンを押す必要がある (カーナビ). システム要求 or 雑談 雑談 システム要求 音声認識 言語特徴量生成 システム (カーナビ,ロボット等) 例) 「ルートを探して」 物理的なスイッチを使うことなく,システム要求と雑談を判別したい. 従来手法 関連研究 ユーザーの(音響的な)発話の特徴は,話す対象に応じて無意識に変わる. [Shinya Yamada, “Linguistic and Acoustic Features Depending on Different Situations”, Interspeech 2005] 人同士の会話ではラッチングに見られるようなスムーズなターンテイキングが行われる. [Tomoko Ohsuga, "Investigation of the Relationship between Turn-taking and Prosodic Features in Spontaneous Dialogue“, Interspeech 2005] 全体構成 音響情報での判別 一発話ごとの声の大きさや抑揚等のノンバーバルな特徴での判別 言語情報(音声認識結果) での判別 発話の意味・内容をもとにした判別 音声 音響特徴量生成 S V M システム要求 or 雑談 話者交替 特徴量生成 コーパス データ数 収録条件 音響特徴量 人間2人 + ロボット の対話 人同士で雑談をしながら任意に  ロボットにシステム要求発話をする. 胸元にマイクを設置し収録 全発話 システム要求発話 1025 108 従来発話区間全体から特徴量を求めていた 処理の流れ パワーを閾値に明確な発話区間を設定 システム要求発話の例   「 こっち に 来 て ください 。 」   「向こう へ 行っ て」   「 こっち 来 て ー 」   「 写真 を 撮っ て 」   「 止まっ て ください 。 」 前後に短いマージンを追加 Time 明確な発話区間 Amplitude 対話型移動ロボット 音声コマンドにより室内を移動 3区間からそれぞれ パワー 平均 分散 最大 最大-最小 ピッチ 音響特徴量 発話区間を明確な発話区間とその前後の3区間として特徴量を求める. を求め,音響特徴量とする. Amplitude Time Margin Detected Utterance Section 自然発話とシステム要求発話の音響的な違いは主に発話の前や後ろに現れる. 自然な発話ではフィラーや言い淀み等が多い. 検出された発話区間からだけではなく,前後のマージンからも下記の音響特徴量を求める. 明確な発話区間 Amplitude Time マージン 従来の発話区間  自然な発話 発話の開始・終了は不明確 フィラーや言い淀みが多い  コマンド 発話の開始・終了は明確 前後が無音になることが多い a) 自然発話 Time Amplitude Margin Detected Utterance Section Time 明確な発話区間 Amplitude マージン 従来の発話区間 音響特徴量 Power 平均 偏差 最大 最大 – 最小 Pitch b) システム要求発話 ※ VADはJulius Adintoolを使用

話者交替特徴量 コーパス 実験結果 まとめ 実験結果 人同士の会話では,ある人が話し終わるまでに次の人が話し始めるラッチングがよく起こる. このため,2人が同時に発声している場合はシステム要求発話でないと考えられる.  マイク入力のパワー等を用いる方法では,隣の人の声が入ってしまうためにどちらの人が発話しているか判別しにくい. 全発話数 システム要求発話 330 発話 49 発話 収録環境 人間2人 + ロボット の 3者対話 人同士で雑談をしながら任意に  ロボットにシステム要求発話をする. 胸元にマイクを設置し収録 雑談の例   「 こっち 、 こっち で 良かっ た っけ 」   「 ふ ふ 、 なんか さっき から あっち 、 あっち 回っ たり    こっち 回っ たり 。 」   「 あー あと 写真 を 撮っ て が ある なあ 」   「 ふふふ ははは 、 これ は 難易 度 高い です よ 。 はは 」 システム要求発話の例   「 こっち に 来 て ください 。 」   「 こっち 来 て ー 」   「 写真 を 撮っ て 」   「 止まっ て ください 。 」 例えば,マイク間距離が近い,もしくは声が大きい場合はa)の場合も話者数が2人と誤検出される. 装備 2chのマイク ※収録用とは別物 全方位カメラ (上下2台) グリッパー 台車 (前後移動・転回が可能) 機能例 CSPによる話者方向認識 障害物検知と移動ルート探索 話者方向/反対方向への移動 顔写真の撮影 グリッパーによるボトルの設置 Recorder Recorder ※ ロボットが受理できるコマンドに加え,ロボットの動作を期待した発話をシステム要求発話とした. b) 話者数: 2 a) 話者数: 1 CSP係数を用いることにより話者数をより正確に検出できる. 実験結果 音響特徴量の改良結果 time k N/2 N 1 speaker 2 speakers 適合率 再現率 F値 音響 0.71 0.61 0.66 音響(3区間) 0.80 0.92 0.86 音響・言語特徴量の統合結果 適合率 再現率 F値 言語 0.94 言語+音響 0.96 0.95 p2: high high low p1: low high high CSP Peak Trace Leave-one-out法によるオープンでの評価でF値最大の結果.ただしSVMのKernelにはGaussian Kernelを用いた. 実験結果 10 foldsでF値最大の結果. ただしSVMのKernelにはGaussian Kernelを用いた. 結果はF値が最大となった場合. まとめ 考察 音響特徴によりシステム要求判別をする場合,明確な発話区間の前後の情報を利用することが有益である. 発話区間前後での話者の交替を考慮することで,判別精度が上がる. 今後の課題 ノイズ環境下での評価 カーナビ等のコマンドの複雑な環境での評価