CSP係数の識別に基づく話者の 頭部方向の推定

Slides:



Advertisements
Similar presentations
高精度画像マッチングを用いた SAR衛星画像からの地表変位推定
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
音声からの心的状態の推定における 生理心理学的アプローチの導入
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
音声合成.
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
国際情報通信研究科 山崎研究室 修士2年 荻野 晃史
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

CSP係数の識別に基づく話者の 頭部方向の推定 電子情報通信学会技術研究報告  2011年7月21, 22, 23日 高島遼一,滝口哲也,有木康雄 神戸大学大学院

研究背景 話者の位置の推定 話者の頭部方向の推定 頭部方向推定の利用できるタスク 「誰が話しているのか」 「誰に向かって話しているのか」 より詳細な状況理解 (会議システム等) 複数話者とロボットとの対話 雑談/システム要求の判別 呼びかけ (システム要求) 他人との会話

先行研究 マイクロホンアレー・ネットワークによる推定 複数のマイクロホンアレーを、話者を囲むように配置 各アレーから得られる音圧情報やCSPのピーク値など 左側のアレーのCSPの ピーク値や音圧が高くなる 低くなる 頭部方向 [7] A. Brutti, M. Omologo, and P. Svaizer, Proc. Interspeech05, pp. 2337-2340, 2005. [8] J. M. Sachar, and H. F. Silverman, Proc. ICASSP04, vol. 4, pp. 65-68, 2004.

研究目的 できるだけ少ないマイク数で、話者の位置や頭部の方向を推定したい アプローチ 音源位置や頭部方向によって異なる音響伝達特性(残響)に着目 影響:弱 影響:強 影響:弱 影響:強

Our previous work 音響伝達特性の識別に基づく話者の頭部方向の推定[高島, SP 2011-05] 音源位置: 頭部方向: 学習 学習データ 観測信号Oから 音響伝達特性H を推定する 音響伝達 特性を識別 識別結果 単一マイク 評価データ 候補となる音源位置、頭部方向毎に,観測信号 O の音響伝達特性 H を推定・学習 評価データも同様に伝達特性 H を推定し,識別することで音源位置・頭部方向を推定 単一マイクのみで音源位置と頭部方向が推定可能 音響伝達特性の推定が正確でないため,頭部方向の細かい変化の識別は困難 より発話内容にロバストな音響伝達特性(残響)のパラメータ化は?

提案手法(1/2) 2ch マイクを用いて得られるCSP (Cross-power Spectrum Phase) 係数に着目 頭部方向:横向き(180°) 頭部方向:正面(90°)

提案手法(2/2) 候補となる音源位置・頭部方向毎にCSP係数を計算し,SVMで学習する. 従来の音源位置推定法・頭部方向推定の先行研究との違い 残響特性をパラメータ化することが目的 CSP係数のピーク値以外の値も使用 事前に学習が必要 2ch マイクのみで実装可能 音源位置: 頭部方向: 学習 (SVM) 学習データ 観測信号Oから CSP係数を計算 CSP係数 を識別 (SVM) 識別結果 評価データ 2chマイク

実験環境 音声データ 収録環境 ATR研究用日本語音声データベースセットAより男性話者1名(50単語) 音源位置の候補数:6 スピーカの頭部方向:8 (全6×8 = 48通り) 残響時間:約1220msec マイク間隔: 30 cm 3500 6300 7200 2000 Microphones 1200 1500 Unit : mm Microphones Loudspeaker

実験環境 音声データ 収録環境 ATR研究用日本語音声データベースセットAより男性話者1名 音源位置の候補数:6 スピーカの頭部方向:8 (全6×8 = 48通り) 残響時間:約1220msec マイク間隔: 30 cm Microphones 3500 6300 7200 2000 Microphones 1200 1500 Unit : mm スピーカから見てマイクの方向を90°とする

分析条件 特徴量 位置・頭部回転方向の識別 CSP係数:512 次元 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec 位置・頭部回転方向の識別 1単語ごとに位置・頭部方向の識別を行い,認識率を求める 全収録データ数: 位置・頭部方向毎に 50 単語 学習データ数: 位置・頭部方向毎に 1, 5, 10, 20, 30, 40単語 テストデータ数: 位置・頭部方向毎に10単語 (組み合わせを変えて5-foldのクロスバリデーション) 総テスト数: 2400 単語 (50 × 48) SVMのカーネル関数: ガウシアンカーネル SVMの学習誤りに対する重み係数C:1

学習データ数ごとの48クラス識別結果

次元数による精度の違い CSP係数の全次元の内、ピークを中心に次元数を増減させる 1(ピークの高さのみ) 51, 101, 201, 301, 401, 512(全次元) 401 512 301 101 1 51 201

次元数による精度の違い 位置を2に固定し,頭部方向のみの識別 (8クラス識別) 22.0 24.3 24.5 26.3 26.8 22.5 次元数\学習単語数 1単語 5単語 10単語 20単語 30単語 40単語 1次元 (ピークのみ) 22.0 24.3 24.5 26.3 26.8 22.5 51次元 72.3 70.8 78.8 95.8 93.0 101次元 82.5 94.5 97.5 87.8 95.5 201次元 91.3 92.8 96.5 99.5 99.0 301次元 92.5 94.0 99.3 401次元 98.3 501次元 91.8 97.8

ピーク値のみを用いた場合のConfusion Matrix ピークのみを用いた場合,ピーク値が高いか低いか程度の識別しかできていない 予測値 実測値 角度 45 90 135 180 225 270 315 20 60 8 74 10 92 2 6 22

雑音環境下での識別精度 2chマイクで収録した音声のうち,テストデータのみにピンクノイズを足し合わせる SN比:5, 10, 20 dB

雑音環境下での識別精度 音源位置ごとの位置・頭部方向の識別精度 マイクの正面位置 (2・5) の認識精度が特に低い SNR 20 dB Microphones

雑音環境下での識別精度 位置2におけるConfusion matrix (SNR 20 dB) ほぼ全てのデータを90°と認識 予測値 実測値 角度 45 90 135 180 225 270 315 4 96 2 98 100 17

雑音環境下での識別精度 両チャネルの収録音声に全く同じ波形のピンクノイズを足したことが原因 大多数の評価データが90° (正面方向)と認識された 位置2, 頭部方向0° ノイズなし 位置2, 頭部方向0° SNR20 dB 位置2, 頭部方向90° ノイズなし

まとめと今後の課題 話者の位置・頭部方向ごとに異なる残響特性に着目 CSP係数の形状を残響特性のパラメータとして用いて識別することで,話者の位置と頭部方向の推定を2chマイクのみで行った 雑音環境下では雑音・音声の識別が必要 テスト時の位置や頭部方向が学習時より少しずれた場合の評価 音源位置・頭部方向毎に事前の学習が必要なため、使えるタスクが限られる 既知の位置・頭部方向の伝達特性を用いて、回帰により未知の位置・頭部方向の伝達特性を表現できないか