音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景 尤度判定による音源位置推定 従来の音源位置推定法 固定されたマイクロフォンアレーによって各マイクロフォンにおける 観測信号の位相差から音源位置を推定 位置毎に発話された音声を学習し,テストデータに対して,尤度が最も高いモデルの位置を音源位置として出力する. [1] 住田他,音講論 (春),1-P-8,pp. 771-772,2008. 尤度比較 学習 1 30-channel arrays 32-channel arrays 位置毎の 音声GMM 研究の目的 マイク一つで音源位置推定が行えないだろうか? 位置毎に異なる音響伝達特性が位置毎に音声の性質を変形させる 提案手法 音源位置ごとに異なる音響伝達特性 2音源における観測信号 話者(音源)が複数の場合 位置の組み合わせ毎にモデルを作成して尤度を比較する 学習が困難 ・音源数2,位置数3の場合,位置の組み合わせは9通り ・それぞれの組み合わせについて,同時に発話してもらう必要がある をGMM (Gaussian Mixture Model), をSingle Gaussian Model でそれぞれモデル化し, 研究のゴール 尤度判定による方法で複数音源(2音源)の位置推定を行う モデル合成によりあらゆる組み合わせの観測信号 のモデルを作成する. Clean speech GMM Training data for each position Training data for each position Clean speech GMM 1.話者ごとのクリーン音声GMMをケプストラム領域であらかじめ学習 2.クリーン音声GMMを用いてトレーニングデータから最尤推定法 により音響伝達特性を推定 Estimation of the acoustic transfer function Estimation of the acoustic transfer function Training of the acoustic transfer function model for each position Training of the acoustic transfer function model for each position 3.位置毎の音響伝達特性を正規分布で学習 4.クリーン音声モデルと伝達特性を足し合わせて話者ごとの 残響音声モデルを作成 5.各モデルに逆コサイン変換,指数変換を適用して,ケプストラム 領域からスペクトル領域に変換 IDCT IDCT Exp Exp 6.話者毎の残響音声モデルを足し合わせて観測信号モデルを作成 Log 7.観測信号モデルに対数変換,コサイン変換を適用して,スペクトル 領域からケプストラム領域に変換 DCT 8.全ての位置の組み合わせについて観測信号モデルを作成し,テストデータに対して 最も尤度の高い位置の組み合わせを出力 Composite GMM of observed signal 評価実験 まとめ 単一マイクによる複数音源の 位置推定法の提案を行った. 比較手法と比べて,トレーニングデータが少ない場合において,優位性が顕著に現れた. →学習過程で発話者に負担を かけさせない 今後の課題 他の手法に比べて優位でも精度は6割程度. 観測信号から音韻特徴を消す方法について検討 比較手法1:X-Model 手順1~4を行わずに,残響音声から直接残響音声モデルを作成 する(クリーン音声モデルの学習が不必要) 比較手法2:O-Model 全ての手順を省き,複数の話者によって同時に発話されたときの 観測信号から直接位置毎の観測信号モデルを作成する 実験条件 特徴量:MFCC 16次元 サンプリング周波数:12kHz 音源数:2個 位置数:3箇所(位置の組み合わせは9通り存在) クリーン音声モデルの混合数:64混合 その他のモデルの混合数:トレーニングデータの文章数により調節 両方の話者の位置が正解した場合の正解率 少なくとも片方の位置が正解した場合の正解率