音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討 音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討 1-Q-17 古賀健太郎,滝口哲也,有木康雄(神戸大) 研究背景・目的 問題設定・アプローチ 適応フィルタ h’(i) は4つのエコーパスをまとめて推定するため、キャンセル結果が十分に収束しない そこで、4つの固定フィルタで,4つのエコーパスを独立に推定する カーナビのタッチパネル操作は,わき見運転による交通事故を誘発 音声ならば,わき見運転することが無い しかし,車内では雑音が音声認識用マイクに混入し認識率が低下 マルチスピーカ(スピーカ数:4)からの音楽雑音(2ch)が,1chマイクで観測されるモデルにおいて,観測信号y(i)のSNを向上 車内などの環境で, マイクで観測される雑音を除去し 音声認識率を確保する 音響エコーキャンセラの研究 y(i)のSN向上には xR*hFR (i)+xR*hRR(i)+ xL*hFL(i)+xL*hRL(i) を正確に推定してy(i)からキャンセルする必要あり 音響尤度を用いたマルチスピーカ音響エコーキャンセラ 環境 i は変化 推定したい環境の数Nだけ固定フィルタを準備 実環境 i {i=1,2,…,N}でインパルス応答を測定し 各エコーパスに対応した固定フィルタ h’FL(i), h’FR(i), h’RL(i),h’RR(i) {i=1,2,…,N} とする 音声尤度低いクリーン音声候補 音声尤度高いクリーン音声候補 参考:インパルス応答を測定した実環境 推定環境と,観測信号測定環境が 合っているため 音響雑音消し残しが少ない 推定環境と,観測信号の測定環境が ミスマッチのため 音楽雑音消し残しが多い こちらを選択 < 全体図 > 推定したい環境N通りのキャンセルを行いN個のクリーン音声候補を算出 (1) MFCC特徴量計算 (2) 音声尤度最大の î の計算 クリーン音声候補ŝ(1), ŝ(2), … , ŝ(N) の時間領域波形に対し ŜM(1), ŜM(2), … , ŜM(N) と 音声のGMMψ={λ, μ, σ} より 音声尤度 P(ŜM(1)|ψ ), P(ŜM(2)|ψ ), …, P(ŜM(N)|ψ ) を計算し i=1 i=2 i=N xR 高域強調 → FFT → n次元メルフィルタバンク処理 → 出てきた値の対数を離散コサイン変換 (FRスピーカ) (RRスピーカ) h’FR(1) h’RR(1) h’FR(2) h’RR(2) h’FR(N) h’RR(N) hFR(i) hRR(i) î = argmax P(ŜM(i)|ψ ) i (Rch) y(i) S - + - + MFCC特徴量 ŜM(1) , ŜM(2), … , ŜM(N) を算出 参照信号 (音楽) となる ŝ(î) を,求めるクリーン音声 ŝ とする - + - + (観測信号) (音声) i (Lch) hFL(i) 音声尤度 - + - + (室内環境) W P(o) = ΣλwN(o ;μw ,σw) w=1 hRL(i) xL λw:重み係数 Σ1Wλw dw = 1 音声特徴量 o の重みつき混合正規分布 h’FL(1) h’RL(1) h’FL(2) h’RL(2) h’FL(N) h’RL(N) (FLスピーカ) (RLスピーカ) < 実験条件> <SN評価結果> ŝ(1) ŝ(2) ŝ(N) クリーン音声候補 N個のクリーン音声候補のうち 音声尤度最大の候補を選択 SNR(dB) 環境 i ( 物の配置が異なる環境(8通り) ) ŝ(1) ŝ(2) ŝ(N) 音声の GMM ψ={λ, μ, σ} (1)MFCC 特徴量計算 ŝ(1) ŝ(2) ŝ(N) ŜM(1) ŜM(2) ŜM(N) 観測信号(※)のパラメータ 提案手法のパラメータ î 番目の クリーン音声候補を 選択 î 音声sの話者 5名 発話文章数 20 標本化周波数 16kHz 観測した環境i 1~8 固定フィルタで推定した環境I 1~8 固定フィルタのタップ長 1200 GMM学習に用いた話者数 1名(特定話者) GMM学習の文章数 20 GMMの混合数 32 MFCCの次元数 16 MFCC特徴抽出のフレーム幅 32ms MFCC特徴抽出のシフト幅 8ms キャンセル無し 【ベースライン】 適応フィルタによる キャンセラ 【NLMS(学習同定法)】 尤度最大化基準に基づく音響エコーキャンセラ【提案手法】 (2)音声尤度最大の î の計算 ŝ(î) (クリーン音声) 従来手法(NLMS)のパラメータ 音声認識 エンジン 適応フィルタのタップ長 1200 ※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号 推定環境を減らす検討 ・ 環境1と2の片方、環境4と5の片方、環境6と8の片方を推定に使う ・ 環境3と7は必ず推定に使う 物の配置が異なる環境8通りに対し、5通りの環境で推定する 提案手法は、推定する環境が多くなればなるほど計算に時間がかかる欠点がある。そこで、推定する環境を減らす検討を行う。 <SN評価結果> < 実験条件> 環境oで観測した信号y(o)に対し,同じ環境oを推定した固定フィルタh’(o)を用いなかった場合(未知環境の場合),同じ環境oを推定した固定フィルタh’(o)を用いている場合と比べて,SN改善効果が小さい (右グラフ黄色の帯) 環境 i ( 物の配置が異なる環境(8通り) ) 観測信号(※)のパラメータ 提案手法のパラメータ 使用しなかった環境 o の代わりにどの環境 o が選択されているか調査 (表中の数値:%) ^ 音声sの話者 5名 発話文章数 20 標本化周波数 16kHz 観測した環境i 1~8 固定フィルタで 推定した環境I (※2) i={1or2, 3, 4or5, 6or8, 7} 固定フィルタのタップ長 1200 GMM学習に用いた話者数 1名 (特定話者) GMM学習の文章数 20 GMMの混合数 32 MFCCの次元数 16 MFCC特徴抽出のフレーム幅 32ms MFCC特徴抽出のシフト幅 8ms キャンセル無し 【ベースライン】 適応フィルタによるキャンセラ 【NLMS(学習同定法)】 選ばれた環境o 実際の環境 o 1 2 3 4 5 6 7 8 95 85 10 30 55 25 75 70 20 15 ^ 尤度最大化基準に基づく 音響エコーキャンセラ 【提案手法、環境iが既知の場合】 o = 1 のとき95% の確率でh’(2) 選択 o = 2 のとき90% の確率でh’(1) 選択 o = 4 のとき75% の確率でh’(5) 選択 o = 5 のとき70% の確率でh’(4)選択 o = 6 のとき85% の確率でh’(8) 選択 o = 8 のとき95% の確率でh’(6)選択 尤度最大化基準に基づく 音響エコーキャンセラ 【環境iが未知の場合】 ※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号 尤度最大化基準に基づく 音響エコーキャンセラ 【環境iが一部未知の場合】 (5通りの推定の組合せ8パターンの平均) ※2 5通りの推定の組み合わせは( i={(1,3,4,6,7),(1,3,4,7,8),(1,3,5,6,7),(1,3,5,7,8),(2,3,4,6,7),(2,3,4,7,8),(2,3,5,6,7),(2,3,5,7,8)})の8パターン 8通りの環境による推定(環境iが既知)と比べるとSN改善効果は小さくなるが、 環境iが未知の場合と比べるとSN改善効果は高い 5通りの環境による推定(環境iが一部未知)でも十分な音楽キャンセル性能を出せる h’(1)とh’(2) 、 h’(4)とh’(5) 、 h’(6)とh’(8)は、それぞれ似た環境