Download presentation
Presentation is loading. Please wait.
1
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討 3-P-6 古賀健太郎(神戸大,富士通テン),滝口哲也,有木康雄(神戸大) 研究背景・従来手法 < 適応フィルタを用いる場合> マルチスピーカ対応音響エコーキャンセラのモデル 適応フィルタ+ 2ch参照信号 xR hR’(i) スピーカ FR スピーカ RR <背景> (Rch) h’FR(i) h’RR(i) 音声 認識 エン ジン 走行 雑音 ?? 目的地 設定 音楽 ‐ 参照信号 (音楽) 音声 s 音声認識 エンジン + - - hFR(i) hRR(i) ‐ (Lch) (Rch) hL’(i) + + 両方同じ特性に 収束 音声 s 話者 s(i) ^ - - y(i) 参照信号 (音楽) ŝ(i) =y(i)–xR{h’FR(i)+h’RR(i)}-xL{h’FL(i)+h’RL(i)} 適応フィルタ+ 1ch参照信号 h’FL(i) h’RL(i) hFL(i) hRL(i) (Lch) h’(i) 音声 認識 エン ジン (Rch) 音声の SN向上 ↓ 認識率UP ‐ 参照信号 (音楽) 音声 s 車内のカーナビ操作のための 音声認識システムにおいて マイクに入る 音響エコー ・ 走行雑音の 除去を行い、 音声認識率を確保する アルゴリズムの開発 スピーカ FL スピーカ RL + xL (Lch) フィルタ入力とスピーカ出力の 参照信号が等しく無い 課題 車内の伝達特性の推定方法 反射、車内オブジェクト配置等 伝達特性を変える要素が多い車内では エコーキャンセル性能が上がらない 車内の伝達特性のモデル化 → 誤差学習で推定するのではなく、予め測定する 研究内容 伝達特性の測定 (尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラ) xR 様々な車内状況 (今回は人の配置が異なる下記12通り) においてインパルス応答を測定 i=1 i=2 i=12 スピーカ FR スピーカ RR h’FR(1) h’RR(1) h’FR(2) h’RR(2) h’FR(12) h’RR(12) i = 1 i = 2 i = 3 i = 4 i = 5 i = 6 i = 7 i = 8 i = 9 i = 10 i = 11 i = 12 - - ŝ(1) =y(i)–xR{h’FR(1)+h’RR(1)}- xL{h’FL(1)+h’RL(1)} hFR(i) + + - - hRR(i) - - (Rch) + + ŝ(2) =y(i)–xR{h’FR(2)+h’RR(2)}- xL{h’FL(2)+h’RL(2)} - - 音声 s 12通りの キャンセル結果 話者 y(i) - - 参照信号 (音楽) + + ŝ(12) =y(i)–xR{h’FR(12)+h’RR(12)}- xL{h’FL(12)+h’RL(12)} - - s(1) ^ s(2) ^ s(12) ^ hFL(i) hRL(i) (Lch) h’FL(1) h’RL(1) h’FL(2) h’RL(2) h’FL(12) h’RL(12) MFCC 特徴量計算 < i=1の場合 > スピーカ FL スピーカ RL (FR) (RR) h’RR(1) xL h’FR(1) S(1) ^ S(2) ^ S(12) ^ M M M h’FL(1) s(î) ^ 音声認識 エンジン h’RL(1) (音声尤度最大のキャンセル結果) 音声尤度を最大とする î の選択 (FL) (RL) 測定したインパルス応答を フィルタとして用いる 尤度最大化基準によるキャンセル結果の選択 【 インパルス応答測定環境 】 想定環境が実環境にミスマッチ :推定精度低 エコー消し残し多 → 音声尤度低 MFCC特徴量計算 エコーキャンセル結果 ŝ(1), ŝ(2), … , ŝ(12) の時間波形に対し 高域強調 → FFT → n次元メルフィルタバンク処理 → 出てきた値の対数を離散コサイン変換 側面 (5人乗車,i =12) を行った結果出てくる特徴量 : Ŝ(1), Ŝ(2), … , Ŝ(12) 音声尤度を最大とする î の選択 W P(ŜM(i)) = ΣλwN(ŜM(i);μ,σw) w=1 想定環境と実環境が一致 :推定精度高 エコー消し残し少 → 音声尤度高 λw:重み係数 Σ1Wλw dw = 1 運転席 音声尤度 (あらかじめ準備している)話者音声のGMM(Gaussian Mixture Model) λsに対し (マイク) î = argmax P(ŜM(i)|λS ) i となる ŝ(î) を最終結果とする 評価・結果 ・ 参照信号に(状況 i で測定した)インパルスを畳み込み、音声を足し合わせてシミュレーション観測信号 y(i) とする ・ y(i)をキャンセルした結果のSN値(dB)の平均を求める ※本シミュレーション実験では 「状況 i のインパルスを畳み込んだ観測信号y(i)に対し状況 i の伝達特性を用いたキャンセル結果を、音声尤度最大として選択できた」場合を 「正しい伝達特性を選択できた」ものとして定義する (参考) 尤度最大化基準による、正しい伝達特性の選択率 【 評価データ 】 実験結果(値はdB) (dB) (%) 話者 10名 文章 10文 信号の周波数 16kHz 畳み込むインパルス長 1365 インパルス測定車種 will サイファ 【 尤度最大化キャンセラの条件 】 (話者ID) フィルタのタップ長 1200 GMM学習に用いた話者数 1名(特定話者) GMM学習の文章数 50文 GMMの混合数 32 MFCCの次元数 16 MFCC特徴抽出のフレーム幅 32ms MFCC特徴抽出のシフト幅 8ms 全ての話者で伝達特性100%選択できているわけではないが、全ての話者で100%選択できた場合と比べてSNの改善度は0.20(dB)しか違わないので、尤度選択率は現状でも差し支えないと考察できる 今後の予定 音声認識率の測定 想定する状況を増やして検証 実環境で収録した観測信号を用いた実験 アルゴリズム全体の効率化
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.