Download presentation
Presentation is loading. Please wait.
1
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
雑音環境下音声認識のための バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6 ◎山田馨士朗,滝口哲也,有木康雄 (神戸大) 研究背景 バイラテラルフィルタ Bilateral filter [C.Tomasi and R.Manduchi(1998)] エッジ情報を保存しつつ、画像の平滑化を行うことが可能 フォルマント 1 filtering filtering 時間ー周波数平面上のフォルマント遷移・・・音素や発音の情報 雑音下音声認識における問題 時間ー周波数平面上のこれらの情報は雑音により容易に 歪まされる・・・・認識率の低下 画像の平滑化による雑音除去(ex.ガウシアンフィルタ) 細かな雑音を除去することができるが同時にフォルマント 遷移(エッジ)情報も平滑化の影響で劣化 →フォルマント遷移を残しつつ雑音を抑制したい (c) Bilateral filter (a) Original image (b) Gaussian filter 実験条件 音声データ 男女10名の話者が発声したラベルつき音声 データベース(ATR音素バランス文Aセット) データ数 各話者、学習データ2620単語(雑音音声) 各話者、評価データ1000単語 (学習データに使用してないもの) 音素数 54音素 特徴量 bilateral filtered MFCC+⊿+⊿⊿(提案手法) MFCC+⊿+⊿⊿ 音響モデル HMM(5状態、8混合) 雑音環境 食堂内、高速道路付近(CENSREC-1-Cに収 録)の無音部分を重畳 SNR 10~20dB 提案手法 離散コサイン変換 DFT係数 Bilateral Filter メル軸上での 三角窓の出力 Bilateral filtered MFCC 音声波形 対数化 対数パワー STDFT Mel Filter Bank 提案手法 Mel Frequency Cepstrum Coefficient + Bilateral filter MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う 評価実験 Noise: restaurant noise Noise: street noise 10話者の平均認識率 features method MFCC+⊿+⊿⊿ restaurant noise proposed 78.6% Baseline 54.5% street noise Proposed 84.3% 79.5% Recognition rate Recognition rate baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) 考察・課題 ◆ ほとんどの話者によって認識率の改善がみられ、ベースラインからレストラン内雑音データに対し24.1ポイント、高速道路付近雑音 データに対し、4.8ポイントの改善が見られた。 ◆ 今後はスペクトルサブトラクション等の他の雑音に対する手法との比較を行っていく。組み合わせも可能。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.