Presentation is loading. Please wait.

Presentation is loading. Please wait.

バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出

Similar presentations


Presentation on theme: "バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出"— Presentation transcript:

1 バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
神戸大学大学院工学研究科情報知能学専攻 CS17有木研究室 山田馨士朗 有木康雄 滝口哲也

2 研究背景(1/2) 音声認識において 時間ー周波数平面上のフォルマント遷移・・・音素や発音の情報 雑音下音声認識における問題
時間ー周波数平面上のこれらの情報は雑音により容易に歪まされる ・・・・認識率の低下 周波数 :フォルマント 時間

3 研究背景(2/2) 画像の平滑化による雑音除去(ex.ガウシアンフィルタ) ・・・細かな雑音を除去することができるが
同時にフォルマント遷移(エッジ)情報も平滑化の影響で劣化 Bilateral filter[C.Tomasi and R.Manduchi(1998)] エッジ情報を保存しつつ、画像の平滑化を行うことが可能 (a) Original image (b) Gaussian filter (c) Bilateral filter

4 Bilateral filter filtering

5 Bilateral filter = min( 時間長、周波数範囲)/16 = (対数パワースペクトルの最大値
   = (対数パワースペクトルの最大値              −対数パワースペクトルの最小値)/10

6 Mel Frequency Cepstrum Coefficient
提案手法1 離散コサイン変換 DFT係数 Bilateral Filter メル軸上での 三角窓の出力 Bilateral filtered MFCC 音声波形 対数化 対数パワー STDFT Mel Filter Bank Proposed method Mel Frequency Cepstrum Coefficient + Bilateral filter MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う これをProposedとする

7 提案手法2 音声波形 DFT係数 Bilateral Filter Bilateral Filter 対数パワー STDFT メル軸上での
Frequency 提案手法2 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 Bilateral Filter 対数化 離散コサイン変換 Bilateral Filter 対数パワー Bilateral filtered MFCC MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を2回行う この手法をProposed2とする

8 提案手法3 音声波形 DFT係数 対数パワー Bilateral Filter STDFT メル軸上での 三角窓の出力 MFCCに対し
Frequency 提案手法3 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 対数化 離散コサイン変換 対数パワー MFCC Bilateral Filter Bilateral filtered MFCC MFCCに対し Bilateral filterを用いた平滑化を行う これをProposed3とする

9 評価実験ー単語音声認識実験 音声データ 男女10名の話者が発声したラベルつき音声データベース
音声データ 男女10名の話者が発声したラベルつき音声データベース (ATR音素バランス文Aセット)20→8kHzにダウンサンプリング データ数 各話者、学習データ2620単語 各話者、評価データに学習に使用していないデータ1000単語 音素数 54音素 特徴量 bilateral filtered MFCC+⊿+⊿⊿(提案手法) MFCC+⊿+⊿⊿ 音響モデル HMM(5状態、8混合) 雑音環境 食堂内、高速道路付近 (CENSREC-1-Cに収録)の無音部分を重畳 SNR10~20dB

10 結果(1/8)(MFにバイラテラルあり、なしの比較)
Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

11 結果(2/8)(MFにバイラテラルフィルタ2回、13dim)
Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

12 結果(3/8)(MFCCにバイラテラルフィルタ、13dim)
Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

13 結果(4/8)(提案手法1~3まとめ) features method MFCCE 13dim Restaurant noise
Baseline 69.5 Proposed 1 79.7 Proposed 2 78.0 Proposed 3 74.4 Street noise 74.9 84.1 82.5 80.6 数値は10話者の平均の認識率(%)

14 結果(5/8)(MFにバイラテラルあり、なしの比較)
Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

15 結果(6/8)(MFにバイラテラルあり、MFCCE26dim)
Recognition rate[%] Noise: restaurant noise baseline: MFCC+MFCC⊿+energy(26dim) proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim)

16 結果(7/8)(MFにバイラテラルあり、MFCCE39dim)
Recognition rate[%] Noise: restaurant noise baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)

17 結果(8/8)(特徴量別、他手法との比較) features method MFCCE 13dim MFCCE+⊿ 26dim
Restaurant noise Baseline 69.5 64.6 54.5 Proposed 1 79.7 80.6 78.6 SS 73.8 71.6 68.6 Gaussian 76.4 79.8 78.3 Street noise 74.9 80.1 79.5 84.1 86.9 84.3 81.1 81.2 80.8 83.7 83.1 数値は10話者の平均の認識率(%)

18 考察・今後の課題 Bilateral filterはノイズを平滑化し影響を 低減する為に効果があると考えられる
 低減する為に効果があると考えられる MFCC以外に相性のよい特徴量はないか SS等の雑音推定手法との違い Gaussianとの差異・・・フィルタのパラメータ調整 SSやその他手法との組み合わせ 音声に特化したフィルタの特徴付け

19 ご静聴ありがとうございました

20 Mel Frequency Cepstrum Coefficient
提案手法1 離散コサイン変換 DFT係数 Bilateral Filter メル軸上での 三角窓の出力 Bilateral filtered MFCC 音声波形 対数化 対数パワー STDFT Mel Filter Bank Proposed method Mel Frequency Cepstrum Coefficient + Bilateral filter MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う これをProposedとする

21 提案手法2 音声波形 DFT係数 Bilateral Filter Bilateral Filter 対数パワー STDFT メル軸上での
Frequency 提案手法2 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 Bilateral Filter 対数化 離散コサイン変換 Bilateral Filter 対数パワー Bilateral filtered MFCC MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を2回行う この手法をProposed2とする

22 提案手法3 音声波形 DFT係数 対数パワー Bilateral Filter STDFT メル軸上での 三角窓の出力
Frequency 提案手法3 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 対数化 離散コサイン変換 対数パワー MFCC Bilateral Filter Bilateral filtered MFCC MFCCに対し Bilateral filterを用いた平滑化を行う これをProposed3とする

23 結果4 features method MFCC 13dim restaurant noise Proposed 78.6%
Baseline 54.5% Proposed2 78.0% Proposed3 74.4% street noise 84.3% 79.5% 82.5% 80.6% 数値は10話者の平均の認識率

24 結果1(MFにバイラテラルあり、なしの比較)
Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

25 Recognition rate[%] Noise: restaurant noise
baseline: MFCC+MFCC⊿+energy(26dim) proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim)

26 Recognition rate[%] Noise: restaurant noise
baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)

27 実験結果(4/4) features method MFCC MFCC+⊿ MFCC+⊿+⊿⊿ restaurant noise
proposed 79.7% 80.6% 78.6% Baseline 69.5% 64.6% 54.5% street noise Proposed 84.1% 86.9% 84.3% 74.9% 80.1% 79.5% 数値は10話者の平均の認識率

28 Recognition rate[%]

29 Recognition rate[%]

30 Recognition rate[%]

31 Recognition rate[%]

32 Recognition rate[%]

33 DFT係数 音声波形 対数パワー Bilateral Filter STDFT メル軸上での 三角窓の出力 離散コサイン変換
Bilateral filtered MFCC 対数化 対数パワー STDFT Mel Filter Bank Bilateral Filter Proposed method

34 Recognition rate [%]

35 Frequency

36 Recognition rate [%]

37

38 結果(バイラテラルフィルタ2回、13dim) Recognition rate[%] Noise: restaurant noise
baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)


Download ppt "バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出"

Similar presentations


Ads by Google