Presentation is loading. Please wait.

Presentation is loading. Please wait.

狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討

Similar presentations


Presentation on theme: "狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討"— Presentation transcript:

1 狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討
末廣一美,小橋川美共(日本文理大学),西村一行(千葉工業大学), 福島学,岡本壽夫, 黒岩和治(日本文理大学) , 柳川博文(千葉工業大学)

2 狭帯域包絡線間相関を用いた話者識別 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換(-30dBで打ち切り)
b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s )

3 狭帯域包絡線間相関を用いた話者識別 狭帯域包絡線間相関係数 100ms 1000ms(10回平均) time ( s )
-30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 100ms 1000ms(10回平均) 狭帯域包絡線間相関係数

4 狭帯域包絡線間相関係数行列 全39帯域:28.9Hz~20749Hz DB
帯域を制限し重要帯域を調査 ・個人性がどこにあるのか ・計算コストの低下  ⇒正解率の変化を調べる DB 識別対象 識別候補:   の最大値

5 帯域増加と帯域減少の平均正解率 (範囲調査)
帯域を1帯域づつ増加 帯域を1帯域づつ減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31

6 Used Band Number(freq.(Hz))
正解率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14, 22-31 (28-21k) (68-5.2k) (68-0.2k, 1.1k-5.2k) Used Band Number(freq.(Hz)) fs 範囲 100% 25% 21% band数 100% 67% 49% 88% 86% 81%

7 重要帯域範囲のロバスト性検討(結果の信頼性検討) 重要帯域近傍での平均正解率の変化
V-31 6-V 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 4 5 6 7 8 29 30 31 32 33 (48.6) (57.3) (68.1) (81) (96.3) (3.7k) (4.4k) (5.2k) (6.2k) (7.4k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) 6-V,22-31 6-14, V-31 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 10 11 12 13 14 15 16 18 19 20 21 22 23 24 (136) (162) (192) (229) (272) (324) (385) (0.5k) (0.6k) (0.8k) (0.9k) (1.1k) (1.3k) (1.5k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) 概ね6-14,22-31で妥当 重要帯域を7-11,22-31に絞り込める

8 Used Band Number(freq.(Hz))
全39帯域の正解率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 (68-0.2k, 10k-5.2k) (81-162, 1.1k-5.2k) (28-21k) (68-5.2k) Used Band Number(freq.(Hz)) fs 範囲 100% 25% 21% 19% band数 100% 67% 49% 38% 88% 86% 81% 80%

9 個人性を多く含む帯域:6-14, 22-31 ⇒ 使用fs範囲:約4kHz(約1/5の情報量)
まとめ 100 声帯音源基本周波数 男:100~150Hz(8-11) 女:250~300Hz(13-15) 第2フォルマント周波数 600~4kHz(19-30) 第1フォルマント周波数 200~1.4kHz(12-23) 副鼻腔共振周波数 3.1k~5.4kHz(28-31) 今回絞り込んだ範囲  7-11,22-31   ⇒発話者が男性 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14 7-11 22-31 22-31 Used Band Number 個人性を多く含む帯域:6-14,  ⇒ 使用fs範囲:約4kHz(約1/5の情報量)

10

11 狭帯域包絡線間相関を用いた話者識別 1/4 Oct.に狭帯域分割した時間波形 ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数
b :全39帯域  (28.9~20749Hz)  :狭帯域通過フィルタ ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数 :    をdB変換

12 第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30)
重要周波数範囲の検討(結果の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)

13 重要周波数範囲の検討(結果の検討) 帯域番号6~14,22~31(68Hz~5187Hz) 高い周波数範囲 低い周波数範囲
前頭洞 約8cm3 副鼻腔共振周波数 約3100Hz~5400Hz (帯域番号28~31) 上顎洞 蝶形骨洞 低い周波数範囲 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 検討結果 →個人性は副鼻腔共振周波数・声帯音源基本周波数

14 発話語による正解率のばらつきの検討 (結果の信頼性検討)
1 0.95 Band No. + 1-39 × 6-31 □ 6-14   22-31 88% 86% 81% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 正解率は「識別語」に依存

15 「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント 正解率が高い識別語(ネットサーフィン) 平均時間(s) ne
0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が低い識別語(水戸黄門) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント


Download ppt "狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討"

Similar presentations


Ads by Google