Presentation is loading. Please wait.

Presentation is loading. Please wait.

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討

Similar presentations


Presentation on theme: "狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討"— Presentation transcript:

1 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )

2 狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (s) 1 0.5 -0.5 -1 20
-0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 time (s)

3 処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト包絡 dB変換 :-30dBで打切り :    の最大値 狭帯域包絡線間相関係数

4 狭帯域包絡線間相関行列 帯域を制限   → 正解率の変化を調べる 識別候補:   の最大値    正解率=識別候補が本人となった回数/識別条件数

5 登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) V:Vowel 母音 N:Naal 鼻音
33 68 11    27 11    11 V:Vowel 母音 N:Naal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced  摩擦音(有声) Sl:Stop voiceless  閉鎖音(無声) Sv:Stop voiced  閉鎖音(有声) Ca:Central      approximant        中央近接音 Q:Geminate      consonant             促音 -:Long vowel  長音   8      0 11 15 10 a i   0  11 Vowel 8 u 11          e 11 0   0 11 11 11 9 0       o V N’ N NY M MY S SH H HY F Z J K KY T TS P PY CH G GY D DY B BY RY Y R W Q Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数)

6 帯域増加と平均正解率 14 31 6 22 帯域番号6~14,22~31 C Last band number 1 0.9 0.8 0.7
0.6 C 31 0.5 6 22 0.4 0.3 0.2 0.1 5 10 15 20 25 30 35 Last band number 帯域番号6~14,22~31

7 帯域減少と平均正解率 6 14 22 31 帯域番号6~14,22~31 C first band number 1 0.9 0.8 0.7
0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 5 10 15 20 25 30 35 first band number 帯域番号6~14,22~31

8 全39帯域を使用した正解率の比較 約3% 約7% 88.3% 85.9% 82.5% C band number 1 0.95 0.9
0.85 0.8 88.3% 85.9% 82.5% 0.75 0.7 1-39 6-31 band number

9 第2フォルマント 周波数 600Hz~4000Hz (帯域番号18~30)
調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 The second formant F(kHz) 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 /a/ 1.5 第2フォルマント 周波数 600Hz~4000Hz (帯域番号18~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F(kHz)

10 調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 鼻腔概略図・声帯音源基本周波数
frontal sinus maxillary sinus sphenoidal sinus 声帯音源基本周波数 成人男性:100~150Hz 成人女性:250~300Hz (帯域番号6~14) 副鼻腔共振周波数 3103~5398Hz (帯域番号28~31) 鼻腔概略図・声帯音源基本周波数

11 データによるばらつきの検討 CA 識別語に共通性 Talker Band No. + 1-39 × 6-31 □ 6-14 22-31 1
  22-31 0.95 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All All A E K M N SA SB SC TA TB Y Talker 識別語に共通性

12 正解率が高い識別語(ネットサーフィン:上段)
ne n' -5 161ms 139ms amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 正解率が高い識別語(ネットサーフィン:上段) mo n' mi 95ms -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time ( s ) 93ms 61ms 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間

13 まとめ 声帯音源基本周波数  成人男性:100~150Hz  成人女性:250~300Hz   帯域番号6~14 → 声帯音源 第2フォルマント周波数  600Hz~4000Hz 帯域番号18~30 → 第2フォルマント 副鼻腔共振周波数 前頭洞:3103~5398Hz   帯域番号28~31 → 副鼻腔形状 個人のばらつきは継続時間に関連

14

15 1/4オクターブバンドの中心周波数

16 1/4オクターブバンド狭帯域フィルタ 狭帯域フィルタ:FIRフィルタ 長さ:2048サンプル :44100Hz
3 4 -40 -35 -30 -25 -20 -15 -10 -5 Freq. (Hz) 周波数分解:21.5Hz フィルタ長:約46ms 音声の狭帯域包絡線を100msで区切る ⇒声帯音源波  約4周期が対象 Amplitude (dB)

17  :b帯域の音声時間波形  :狭帯域フィルタ b  :帯域番号 n  :離散時刻に相当するサンプル番号 M :狭帯域フィルタの長さ

18 5 10 15 20 25 30 35 40 -0.4 -0.2 0.2 0.4 0.6 0.8 1

19 図8 鼻腔概略図 maxillary sinus frontal sinus sphenoidal sinus

20 狭帯域包絡線間相関係数 : x の分散 : X の平均 N :  の長さに相当するサンプル番号


Download ppt "狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討"

Similar presentations


Ads by Google