狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (s) 1 0.5 -0.5 -1 20 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 time (s)
処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト包絡 dB変換 :-30dBで打切り : の最大値 狭帯域包絡線間相関係数
狭帯域包絡線間相関行列 帯域を制限 → 正解率の変化を調べる 識別候補: の最大値 正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) V:Vowel 母音 N:Naal 鼻音 33 68 11 27 11 11 V:Vowel 母音 N:Naal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 Vowel 8 u 11 0 0 11 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 11 9 0 11 0 0 14 26 9 2 o V N’ N NY M MY S SH H HY F Z J K KY T TS P PY CH G GY D DY B BY RY Y R W Q - N Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数)
帯域増加と平均正解率 14 31 6 22 帯域番号6~14,22~31 C Last band number 1 0.9 0.8 0.7 0.6 C 31 0.5 6 22 0.4 0.3 0.2 0.1 5 10 15 20 25 30 35 Last band number 帯域番号6~14,22~31
帯域減少と平均正解率 6 14 22 31 帯域番号6~14,22~31 C first band number 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 5 10 15 20 25 30 35 first band number 帯域番号6~14,22~31
全39帯域を使用した正解率の比較 約3% 約7% 88.3% 85.9% 82.5% C band number 1 0.95 0.9 0.85 0.8 88.3% 85.9% 82.5% 0.75 0.7 1-39 6-31 6-14 22-31 band number
第2フォルマント 周波数 600Hz~4000Hz (帯域番号18~30) 調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 The second formant F(kHz) 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 /a/ 1.5 第2フォルマント 周波数 600Hz~4000Hz (帯域番号18~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F(kHz)
調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 鼻腔概略図・声帯音源基本周波数 frontal sinus maxillary sinus sphenoidal sinus 声帯音源基本周波数 成人男性:100~150Hz 成人女性:250~300Hz (帯域番号6~14) 副鼻腔共振周波数 3103~5398Hz (帯域番号28~31) 鼻腔概略図・声帯音源基本周波数
データによるばらつきの検討 CA 識別語に共通性 Talker Band No. + 1-39 × 6-31 □ 6-14 22-31 1 22-31 0.95 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All All A E K M N SA SB SC TA TB Y Talker 識別語に共通性
正解率が高い識別語(ネットサーフィン:上段) ne n' -5 161ms 139ms amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 正解率が高い識別語(ネットサーフィン:上段) mo n' mi 95ms -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time ( s ) 93ms 61ms 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間
まとめ 声帯音源基本周波数 成人男性:100~150Hz 成人女性:250~300Hz 帯域番号6~14 → 声帯音源 第2フォルマント周波数 600Hz~4000Hz 帯域番号18~30 → 第2フォルマント 副鼻腔共振周波数 前頭洞:3103~5398Hz 帯域番号28~31 → 副鼻腔形状 個人のばらつきは継続時間に関連
1/4オクターブバンドの中心周波数
1/4オクターブバンド狭帯域フィルタ 狭帯域フィルタ:FIRフィルタ 長さ:2048サンプル :44100Hz 3 4 -40 -35 -30 -25 -20 -15 -10 -5 Freq. (Hz) 周波数分解:21.5Hz フィルタ長:約46ms 音声の狭帯域包絡線を100msで区切る ⇒声帯音源波 約4周期が対象 Amplitude (dB)
:b帯域の音声時間波形 :狭帯域フィルタ b :帯域番号 n :離散時刻に相当するサンプル番号 M :狭帯域フィルタの長さ
5 10 15 20 25 30 35 40 -0.4 -0.2 0.2 0.4 0.6 0.8 1
図8 鼻腔概略図 maxillary sinus frontal sinus sphenoidal sinus
狭帯域包絡線間相関係数 : x の分散 : X の平均 N : の長さに相当するサンプル番号