狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (ms) 1 0.5 -0.5 -1 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 time (ms)
処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換(-30dBで打ち切り) 狭帯域包絡線間相関係数 b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 狭帯域包絡線間相関係数
正解率=識別候補が本人となった回数/識別条件数 狭帯域包絡線間相関係数行列 帯域を制限 ↓ 正解率の 変化を調べる DB 識別対象 識別候補: の最大値 正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない V:Vowel 母音 33 68 11 27 11 11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 8 Vowel u 11 0 0 11 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 11 9 0 11 0 0 14 26 9 2 o V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q - N Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない
帯域増加と平均正解率 14 31 6 22 重要帯域:帯域番号6~14,22~31 C Stop band number 5 10 15 20 25 30 35 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Stop band number C 6 14 22 31 2 39 重要帯域:帯域番号6~14,22~31
帯域減少と平均正解率 6 14 22 31 重要帯域:帯域番号6~14,22~ C Starting band number 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 1 5 10 15 20 25 30 35 38 Starting band number 重要帯域:帯域番号6~14,22~
帯域増加と帯域減少の平均正解率 帯域増加 帯域減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31
全39帯域を使用した正解率の比較 % 88% 86% 83% fs 範囲 100% 25% 21% band数 100% 67% 49% 90 80 70 60 % 50 40 平均正解率 fs 範囲 band 数 30 20 10 1-39 6-31 6-14 22-31 band number 88% 86% 83% fs 範囲 100% 25% 21% band数 100% 67% 49%
第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30) 結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 1.4 第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30) /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)
結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 高い周波数範囲 低い周波数範囲(6~14) 前頭洞 約8cm3 上顎洞 低い周波数範囲(6~14) 蝶形骨洞 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 副鼻腔共振周波数・声帯音源基本周波数
データによるばらつきの検討 CA 識別語に共通性 Talker Band No. 88% 86% 83% + 1-39 × 6-31 □ 6-14 22-31 0.95 88% 86% 83% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 識別語に共通性
正解率が高い識別語(ネットサーフィン:上段) 0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間
まとめ 声帯音源基本周波数 約100~300Hz 帯域番号6~14 第2フォルマント周波数・ 副鼻腔共振周波数 約1100Hz~5400Hz 帯域番号22~31 正解率のばらつき 鼻音の継続時間に関連 周波数範囲で21%,帯域数で49%に制限
1/4オクターブバンドの中心周波数
1/4オクターブバンド狭帯域フィルタ 狭帯域フィルタ:FIRフィルタ 長さ:2048サンプル :44100Hz 3 4 -40 -35 -30 -25 -20 -15 -10 -5 Freq. (Hz) amplitude (dB) 周波数分解:21.5Hz フィルタ長:約46ms 音声の狭帯域包絡線を100msで区切る ⇒声帯音源波 約4周期が対象
話者を識別するシステムに用いた登録語・識別語 登録語 1)青い空 (aoisora) 2)映画鑑賞 (eigaka n‘shou) 3)石田一成 (ishida issei) 4)マイホーム計画 (mai ho-mu keikaku) 5)無人島探索 (muji n’tou tansaku) 1語/約1秒 1人/約5語 計55語(登録者全員共通) 識別語:登録語と異なる語 1)松坂大輔 (matsuzaka daisuke) 2)メール機能 (me-ru kinou) 3)目から鱗 (mekara uroko) 4)水戸黄門 (mito koumo n‘) 5)モーニング娘 (mo-ni n’gu musume) 6)中山きんにくん (nakayama kin‘niku n’) 7)ネットサーフィン (netto sa-fi n‘) 8)猫死んじゃった (neko shi n’jatta) 9)猫踏んじゃった (neko fu n‘jatta) 10)日本沈没 (niho n’ chi n‘botsu) 11)忍たま乱太郎 (ni n’tama ra n‘tarou) 12)ノストラダムス (nosutora damusu) 13)のんびり屋 (no n’biriya) 14)上田晋也 (ueda shi n‘ya) 1語/約1秒 1人/約8語 計82語(登録者により異なる)
corrective judgement ratio 100% netto sa-fi n' mo-ni n'gu nosutora damusu musume 90% mekara uroko neko fu n'jatta 80% nakayama kin'niku n' ueda shi n'ya neko shi n'jatta corrective judgement ratio 70% matsuzaka daisuke 60% mito koumo n' no n'biriya 50% 40% niho n' chi n'botsu 30% 1 2 3 4 5 6 7 8 9 10 11 number of subjective word
狭帯域分割した音声時間波形のスペクトル 片側スペクトルとなる の解析的信号表現 狭帯域分割した音声時間波形の包絡線 ヒルベルト包絡線
全39帯域を使用した正解率の比較 約2% 約5% 88% 86% 83% C band number 1 0.95 0.9 0.85 0.8 0.75 83% 0.7 1-39 6-31 6-14 22-31 band number
データによるばらつきの検討 CA 識別語に共通性 Talker 88% 86% 83% Band No. + 1-39 × 6-31 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 All A E K M N SA SB SC TA TB Y Band No. + 1-39 × 6-31 □ 6-14 22-31 CA 88% 86% 83% Talker 識別語に共通性
The first formant F(kHz) The second formant F(kHz) 0.6 0.8 1.0 1.4 1.5 1.8 2.0 2.2 2.5 3.0 3.8 4.0 3.4 0.2 0.5 /e/ /i/ /u/ /o/ /a/
正解率が高い識別語(ネットサーフィン:上段) ne to s a fi n' 161 139 ms -5 ms amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 95 ms -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time ( s ) 93 61 ms ms 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間
登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) V:Vowel 母音 N:Nasal 鼻音 N Fl Fv Sl Sv Ca V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q - o e u i a 11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0 27 0 11 15 10 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 22 22 0 0 22 0 0 31 19 35 2 1 17 11 8 11 0 0 11 11 11 20 0 8 11 0 0 11 0 19 21 0 9 0 11 0 0 14 26 9 2 33 68 11 27 11 11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 Vowel Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数)
帯域番号12 帯域番号22 time ( s ) amplitude amplitude amplitude time ( s ) 0.05 0.04 time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 0.03 amplitude 0.02 amplitude 0.01 -0.02 -0.04 -0.01 0.2 0.4 0.6 0.8 1 -0.02 time ( s ) -0.03 -0.04 -0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.04 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude time ( s ) 0.02 amplitude -0.05 -0.04 -0.03 -0.02 -0.01 0.01 0.02 0.03 0.04 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 time ( s ) amplitude -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 amplitude(dB) -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) -30 -25 -20 -15 -10 -5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 time ( s ) amplitude(dB) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換 狭帯域包絡線間相関係数 : の最大値 b : 39バンド(28.9Hz~20749Hz) ヒルベルト変換して求めた包絡線 dB変換 : の最大値 狭帯域包絡線間相関係数