Presentation is loading. Please wait.

Presentation is loading. Please wait.

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討

Similar presentations


Presentation on theme: "狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討"— Presentation transcript:

1 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )

2 狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (ms) 1 0.5 -0.5 -1
-0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 time (ms)

3 処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換(-30dBで打ち切り) 狭帯域包絡線間相関係数
b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 狭帯域包絡線間相関係数

4 正解率=識別候補が本人となった回数/識別条件数
狭帯域包絡線間相関係数行列 帯域を制限 ↓ 正解率の 変化を調べる DB 識別対象 識別候補:   の最大値 正解率=識別候補が本人となった回数/識別条件数

5 登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない V:Vowel 母音
33 68 11    27 11    11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced  摩擦音(有声) Sl:Stop voiceless  閉鎖音(無声) Sv:Stop voiced  閉鎖音(有声) Ca:Central      approximant        中央近接音 Q:Geminate      consonant             促音 -:Long vowel  長音   8      0 11 15 10 a i   0  11 8 Vowel u 11          e 11 0   0 11 11 11 9 0       o V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない

6 帯域増加と平均正解率 14 31 6 22 重要帯域:帯域番号6~14,22~31 C Stop band number 5 10 15
20 25 30 35 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Stop band number C 6 14 22 31 2 39 重要帯域:帯域番号6~14,22~31

7 帯域減少と平均正解率 6 14 22 31 重要帯域:帯域番号6~14,22~ C Starting band number 1 0.9
0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 1 5 10 15 20 25 30 35 38 Starting band number 重要帯域:帯域番号6~14,22~

8 帯域増加と帯域減少の平均正解率 帯域増加 帯域減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31

9 全39帯域を使用した正解率の比較 % 88% 86% 83% fs 範囲 100% 25% 21% band数 100% 67% 49%
90 80 70 60 % 50 40 平均正解率 fs 範囲 band 数 30 20 10 1-39 6-31 6-14 22-31 band number 88% 86% 83% fs 範囲 100% 25% 21% band数 100% 67% 49%

10 第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30)
結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 1.4 第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30) /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)

11 結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 高い周波数範囲 低い周波数範囲(6~14)
前頭洞 約8cm3 上顎洞 低い周波数範囲(6~14) 蝶形骨洞 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 副鼻腔共振周波数・声帯音源基本周波数

12 データによるばらつきの検討 CA 識別語に共通性 Talker Band No. 88% 86% 83% + 1-39 × 6-31
□ 6-14   22-31 0.95 88% 86% 83% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 識別語に共通性

13 正解率が高い識別語(ネットサーフィン:上段)
0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間

14 まとめ 声帯音源基本周波数 約100~300Hz 帯域番号6~14
第2フォルマント周波数・ 副鼻腔共振周波数  約1100Hz~5400Hz  帯域番号22~31 正解率のばらつき  鼻音の継続時間に関連 周波数範囲で21%,帯域数で49%に制限

15

16 1/4オクターブバンドの中心周波数

17 1/4オクターブバンド狭帯域フィルタ 狭帯域フィルタ:FIRフィルタ 長さ:2048サンプル :44100Hz
3 4 -40 -35 -30 -25 -20 -15 -10 -5 Freq. (Hz) amplitude (dB) 周波数分解:21.5Hz フィルタ長:約46ms 音声の狭帯域包絡線を100msで区切る ⇒声帯音源波  約4周期が対象

18 話者を識別するシステムに用いた登録語・識別語
登録語 1)青い空 (aoisora) 2)映画鑑賞 (eigaka n‘shou) 3)石田一成 (ishida issei) 4)マイホーム計画 (mai ho-mu keikaku) 5)無人島探索 (muji n’tou tansaku) 1語/約1秒 1人/約5語 計55語(登録者全員共通) 識別語:登録語と異なる語 1)松坂大輔 (matsuzaka daisuke) 2)メール機能 (me-ru kinou) 3)目から鱗 (mekara uroko) 4)水戸黄門 (mito koumo n‘) 5)モーニング娘 (mo-ni n’gu musume) 6)中山きんにくん (nakayama kin‘niku n’) 7)ネットサーフィン (netto sa-fi n‘) 8)猫死んじゃった (neko shi n’jatta) 9)猫踏んじゃった (neko fu n‘jatta) 10)日本沈没 (niho n’ chi n‘botsu) 11)忍たま乱太郎 (ni n’tama ra n‘tarou) 12)ノストラダムス (nosutora damusu) 13)のんびり屋 (no n’biriya) 14)上田晋也 (ueda shi n‘ya) 1語/約1秒 1人/約8語 計82語(登録者により異なる)

19 corrective judgement ratio
100% netto sa-fi n' mo-ni n'gu nosutora damusu musume 90% mekara uroko neko fu n'jatta 80% nakayama kin'niku n' ueda shi n'ya neko shi n'jatta corrective judgement ratio 70% matsuzaka daisuke 60% mito koumo n' no n'biriya 50% 40% niho n' chi n'botsu 30% 1 2 3 4 5 6 7 8 9 10 11 number of subjective word

20 狭帯域分割した音声時間波形のスペクトル 片側スペクトルとなる     の解析的信号表現 狭帯域分割した音声時間波形の包絡線 ヒルベルト包絡線

21

22 全39帯域を使用した正解率の比較 約2% 約5% 88% 86% 83% C band number 1 0.95 0.9 0.85 0.8
0.75 83% 0.7 1-39 6-31 band number

23 データによるばらつきの検討 CA 識別語に共通性 Talker 88% 86% 83% Band No. + 1-39 × 6-31
0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 All A E K M N SA SB SC TA TB Y Band No. + 1-39 × 6-31 □ 6-14   22-31 CA 88% 86% 83% Talker 識別語に共通性

24 The first formant F(kHz)
The second formant F(kHz) 0.6 0.8 1.0 1.4 1.5 1.8 2.0 2.2 2.5 3.0 3.8 4.0 3.4 0.2 0.5 /e/ /i/ /u/ /o/ /a/

25 正解率が高い識別語(ネットサーフィン:上段)
ne to s a fi n' 161 139 ms -5 ms amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 95 ms -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time ( s ) 93 61 ms ms 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間

26 登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) V:Vowel 母音 N:Nasal 鼻音
Fl Fv Sl Sv Ca V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q o e u i a   8      0 11 15 10   0  11 8 11          11 0   0 11 9 0       33 68 11    27 11    11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced  摩擦音(有声) Sl:Stop voiceless  閉鎖音(無声) Sv:Stop voiced  閉鎖音(有声) Ca:Central      approximant        中央近接音 Q:Geminate      consonant             促音 -:Long vowel  長音 Vowel Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数)

27 帯域番号12 帯域番号22 time ( s ) amplitude amplitude amplitude time ( s )
0.05 0.04 time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 0.03 amplitude 0.02 amplitude 0.01 -0.02 -0.04 -0.01 0.2 0.4 0.6 0.8 1 -0.02 time ( s ) -0.03 -0.04 -0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.04 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude time ( s ) 0.02 amplitude -0.05 -0.04 -0.03 -0.02 -0.01 0.01 0.02 0.03 0.04 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 time ( s ) amplitude -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 amplitude(dB) -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) -30 -25 -20 -15 -10 -5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 time ( s ) amplitude(dB) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

28 処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換 狭帯域包絡線間相関係数 : の最大値
b : 39バンド(28.9Hz~20749Hz) ヒルベルト変換して求めた包絡線 dB変換 :    の最大値 狭帯域包絡線間相関係数


Download ppt "狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討"

Similar presentations


Ads by Google