狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
time (ms) amp.(dB) 狭帯域包絡線間相関を用いた話者識別
1/4 Oct. 分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB 変換 : の最 大値 狭帯域包絡線間相関係数 処理の流れ b : 39 バンド( 28.9Hz ~ 20749Hz )
狭帯域包絡線間相関係数行列 識別候補: の最 大値 帯域を制限 → 正解率の変化を調べ る 正解率=識別候補が本人となった回数 / 識別条件数
Consonant 登録語と識別語の音素分 布 V : Vowel 母音 N : Nasal 鼻音 Fl : Fricative voiceless 摩擦音(無声) Fv : Fricative voiced 摩擦音(有声) Sl : Stop voiceless 閉鎖音(無声) Sv : Stop voiced 閉鎖音(有声) Ca : Central approximant 中央近 接音 Q : Geminate consonant 促音 -: Long vowel 長 音 +:登録語(個数は上段の数) × :識別語(個数は下段の数) N Fl Fv Sl Sv Ca V N’N’ nnymmysshhhy f zjkkyttsppych ggy ddybbyryyrwQ - o e u i a Vowel 分布に偏りがな い
帯域増加と平均正解率 Last band number C 重要帯域:帯域番号6~14,22~31
帯域減少と平均正解率 first band number C 重要帯域:帯域番号6~14,22~31
平均正解率 fs 範囲 band 数 % band number fs 範囲 100%25%21% band 数 100%67%49% 全 39 帯域を使用した正解率の比 較 88% 86% 83%
1.4 The first formant F(kHz) The second formant F(kHz) /e/ /i/ /u/ /o/ /a/ 第 2 フォルマント 周波数 1091Hz ~ 4000Hz ( 帯域番号 22 ~ 30) 調査結果の検討(高い周波数範囲の検討) 帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )
前頭洞 約 8cm 3 上顎洞 蝶形骨洞 副鼻腔共振周波数 3103 ~ 5398Hz ( 帯域番号 28 ~ 31) 声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz ( 帯域番号 6 ~ 14) 調査結果の検討(高い周波数範囲の検討) 帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz ) 副鼻腔共振周波数・声帯音源基本周波 数
AllAEKMNSASBSCTATBY Talker All Band No. + 1-39 × 6-31 □ CACA データによるばらつきの検討 識別語に共通性 88% 86% 83%
amplitude (dB) amplitude (dB) time ( s ) nen' mimon' 正解率が高い識別語 ( ネットサーフィン:上段 ) 正解率が低い識別語 ( 水戸黄門:下段 ) 鼻音の継続時間 ms tosafi toko ms
声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz 帯域番号 6 ~ 14 → 声帯音源 第 2 フォルマント周波数 1091Hz ~ 4000Hz 帯域番号 22 ~ 30 → 第 2 フォルマント 副鼻腔共振周波数 前頭洞: 3103 ~ 5398Hz 帯域番号 28 ~ 31 → 副鼻腔形状 正解率のばらつきは継続時間に関 連 まとめ
1/4 オクターブバンドの中心周波数
1/4 オクターブバンド狭帯域フィルタ Freq. (Hz) amplitude (dB) 周波数分解: 21.5Hz フィルタ長:約 46ms 音声の狭帯域包絡 線を 100ms で区切 る ⇒声帯音源波 約 4 周期が対象 狭帯域フィルタ: FIR フィルタ 長さ: 2048 サンプル : 44100Hz
登録語 1 )青い空( aoisora ) 2 )映画鑑賞( eigaka n‘shou ) 3 )石田一成( ishida issei ) 4 )マイホーム計画( mai ho-mu keikaku ) 5 )無人島探索( muji n’tou tansaku ) 1 語 / 約 1 秒 1 人 / 約 5 語 計 55 語(登録者全員共通) 識別語:登録語と異なる語 1 )松坂大輔( matsuzaka daisuke ) 2 )メール機能( me-ru kinou ) 3 )目から鱗( mekara uroko ) 4 )水戸黄門( mito koumo n‘ ) 5 )モーニング娘( mo-ni n’gu musume ) 6 )中山きんにくん( nakayama kin‘niku n’ ) 7 )ネットサーフィン( netto sa-fi n‘ ) 8 )猫死んじゃった( neko shi n’jatta ) 9 )猫踏んじゃった( neko fu n‘jatta ) 10 )日本沈没( niho n’ chi n‘botsu ) 11 )忍たま乱太郎( ni n’tama ra n‘tarou ) 12 )ノストラダムス( nosutora damusu ) 13 )のんびり屋( no n’biriya ) 14 )上田晋也( ueda shi n‘ya ) 1 語 / 約 1 秒 1 人 / 約 8 語 計 82 語(登録者により異なる) 話者を識別するシステムに用いた登録語・識別 語
約2%約2% 約5%約5% 全 39 帯域を使用した正解率の比 較 88%86% 83% C band number
データによるばらつきの検討 識別語に共通性 Talker
The first formant F(kHz) The second formant F(kHz) /e/ /i/ /u/ /o/ /a/
正解率が低い識別語 ( 水戸黄門:下段 ) 鼻音の継続時間
登録語と識別語の音素分 布 V : Vowel 母音 N : Nasal 鼻音 Fl : Fricative voiceless 摩擦音(無声) Fv : Fricative voiced 摩擦音(有声) Sl : Stop voiceless 閉鎖音(無声) Sv : Stop voiced 閉鎖音(有声) Ca : Central approximant 中央近 接音 Q : Geminate consonant 促音 -: Long vowel 長 音 +:登録語(個数は上段の数) × :識別語(個数は下段の数) Consonant Vowel