Download presentation
Presentation is loading. Please wait.
Published byあやか あわたけ Modified 約 8 年前
1
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
2
20406080100120 -0.5 0 0.5 1 20406080100120 20406080100120 -0.5 0 0.5 1 -0.5 0 0.5 1 time (ms) amp.(dB) 狭帯域包絡線間相関を用いた話者識別
3
1/4 Oct. 分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB 変換 : の最 大値 狭帯域包絡線間相関係数 処理の流れ b : 39 バンド( 28.9Hz ~ 20749Hz )
4
狭帯域包絡線間相関係数行列 識別候補: の最 大値 帯域を制限 → 正解率の変化を調べ る 正解率=識別候補が本人となった回数 / 識別条件数
5
Consonant 登録語と識別語の音素分 布 V : Vowel 母音 N : Nasal 鼻音 Fl : Fricative voiceless 摩擦音(無声) Fv : Fricative voiced 摩擦音(有声) Sl : Stop voiceless 閉鎖音(無声) Sv : Stop voiced 閉鎖音(有声) Ca : Central approximant 中央近 接音 Q : Geminate consonant 促音 -: Long vowel 長 音 +:登録語(個数は上段の数) × :識別語(個数は下段の数) N Fl Fv Sl Sv Ca V N’N’ nnymmysshhhy f zjkkyttsppych ggy ddybbyryyrwQ - o e u i a Vowel 11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0 27 0 11 15 10 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 3 22 22 0 0 22 0 0 31 19 35 2 1 17 11 0808 11 0 0 11 11 11 20 0 8 11 0 0 11 0 19 21 0 11 0 11 9 0 11 0 0 14 26 9 2 33 68 11 27 11 分布に偏りがな い
6
帯域増加と平均正解率 5101520253035 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Last band number C 6 14 22 31 重要帯域:帯域番号6~14,22~31 0 2 39
7
帯域減少と平均正解率 5101520253035 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 first band number C 6 14 22 31 0 1 38 重要帯域:帯域番号6~14,22~31
8
0 10 20 30 40 50 60 70 80 90 100 1-396-316-14 22-31 平均正解率 fs 範囲 band 数 % band number fs 範囲 100%25%21% band 数 100%67%49% 全 39 帯域を使用した正解率の比 較 88% 86% 83%
9
1.4 The first formant F(kHz) The second formant F(kHz) 0.6 0.8 1.0 1.4 1.5 1.8 2.0 2.2 2.5 3.0 3.8 4.0 3.4 0.20.51.0 /e/ /i/ /u/ /o/ /a/ 第 2 フォルマント 周波数 1091Hz ~ 4000Hz ( 帯域番号 22 ~ 30) 調査結果の検討(高い周波数範囲の検討) 帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )
10
前頭洞 約 8cm 3 上顎洞 蝶形骨洞 副鼻腔共振周波数 3103 ~ 5398Hz ( 帯域番号 28 ~ 31) 声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz ( 帯域番号 6 ~ 14) 調査結果の検討(高い周波数範囲の検討) 帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz ) 副鼻腔共振周波数・声帯音源基本周波 数
11
0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 AllAEKMNSASBSCTATBY Talker All Band No. + 1-39 × 6-31 □ 6-14 22-31 CACA データによるばらつきの検討 識別語に共通性 88% 86% 83%
12
00.20.40.60.81 -15 -10 -5 0 amplitude (dB) 00.20.40.60.81 -15 -10 -5 0 amplitude (dB) time ( s ) nen' mimon' 161 139 95 93 61 正解率が高い識別語 ( ネットサーフィン:上段 ) 正解率が低い識別語 ( 水戸黄門:下段 ) 鼻音の継続時間 ms tosafi toko ms
13
声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz 帯域番号 6 ~ 14 → 声帯音源 第 2 フォルマント周波数 1091Hz ~ 4000Hz 帯域番号 22 ~ 30 → 第 2 フォルマント 副鼻腔共振周波数 前頭洞: 3103 ~ 5398Hz 帯域番号 28 ~ 31 → 副鼻腔形状 正解率のばらつきは継続時間に関 連 まとめ
15
1/4 オクターブバンドの中心周波数
16
1/4 オクターブバンド狭帯域フィルタ 10 2 3 4 -40 -35 -30 -25 -20 -15 -10 -5 0 Freq. (Hz) amplitude (dB) 周波数分解: 21.5Hz フィルタ長:約 46ms 音声の狭帯域包絡 線を 100ms で区切 る ⇒声帯音源波 約 4 周期が対象 狭帯域フィルタ: FIR フィルタ 長さ: 2048 サンプル : 44100Hz
17
登録語 1 )青い空( aoisora ) 2 )映画鑑賞( eigaka n‘shou ) 3 )石田一成( ishida issei ) 4 )マイホーム計画( mai ho-mu keikaku ) 5 )無人島探索( muji n’tou tansaku ) 1 語 / 約 1 秒 1 人 / 約 5 語 計 55 語(登録者全員共通) 識別語:登録語と異なる語 1 )松坂大輔( matsuzaka daisuke ) 2 )メール機能( me-ru kinou ) 3 )目から鱗( mekara uroko ) 4 )水戸黄門( mito koumo n‘ ) 5 )モーニング娘( mo-ni n’gu musume ) 6 )中山きんにくん( nakayama kin‘niku n’ ) 7 )ネットサーフィン( netto sa-fi n‘ ) 8 )猫死んじゃった( neko shi n’jatta ) 9 )猫踏んじゃった( neko fu n‘jatta ) 10 )日本沈没( niho n’ chi n‘botsu ) 11 )忍たま乱太郎( ni n’tama ra n‘tarou ) 12 )ノストラダムス( nosutora damusu ) 13 )のんびり屋( no n’biriya ) 14 )上田晋也( ueda shi n‘ya ) 1 語 / 約 1 秒 1 人 / 約 8 語 計 82 語(登録者により異なる) 話者を識別するシステムに用いた登録語・識別 語
19
約2%約2% 約5%約5% 0.7 0.75 0.8 0.85 0.9 0.95 1 1-396-316-14 22-31 全 39 帯域を使用した正解率の比 較 88%86% 83% C band number
20
データによるばらつきの検討 識別語に共通性 Talker
21
The first formant F(kHz) The second formant F(kHz) 0.6 0.8 1.0 1.4 1.5 1.8 2.0 2.2 2.5 3.0 3.8 4.0 3.4 0.20.51.0 /e/ /i/ /u/ /o/ /a/
22
正解率が低い識別語 ( 水戸黄門:下段 ) 鼻音の継続時間
23
登録語と識別語の音素分 布 V : Vowel 母音 N : Nasal 鼻音 Fl : Fricative voiceless 摩擦音(無声) Fv : Fricative voiced 摩擦音(有声) Sl : Stop voiceless 閉鎖音(無声) Sv : Stop voiced 閉鎖音(有声) Ca : Central approximant 中央近 接音 Q : Geminate consonant 促音 -: Long vowel 長 音 +:登録語(個数は上段の数) × :識別語(個数は下段の数) Consonant Vowel
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.