ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究 ー 狭帯域包絡線情報を用いた 個人性・伝送路特性の記述 - 末廣一美,山田雄大(福島研究室)
? 様々な違いから生まれるコミュニケーションのバリア 文化,言語,身体能力の 違いによる壁(バリア) メディア変換 手話 言語 A 手話 メディア:意図を伝える媒体 個人差・利用状況に合った 適応的なメディア変換 システムによる現状把握が必要
はメディアに依存しない →メディア間の相互変換が可能 ⇒情報源の持つ「特徴量」による「情報記述」 人の情報伝送路モデル 話者 聴取者 音声 3 ー 3 □ メディア間の相互変換 はメディアに依存しない →メディア間の相互変換が可能 ⇒情報源の持つ「特徴量」による「情報記述」 1)情報の特徴量を抽出することは可能? 2)特徴量による「話者識別」「室種別類別」が可能?
帯域を制限 (少ない特徴量で識別) ↓ 正解率の変化を調べる 狭帯域包絡線情報を用いた話者識別 人の聴覚メカニズム ⇒ 「狭帯域包絡線」を特徴量 音声時間波形を狭帯域に分割して包絡線を求める time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 帯域を制限 (少ない特徴量で識別) ↓ 正解率の変化を調べる
重要帯域近傍調査:音響学会にて発表予定(3月) 全39帯域の正解率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14, 22-31 Used Band Number 88% 86% 81% fs 範囲 100% 25% 21% band数 100% 67% 49% 特徴量抽出,少ない特徴量でも識別可能 重要帯域近傍調査:音響学会にて発表予定(3月)
の類似度を調べる ↓ 狭帯域包絡線情報で 室種別の類別が可能か 狭帯域包絡線情報を用いた室種別の類別 人の聴覚メカニズムは対象によって変化しない 室のインパルス応答の狭帯域包絡線を求める 狭帯域分割 ケプストラム 包絡線 の類似度を調べる ↓ 狭帯域包絡線情報で 室種別の類別が可能か
同一室で異なる計測位置での の類似度 洋室1(W1) 洋室2(W2) 和室(J) 同一室では の類似度が高い W:洋室,J:和室 同一室で異なる計測位置での の類似度 洋室1(W1) 洋室2(W2) 和室(J) 1 1 1 0.9 0.9 0.9 0.8 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.6 A X G g 0.5 W1_1 W1_2 W1_3 A 0.5 W2_1 W2_2 W2_3 A 0.5 J_1 J_2 J_3 A 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 J_1 J_2 J_3 X(Room type_Point Number) W:洋室,J:和室 同一室では の類似度が高い
洋室1と和室の の類似度 : : A 種別の異なる室では類似度は低い X(Room Type_Point Number) 1 0.9 0.8 洋室1と和室の の類似度 1 : 0.9 0.8 : 0.7 0.6 A X G g A 0.5 0.4 W1_1 W1_2 0.3 W1_3 0.2 J_1 J_2 0.1 J_3 W1_1 W1_2 W1_3 J_1 J_2 J_3 X(Room Type_Point Number) 種別の異なる室では類似度は低い
容積の異なる同一種別の室でも類似度は高い 容積の異なる洋室1と洋室2の の類似度 1 : 0.9 0.8 0.7 0.6 A A X G g 0.5 W1_1 0.4 W1_2 0.3 W1_3 W2_1 0.2 W2_2 0.1 W2_3 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 X(Room Type_Point Number) 容積の異なる同一種別の室でも類似度は高い
まとめ 【目的】 適応的メディア制御に必要な 「システムによる個人性・利用状況の識別」 【手法】 狭帯域包絡線情報を特徴量とした 話者識別・室種別の類別 【結果】 ・狭帯域包絡線情報を特徴量として用いた 話者識別の有効性を再検証 室種別類別できる可能性を示唆 ・個人性調査により少ない特徴量で識別可能 特徴量抽出・特徴量による情報の識別は可能
人の情報伝送路モデル 聴取者 話者 音声 3 3 言語野 レベル 物理変換 レベル 音響事象 レベル 物理変換 レベル 言語野 レベル ー 3 □ 言語野 レベル 物理変換 レベル 音響事象 レベル 物理変換 レベル 言語野 レベル 但し, はAからBへの変換関数 は の逆変換関数
人と人との情報伝達モデル
狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (ms) 200 400 600 800 1000 1200 1400 1600 1800 2000 -1 -0.5 0.5 1 amp.(dB) 200 400 600 800 1000 1200 1400 1600 1800 2000 -1 -0.5 0.5 1 amp.(dB) 200 400 600 800 1000 1200 1400 1600 1800 2000 -1 -0.5 0.5 1 time (ms)
処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換(-30dBで打ち切り) 狭帯域包絡線間相関係数 b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 狭帯域包絡線間相関係数
正解率=識別候補が本人となった回数/識別条件数 狭帯域包絡線間相関係数行列 帯域を制限 ↓ 正解率の 変化を調べる DB 識別対象 識別候補: の最大値 正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない V:Vowel 母音 33 68 11 27 11 11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 8 Vowel u 11 0 0 11 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 11 9 0 11 0 0 14 26 9 2 o V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q - N Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない
帯域増加と平均正解率 14 31 6 22 重要帯域:帯域番号6~14,22~31 C Stop band number 5 10 15 20 25 30 35 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Stop band number C 6 14 22 31 2 39 重要帯域:帯域番号6~14,22~31
帯域減少と平均正解率 6 14 22 31 重要帯域:帯域番号6~14,22~ C Starting band number 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 1 5 10 15 20 25 30 35 38 Starting band number 重要帯域:帯域番号6~14,22~
帯域増加と帯域減少の平均正解率 帯域を1帯域づつ増加 帯域を1帯域づつ減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31
第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30) 結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 1.4 第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30) /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)
結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 高い周波数範囲 低い周波数範囲(6~14) 前頭洞 約8cm3 上顎洞 低い周波数範囲(6~14) 蝶形骨洞 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 副鼻腔共振周波数・声帯音源基本周波数
データによるばらつきの検討 CA 識別語に共通性 Talker Band No. 88% 86% 83% + 1-39 × 6-31 □ 6-14 22-31 0.95 88% 86% 83% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 識別語に共通性
正解率が高い識別語(ネットサーフィン:上段) 0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 正解率が低い識別語(水戸黄門:下段) 「i」 「e」 「a」 鼻音の継続時間 母音の第2フォルマント 「o」
重要帯域近傍での平均正解率の変化 V-31 6-V 6-V,22-31 6-14, V-31 重要帯域を7-11,22-31に絞り込める 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 4 5 6 7 8 29 30 31 32 33 V(Band Number) V(Band Number) 6-V,22-31 6-14, V-31 90% 90% 85% 85% C C 80% 80% 75% 75% 70% 70% 10 11 12 13 14 15 16 18 19 20 21 22 23 24 V(Band Number) V(Band Number) 重要帯域を7-11,22-31に絞り込める
まとめ 声帯音源基本周波数 約100~300Hz 帯域番号6~14 第2フォルマント周波数・ 副鼻腔共振周波数 約1100Hz~5400Hz 帯域番号22~31 正解率のばらつき 鼻音の継続時間 母音の第2フォルマントに関連 周波数範囲で21%,帯域数で49%に制限
1/4オクターブバンドの中心周波数
1/4オクターブバンド狭帯域フィルタ 狭帯域フィルタ:FIRフィルタ 長さ:2048サンプル :44100Hz 3 4 -40 -35 -30 -25 -20 -15 -10 -5 Freq. (Hz) amplitude (dB) 周波数分解:21.5Hz フィルタ長:約46ms 音声の狭帯域包絡線を100msで区切る ⇒声帯音源波 約4周期が対象
話者を識別するシステムに用いた登録語・識別語 登録語 1)青い空 (aoisora) 2)映画鑑賞 (eigaka n‘shou) 3)石田一成 (ishida issei) 4)マイホーム計画 (mai ho-mu keikaku) 5)無人島探索 (muji n’tou tansaku) 1語/約1秒 1人/約5語 計55語(登録者全員共通) 識別語:登録語と異なる語 1)松坂大輔 (matsuzaka daisuke) 2)メール機能 (me-ru kinou) 3)目から鱗 (mekara uroko) 4)水戸黄門 (mito koumo n‘) 5)モーニング娘 (mo-ni n’gu musume) 6)中山きんにくん (nakayama kin‘niku n’) 7)ネットサーフィン (netto sa-fi n‘) 8)猫死んじゃった (neko shi n’jatta) 9)猫踏んじゃった (neko fu n‘jatta) 10)日本沈没 (niho n’ chi n‘botsu) 11)忍たま乱太郎 (ni n’tama ra n‘tarou) 12)ノストラダムス (nosutora damusu) 13)のんびり屋 (no n’biriya) 14)上田晋也 (ueda shi n‘ya) 1語/約1秒 1人/約8語 計82語(登録者により異なる)
帯域制限(6~14,22~31)時の識別語の正解率 netto sa-fi n' mo-ni n'gu nosutora damusu 100% netto sa-fi n' mo-ni n'gu nosutora damusu musume 90% mekara uroko neko fu n'jatta 80% nakayama kin'niku n' ueda shi n'ya neko shi n'jatta corrective judgement ratio 70% matsuzaka daisuke 60% mito koumo n' no n'biriya 50% 40% niho n' chi n'botsu 30% 1 2 3 4 5 6 7 8 9 10 11 number of subjective word
包絡線抽出手法 ヒルベルト包絡線 狭帯域分割した音声時間波形のスペクトル 片側スペクトルとなる の解析的信号表現 片側スペクトルとなる の解析的信号表現 狭帯域分割した音声時間波形の包絡線 ヒルベルト包絡線