ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究

Slides:



Advertisements
Similar presentations
應用日語 五十音(片假名)、 簡易單字、文法介紹. 清音 あAあA か KA さ SA た TA な NA は HA ま MA や YA ら RA わ WA んNんN いIいI き KI しSHIしSHI ち CHI に NI ひ HI み MI り RI うUうU く KU す SU つTSUつTSU.
Advertisements

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
日本人学習者による英語音声の 韻律に関する研究
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
「心」バリアフリー支援技術に関する研究 末廣一美(福島研究室・4年生)
復習.
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
英語の母音の長さを測定する(2).
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
卒業研究テーマ ユビキタスネットワーク社会における 情報受取メディア選択を可能とする 電子書籍に関する研究
情253 「ディジタルシステム設計 」 (2)modem2
発声のしくみ -声道の共鳴と音源の生成-.
クロストーク成分の相互相関に 着目した音場再生システム
デジタル信号処理①
PSOLA法を用いた極低ビットレート音声符号化に関する検討
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
音声処理ソフトPraatの使い方.
デジタル信号処理④
ガウス誤差関数を利用した 収束の速いヒルベルト変換ディジタルフィルタ
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
How to speak and write Japanese words with confidence
京大岡山 3.8m 望遠鏡 分割鏡制御に用いる アクチュエータの特性評価
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
第7回 フィルタとは.
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
パワーラボの使い方.
Thơ Hai-kư (俳句) của Nhật Bản
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
P4 通信システム P4.1 ディジタルフィルタの設計とその応用 P4.2 伝送線路のFDTD解析 P4.2 H4.1 P4.1 H4.1
第4回 信号表現とエリアシング.
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
28 PICマイコンを用いた能動騒音制御系の制御性能
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
あ 3画目を4分割 a.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
ディジタル信号処理 Digital Signal Processing
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
ユビキタス社会におけるバイオメトリクスを使用した生体認証技術に関する研究
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
母音[i]のF1, F2平均値の分析.
発話動作のしくみ.
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
                                                                   平成20年10月                       工学科   年生 学籍番号(          ) 氏名(                 ) □ フーリエ級数 □ フーリエ変換 □ SN比 □ 波長
音声情報とベイジアンネットを 用いた感性情報処理システム
音声合成.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
ソースフィルタモデル.
CSP係数の識別に基づく話者の 頭部方向の推定
Presentation transcript:

ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究 ー 狭帯域包絡線情報を用いた      個人性・伝送路特性の記述 - 末廣一美,山田雄大(福島研究室)

? 様々な違いから生まれるコミュニケーションのバリア 文化,言語,身体能力の 違いによる壁(バリア) メディア変換 手話 言語 A 手話 メディア:意図を伝える媒体 個人差・利用状況に合った 適応的なメディア変換 システムによる現状把握が必要

はメディアに依存しない →メディア間の相互変換が可能 ⇒情報源の持つ「特徴量」による「情報記述」 人の情報伝送路モデル 話者 聴取者 音声 3 ー 3 □ メディア間の相互変換  はメディアに依存しない  →メディア間の相互変換が可能   ⇒情報源の持つ「特徴量」による「情報記述」 1)情報の特徴量を抽出することは可能? 2)特徴量による「話者識別」「室種別類別」が可能?

帯域を制限 (少ない特徴量で識別) ↓ 正解率の変化を調べる 狭帯域包絡線情報を用いた話者識別 人の聴覚メカニズム ⇒ 「狭帯域包絡線」を特徴量 音声時間波形を狭帯域に分割して包絡線を求める time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 帯域を制限 (少ない特徴量で識別) ↓ 正解率の変化を調べる

重要帯域近傍調査:音響学会にて発表予定(3月) 全39帯域の正解率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14, 22-31 Used Band Number 88% 86% 81% fs 範囲 100% 25% 21% band数 100% 67% 49% 特徴量抽出,少ない特徴量でも識別可能 重要帯域近傍調査:音響学会にて発表予定(3月)

の類似度を調べる ↓ 狭帯域包絡線情報で 室種別の類別が可能か 狭帯域包絡線情報を用いた室種別の類別 人の聴覚メカニズムは対象によって変化しない 室のインパルス応答の狭帯域包絡線を求める 狭帯域分割 ケプストラム 包絡線   の類似度を調べる ↓ 狭帯域包絡線情報で 室種別の類別が可能か

同一室で異なる計測位置での の類似度 洋室1(W1) 洋室2(W2) 和室(J) 同一室では の類似度が高い W:洋室,J:和室 同一室で異なる計測位置での  の類似度 洋室1(W1) 洋室2(W2) 和室(J) 1 1 1 0.9 0.9 0.9 0.8 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.6 A X G g 0.5 W1_1 W1_2 W1_3 A 0.5 W2_1 W2_2 W2_3 A 0.5 J_1 J_2 J_3 A 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 J_1 J_2 J_3 X(Room type_Point Number) W:洋室,J:和室 同一室では  の類似度が高い

洋室1と和室の の類似度 : : A 種別の異なる室では類似度は低い X(Room Type_Point Number) 1 0.9 0.8 洋室1と和室の  の類似度 1 : 0.9 0.8 : 0.7 0.6 A X G g A 0.5 0.4 W1_1 W1_2 0.3 W1_3 0.2 J_1 J_2 0.1 J_3 W1_1 W1_2 W1_3 J_1 J_2 J_3 X(Room Type_Point Number) 種別の異なる室では類似度は低い

容積の異なる同一種別の室でも類似度は高い 容積の異なる洋室1と洋室2の  の類似度 1 : 0.9 0.8 0.7 0.6 A A X G g 0.5 W1_1 0.4 W1_2 0.3 W1_3 W2_1 0.2 W2_2 0.1 W2_3 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 X(Room Type_Point Number) 容積の異なる同一種別の室でも類似度は高い

まとめ 【目的】  適応的メディア制御に必要な  「システムによる個人性・利用状況の識別」 【手法】  狭帯域包絡線情報を特徴量とした  話者識別・室種別の類別 【結果】 ・狭帯域包絡線情報を特徴量として用いた    話者識別の有効性を再検証    室種別類別できる可能性を示唆 ・個人性調査により少ない特徴量で識別可能 特徴量抽出・特徴量による情報の識別は可能

人の情報伝送路モデル 聴取者 話者 音声 3 3 言語野 レベル 物理変換 レベル 音響事象 レベル 物理変換 レベル 言語野 レベル ー 3 □ 言語野 レベル 物理変換 レベル 音響事象 レベル 物理変換 レベル 言語野 レベル 但し,  はAからBへの変換関数       は   の逆変換関数

人と人との情報伝達モデル

狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (ms) 200 400 600 800 1000 1200 1400 1600 1800 2000 -1 -0.5 0.5 1 amp.(dB) 200 400 600 800 1000 1200 1400 1600 1800 2000 -1 -0.5 0.5 1 amp.(dB) 200 400 600 800 1000 1200 1400 1600 1800 2000 -1 -0.5 0.5 1 time (ms)

処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換(-30dBで打ち切り) 狭帯域包絡線間相関係数 b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 狭帯域包絡線間相関係数

正解率=識別候補が本人となった回数/識別条件数 狭帯域包絡線間相関係数行列 帯域を制限 ↓ 正解率の 変化を調べる DB 識別対象 識別候補:   の最大値 正解率=識別候補が本人となった回数/識別条件数

登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない V:Vowel 母音 33 68 11    27 11    11 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced  摩擦音(有声) Sl:Stop voiceless  閉鎖音(無声) Sv:Stop voiced  閉鎖音(有声) Ca:Central      approximant        中央近接音 Q:Geminate      consonant             促音 -:Long vowel  長音 11 0 11 11 0 0 22 11 11 11 0 1 10  8      8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0   0 31 19 35 2 1 17  11 8 Vowel u 11 0 0 11   11 11 20 0      8 e 11 0   0 11 0 19 21 0 11 11 9 0  11   0   0 14 26 9 2 o V N’ n ny m my s sh h hy f z j k ky t ts p py ch g gy d dy b by ry y r w Q - N Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない

帯域増加と平均正解率 14 31 6 22 重要帯域:帯域番号6~14,22~31 C Stop band number 5 10 15 20 25 30 35 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Stop band number C 6 14 22 31 2 39 重要帯域:帯域番号6~14,22~31

帯域減少と平均正解率 6 14 22 31 重要帯域:帯域番号6~14,22~ C Starting band number 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 1 5 10 15 20 25 30 35 38 Starting band number 重要帯域:帯域番号6~14,22~

帯域増加と帯域減少の平均正解率 帯域を1帯域づつ増加 帯域を1帯域づつ減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31

第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30) 結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 1.4 第2フォルマント 周波数の 1091Hz~4000Hz (帯域番号22~30) /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)

結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 高い周波数範囲 低い周波数範囲(6~14) 前頭洞 約8cm3 上顎洞 低い周波数範囲(6~14) 蝶形骨洞 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 副鼻腔共振周波数・声帯音源基本周波数

データによるばらつきの検討 CA 識別語に共通性 Talker Band No. 88% 86% 83% + 1-39 × 6-31 □ 6-14   22-31 0.95 88% 86% 83% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 識別語に共通性

正解率が高い識別語(ネットサーフィン:上段) 0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 正解率が低い識別語(水戸黄門:下段) 「i」 「e」 「a」 鼻音の継続時間 母音の第2フォルマント 「o」

重要帯域近傍での平均正解率の変化 V-31 6-V 6-V,22-31 6-14, V-31 重要帯域を7-11,22-31に絞り込める 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 4 5 6 7 8 29 30 31 32 33 V(Band Number) V(Band Number) 6-V,22-31 6-14, V-31 90% 90% 85% 85% C C 80% 80% 75% 75% 70% 70% 10 11 12 13 14 15 16 18 19 20 21 22 23 24 V(Band Number) V(Band Number) 重要帯域を7-11,22-31に絞り込める

まとめ 声帯音源基本周波数 約100~300Hz 帯域番号6~14 第2フォルマント周波数・ 副鼻腔共振周波数  約1100Hz~5400Hz  帯域番号22~31 正解率のばらつき  鼻音の継続時間  母音の第2フォルマントに関連 周波数範囲で21%,帯域数で49%に制限

1/4オクターブバンドの中心周波数

1/4オクターブバンド狭帯域フィルタ 狭帯域フィルタ:FIRフィルタ 長さ:2048サンプル :44100Hz 3 4 -40 -35 -30 -25 -20 -15 -10 -5 Freq. (Hz) amplitude (dB) 周波数分解:21.5Hz フィルタ長:約46ms 音声の狭帯域包絡線を100msで区切る ⇒声帯音源波  約4周期が対象

話者を識別するシステムに用いた登録語・識別語 登録語 1)青い空 (aoisora) 2)映画鑑賞 (eigaka n‘shou) 3)石田一成 (ishida issei) 4)マイホーム計画 (mai ho-mu keikaku) 5)無人島探索 (muji n’tou tansaku) 1語/約1秒 1人/約5語 計55語(登録者全員共通) 識別語:登録語と異なる語 1)松坂大輔 (matsuzaka daisuke) 2)メール機能 (me-ru kinou) 3)目から鱗 (mekara uroko) 4)水戸黄門 (mito koumo n‘) 5)モーニング娘 (mo-ni n’gu musume) 6)中山きんにくん (nakayama kin‘niku n’) 7)ネットサーフィン (netto sa-fi n‘) 8)猫死んじゃった (neko shi n’jatta) 9)猫踏んじゃった (neko fu n‘jatta) 10)日本沈没 (niho n’ chi n‘botsu) 11)忍たま乱太郎 (ni n’tama ra n‘tarou) 12)ノストラダムス (nosutora damusu) 13)のんびり屋 (no n’biriya) 14)上田晋也 (ueda shi n‘ya) 1語/約1秒 1人/約8語 計82語(登録者により異なる)

帯域制限(6~14,22~31)時の識別語の正解率 netto sa-fi n' mo-ni n'gu nosutora damusu 100% netto sa-fi n' mo-ni n'gu nosutora damusu musume 90% mekara uroko neko fu n'jatta 80% nakayama kin'niku n' ueda shi n'ya neko shi n'jatta corrective judgement ratio 70% matsuzaka daisuke 60% mito koumo n' no n'biriya 50% 40% niho n' chi n'botsu 30% 1 2 3 4 5 6 7 8 9 10 11 number of subjective word

包絡線抽出手法 ヒルベルト包絡線 狭帯域分割した音声時間波形のスペクトル 片側スペクトルとなる の解析的信号表現 片側スペクトルとなる     の解析的信号表現 狭帯域分割した音声時間波形の包絡線 ヒルベルト包絡線