狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討

Slides:



Advertisements
Similar presentations
應用日語 五十音(片假名)、 簡易單字、文法介紹. 清音 あAあA か KA さ SA た TA な NA は HA ま MA や YA ら RA わ WA んNんN いIいI き KI しSHIしSHI ち CHI に NI ひ HI み MI り RI うUうU く KU す SU つTSUつTSU.
Advertisements

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
無線干渉実験 慶應義塾大学大学院 政策・メディア研究科 金田 裕剛.
「心」バリアフリー支援技術に関する研究 末廣一美(福島研究室・4年生)
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
英語の母音の長さを測定する(2).
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
発声のしくみ -声道の共鳴と音源の生成-.
デジタル信号処理①
雑音重み推定と音声 GMMを用いた雑音除去
PSOLA法を用いた極低ビットレート音声符号化に関する検討
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
無線LANにおけるスループット低下の要因の分析
音声処理ソフトPraatの使い方.
デジタル信号処理④
ガウス誤差関数を利用した 収束の速いヒルベルト変換ディジタルフィルタ
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
電子回路Ⅰ 第11回(2009/1/19) 電力増幅.
第3回: 今日の目標 平均情報量を説明し、計算できる シャノンの通信モデルを説明できる 情報源符号化の条件を示せる
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
計測工学 ブリッジ・フィルタ・ノイズ・AD変換
第7回 フィルタとは.
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
P4 通信システム P4.1 ディジタルフィルタの設計とその応用 P4.2 伝送線路のFDTD解析 P4.2 H4.1 P4.1 H4.1
第4回 信号表現とエリアシング.
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
大阪電気通信大学 工学部 電子機械工学科 入部正継
音高による音色変化に着目した音源同定に関する研究
あ 3画目を4分割 a.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
母音継続時間を計測する.
ユビキタス社会におけるバイオメトリクスを使用した生体認証技術に関する研究
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
母音[i]のF1, F2平均値の分析.
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
電子回路Ⅰ 第10回(2008/1/7) 電力増幅.
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
BPSK,CDMA後の波形 直交符号 通信ネットワーク特論(スペクトル拡散).
国際情報通信研究科 山崎研究室 修士2年 荻野 晃史
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1.85m電波望遠鏡 230GHz帯超伝導(SIS) 受信機の現況
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
タンク内圧力の変動を考慮した コンプレッサーの能動騒音制御
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
ソースフィルタモデル.
卒業内容説明 ~テーマ~ ユビキタスネットワーク社会における 情報受取メディア選択を可能とする 電子書籍に関する研究
(Articulatory Speech Synthesis)
CSP係数の識別に基づく話者の 頭部方向の推定
ロコモ認知度の都道府県別調査 2018年7月1日から1週間 インターネット調査 年代:3区分(20~39歳、40~59歳、60~79歳)
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
【LiqAFM】溶媒を変えたときの粘弾性解析の比較
Presentation transcript:

狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討 末廣一美,小橋川美共(日本文理大学),西村一行(千葉工業大学), 福島学,岡本壽夫, 黒岩和治(日本文理大学) , 柳川博文(千葉工業大学)

狭帯域包絡線間相関を用いた話者識別 1/4 Oct.分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB変換(-30dBで打ち切り) b : 39バンド 28.9Hz~ 20749Hz time ( s ) -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) ヒルベルト変換して求めた包絡線 -0.04 -0.02 0.02 0.04 0.2 0.4 0.6 0.8 1 time ( s ) amplitude 0.04 0.02 -0.02 -0.04 0.2 0.4 0.6 0.8 1 time ( s ) dB変換(-30dBで打ち切り) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s )

狭帯域包絡線間相関を用いた話者識別 狭帯域包絡線間相関係数 100ms 1000ms(10回平均) time ( s ) -30 -20 -10 0.2 0.4 0.6 0.8 1 amplitude(dB) -10 -20 -30 0.2 0.4 0.6 0.8 1 time ( s ) 100ms 1000ms(10回平均) 狭帯域包絡線間相関係数

狭帯域包絡線間相関係数行列 全39帯域:28.9Hz~20749Hz DB 帯域を制限し重要帯域を調査 ・個人性がどこにあるのか ・計算コストの低下  ⇒正解率の変化を調べる DB 識別対象 識別候補:   の最大値

帯域増加と帯域減少の平均正解率 (範囲調査) 帯域を1帯域づつ増加 帯域を1帯域づつ減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31

Used Band Number(freq.(Hz)) 正解率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14, 22-31 (28-21k) (68-5.2k) (68-0.2k, 1.1k-5.2k) Used Band Number(freq.(Hz)) fs 範囲 100% 25% 21% band数 100% 67% 49% 88% 86% 81%

重要帯域範囲のロバスト性検討(結果の信頼性検討) 重要帯域近傍での平均正解率の変化 V-31 6-V 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 4 5 6 7 8 29 30 31 32 33 (48.6) (57.3) (68.1) (81) (96.3) (3.7k) (4.4k) (5.2k) (6.2k) (7.4k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) 6-V,22-31 6-14, V-31 90% 90% 85% 85% C 80% C 80% 75% 75% 70% 70% 10 11 12 13 14 15 16 18 19 20 21 22 23 24 (136) (162) (192) (229) (272) (324) (385) (0.5k) (0.6k) (0.8k) (0.9k) (1.1k) (1.3k) (1.5k) V(Band Number(freq.(Hz))) V(Band Number(freq.(Hz))) 概ね6-14,22-31で妥当 重要帯域を7-11,22-31に絞り込める

Used Band Number(freq.(Hz)) 全39帯域の正解率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14 22-31 7-11 22-31 (68-0.2k, 10k-5.2k) (81-162, 1.1k-5.2k) (28-21k) (68-5.2k) Used Band Number(freq.(Hz)) fs 範囲 100% 25% 21% 19% band数 100% 67% 49% 38% 88% 86% 81% 80%

個人性を多く含む帯域:6-14, 22-31 ⇒ 使用fs範囲:約4kHz(約1/5の情報量) まとめ 100 声帯音源基本周波数 男:100~150Hz(8-11) 女:250~300Hz(13-15) 第2フォルマント周波数 600~4kHz(19-30) 第1フォルマント周波数 200~1.4kHz(12-23) 副鼻腔共振周波数 3.1k~5.4kHz(28-31) 今回絞り込んだ範囲  7-11,22-31   ⇒発話者が男性 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 1-39 6-31 6-14 7-11 22-31 22-31 Used Band Number 個人性を多く含む帯域:6-14, 22-31  ⇒ 使用fs範囲:約4kHz(約1/5の情報量)

狭帯域包絡線間相関を用いた話者識別 1/4 Oct.に狭帯域分割した時間波形 ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数 b :全39帯域  (28.9~20749Hz)  :狭帯域通過フィルタ ヒルベルト変換して求めた包絡線 狭帯域包絡線間相関係数 :    をdB変換

第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30) 重要周波数範囲の検討(結果の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 第2フォルマント 周波数範囲が支配的 1091Hz~4000Hz (帯域番号22~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)

重要周波数範囲の検討(結果の検討) 帯域番号6~14,22~31(68Hz~5187Hz) 高い周波数範囲 低い周波数範囲 前頭洞 約8cm3 副鼻腔共振周波数 約3100Hz~5400Hz (帯域番号28~31) 上顎洞 蝶形骨洞 低い周波数範囲 声帯音源基本周波数 男性:約100Hz~150Hz 女性:約250Hz~300Hz (帯域番号6~14) 検討結果 →個人性は副鼻腔共振周波数・声帯音源基本周波数

発話語による正解率のばらつきの検討 (結果の信頼性検討) 1 0.95 Band No. + 1-39 × 6-31 □ 6-14   22-31 88% 86% 81% 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All A E K M N SA SB SC TA TB Y Talker 正解率は「識別語」に依存

「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント 正解率が高い識別語(ネットサーフィン) 平均時間(s) ne 0.2 0.4 0.6 0.8 1 -15 -10 -5 amplitude (dB) ne n' to s a fi 平均時間(s) ne 0.132 n’ 0.109 time( ) s 正解率が低い識別語(水戸黄門) mi to ko mo n' 平均時間(s) mi 0.096 mo 0.095 n’ 0.072 -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time( ) s 「i」 「e」 「a」 「o」 鼻音の継続時間 母音の第2フォルマント