狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討

Slides:



Advertisements
Similar presentations
情報通信システム( 2 ) 年 4 月 26 日 火曜日 午後 4 時 10 分~ 5 時 40 分 NTT-IT Corp. 加藤 洋一.
Advertisements

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
音声特徴比較システムの開発 Development of Voice Feature Comparison System.
日本人学習者による英語音声の 韻律に関する研究
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
「心」バリアフリー支援技術に関する研究 末廣一美(福島研究室・4年生)
情報通信システム(3) plala. or 情報通信システム(3) 年5月10日 火曜日  午後4時10分~5時40分 NTT-IT Corp. 加藤 洋一.
復習.
本日の内容(10/30) (以下、前回資料と重複あり) 音響データの分析 音楽的な性質(調・調性、拍節構造) 音楽情報科学について(導入)
動機 目的 音声特徴比較システムの開発 結果を考察 サンプルデータ の収集及び統計 班員全員が音楽好き 歌の上手さを科学的に理解
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
英語の母音の長さを測定する(2).
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
発声のしくみ -声道の共鳴と音源の生成-.
デジタル信号処理①
雑音重み推定と音声 GMMを用いた雑音除去
PSOLA法を用いた極低ビットレート音声符号化に関する検討
文字から声をつくる仕組み.
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
デジタル信号処理④
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
How to speak and write Japanese words with confidence
第3回: 今日の目標 平均情報量を説明し、計算できる シャノンの通信モデルを説明できる 情報源符号化の条件を示せる
京大岡山 3.8m 望遠鏡 分割鏡制御に用いる アクチュエータの特性評価
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
第7回 フィルタとは.
音高による音色変化に着目した 音源同定手法
音のすがた pp
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
P4 通信システム P4.1 ディジタルフィルタの設計とその応用 P4.2 伝送線路のFDTD解析 P4.2 H4.1 P4.1 H4.1
第4回 信号表現とエリアシング.
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
一般財団法人 VCCI 協会 教育研修専門委員会
あ 3画目を4分割 a.
英語の母音の継続時間を測る Nov. 4, 2016.
英語の母音の長さを測る(1).
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
Basis vectors generation
母音継続時間を計測する.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
ユビキタス社会におけるバイオメトリクスを使用した生体認証技術に関する研究
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
母音[i]のF1, F2平均値の分析.
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
英語音声学(3) 子音の分類と発音.
音声合成.
各会話シーン毎に、発話(音源)方向を推定
正弦波.
BPSK,CDMA後の波形 直交符号 通信ネットワーク特論(スペクトル拡散).
アナログとデジタル.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
31 ループ管熱音響システムにおける管内圧力計測系の製作 機械創造工学課程 梅本康平 担当教員 小林泰秀 准教授
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
ソースフィルタモデル.
(Articulatory Speech Synthesis)
CSP係数の識別に基づく話者の 頭部方向の推定
Presentation transcript:

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )

狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (s) 1 0.5 -0.5 -1 20 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 -0.5 -1 20 40 60 80 100 120 time (s)

処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト包絡 dB変換 :-30dBで打切り :    の最大値 狭帯域包絡線間相関係数

狭帯域包絡線間相関行列 帯域を制限   → 正解率の変化を調べる 識別候補:   の最大値    正解率=識別候補が本人となった回数/識別条件数

登録語と識別語の音素分布 +:登録語(個数は上段の数) ×:識別語(個数は下段の数) V:Vowel 母音 N:Naal 鼻音 33 68 11    27 11    11 V:Vowel 母音 N:Naal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced  摩擦音(有声) Sl:Stop voiceless  閉鎖音(無声) Sv:Stop voiced  閉鎖音(有声) Ca:Central      approximant        中央近接音 Q:Geminate      consonant             促音 -:Long vowel  長音 11 0 11 11 0 0 22 11 11 11 0 1 10  8      8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0   0 31 19 35 2 1 17  11 Vowel 8 u 11 0 0 11   11 11 20 0      8 e 11 0   0 11 0 19 21 0 11 11 9 0  11   0   0 14 26 9 2 o V N’ N NY M MY S SH H HY F Z J K KY T TS P PY CH G GY D DY B BY RY Y R W Q - N Fl Fv Sl Sv Ca Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数)

帯域増加と平均正解率 14 31 6 22 帯域番号6~14,22~31 C Last band number 1 0.9 0.8 0.7 0.6 C 31 0.5 6 22 0.4 0.3 0.2 0.1 5 10 15 20 25 30 35 Last band number 帯域番号6~14,22~31

帯域減少と平均正解率 6 14 22 31 帯域番号6~14,22~31 C first band number 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 5 10 15 20 25 30 35 first band number 帯域番号6~14,22~31

全39帯域を使用した正解率の比較 約3% 約7% 88.3% 85.9% 82.5% C band number 1 0.95 0.9 0.85 0.8 88.3% 85.9% 82.5% 0.75 0.7 1-39 6-31 6-14 22-31 band number

第2フォルマント 周波数 600Hz~4000Hz (帯域番号18~30) 調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 The second formant F(kHz) 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 /a/ 1.5 第2フォルマント 周波数 600Hz~4000Hz (帯域番号18~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F(kHz)

調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 鼻腔概略図・声帯音源基本周波数 frontal sinus maxillary sinus sphenoidal sinus 声帯音源基本周波数 成人男性:100~150Hz 成人女性:250~300Hz (帯域番号6~14) 副鼻腔共振周波数 3103~5398Hz (帯域番号28~31) 鼻腔概略図・声帯音源基本周波数

データによるばらつきの検討 CA 識別語に共通性 Talker Band No. + 1-39 × 6-31 □ 6-14 22-31 1   22-31 0.95 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All All A E K M N SA SB SC TA TB Y Talker 識別語に共通性

正解率が高い識別語(ネットサーフィン:上段) ne n' -5 161ms 139ms amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 正解率が高い識別語(ネットサーフィン:上段) mo n' mi 95ms -5 amplitude (dB) -10 -15 0.2 0.4 0.6 0.8 1 time ( s ) 93ms 61ms 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間

まとめ 声帯音源基本周波数  成人男性:100~150Hz  成人女性:250~300Hz   帯域番号6~14 → 声帯音源 第2フォルマント周波数  600Hz~4000Hz 帯域番号18~30 → 第2フォルマント 副鼻腔共振周波数 前頭洞:3103~5398Hz   帯域番号28~31 → 副鼻腔形状 個人のばらつきは継続時間に関連

1/4オクターブバンドの中心周波数

1/4オクターブバンド狭帯域フィルタ 狭帯域フィルタ:FIRフィルタ 長さ:2048サンプル :44100Hz 3 4 -40 -35 -30 -25 -20 -15 -10 -5 Freq. (Hz) 周波数分解:21.5Hz フィルタ長:約46ms 音声の狭帯域包絡線を100msで区切る ⇒声帯音源波  約4周期が対象 Amplitude (dB)

 :b帯域の音声時間波形  :狭帯域フィルタ b  :帯域番号 n  :離散時刻に相当するサンプル番号 M :狭帯域フィルタの長さ

5 10 15 20 25 30 35 40 -0.4 -0.2 0.2 0.4 0.6 0.8 1

図8 鼻腔概略図 maxillary sinus frontal sinus sphenoidal sinus

狭帯域包絡線間相関係数 : x の分散 : X の平均 N :  の長さに相当するサンプル番号