狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )

Slides:



Advertisements
Similar presentations
情報通信システム( 2 ) 年 4 月 26 日 火曜日 午後 4 時 10 分~ 5 時 40 分 NTT-IT Corp. 加藤 洋一.
Advertisements

音声特徴比較システムの開発 Development of Voice Feature Comparison System.
日本人学習者による英語音声の 韻律に関する研究
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
「心」バリアフリー支援技術に関する研究 末廣一美(福島研究室・4年生)
復習.
本日の内容(10/30) (以下、前回資料と重複あり) 音響データの分析 音楽的な性質(調・調性、拍節構造) 音楽情報科学について(導入)
動機 目的 音声特徴比較システムの開発 結果を考察 サンプルデータ の収集及び統計 班員全員が音楽好き 歌の上手さを科学的に理解
音声の個人性 発声器官のサイズの違いによるもの 口の大きさと声帯の大きさ 発話の仕方の違いによりもの アクセント 口の動かし方
24 両端単純支持梁に対する外乱抑制制御系の製作
英語の母音の長さを測定する(2).
発声のしくみ -声道の共鳴と音源の生成-.
VEP(視覚誘発電位) 刺激: 格子縞反転 チェックサイズ: 15’, 30’ 刺激頻度: 1 Hz 周波数帯域: 0.5~200 Hz
デジタル信号処理①
雑音重み推定と音声 GMMを用いた雑音除去
PSOLA法を用いた極低ビットレート音声符号化に関する検討
文字から声をつくる仕組み.
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
音声処理ソフトPraatの使い方.
デジタル信号処理④
TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号
京大岡山 3.8m 望遠鏡 分割鏡制御に用いる アクチュエータの特性評価
計測工学 ブリッジ・フィルタ・ノイズ・AD変換
第7回 フィルタとは.
音のすがた pp
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
パワーラボの使い方.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
第4回 信号表現とエリアシング.
横磁化成分と歳差運動 M0 横磁化Mxy 回転座標系 90°RFパルスにより、縦磁化成分Moはxy平面に倒れる(横磁化生成)
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
あ 3画目を4分割 a.
英語の母音の継続時間を測る Nov. 4, 2016.
英語の母音の長さを測る(1).
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
Basis vectors generation
母音継続時間を計測する.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
ユビキタス社会におけるバイオメトリクスを使用した生体認証技術に関する研究
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
母音[i]のF1, F2平均値の分析.
発話動作のしくみ.
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
音声のディジタル化 Copyright(C)2004 Tsutomu Ohara All rights reserved.
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
情報A 第15回授業 04情報のディジタル化 対応ファイル:12exp15.xls
英語音声学(3) 子音の分類と発音.
各会話シーン毎に、発話(音源)方向を推定
正弦波.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
音声のディジタル化 Copyright(C)2004 Tsutomu Ohara All rights reserved.
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討
狭帯域包絡線間相関を用いた 話者識別に有用な帯域の一検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究
ソースフィルタモデル.
(Articulatory Speech Synthesis)
CSP係数の識別に基づく話者の 頭部方向の推定
Presentation transcript:

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )

time (ms) amp.(dB) 狭帯域包絡線間相関を用いた話者識別

1/4 Oct. 分割した音声時間波形 ヒルベルト変換して求めた包絡線 dB 変換 : の最 大値 狭帯域包絡線間相関係数 処理の流れ b : 39 バンド( 28.9Hz ~ 20749Hz )

狭帯域包絡線間相関係数行列 識別候補: の最 大値 帯域を制限 → 正解率の変化を調べ る 正解率=識別候補が本人となった回数 / 識別条件数

Consonant 登録語と識別語の音素分 布 V : Vowel 母音 N : Nasal 鼻音 Fl : Fricative voiceless 摩擦音(無声) Fv : Fricative voiced 摩擦音(有声) Sl : Stop voiceless 閉鎖音(無声) Sv : Stop voiced 閉鎖音(有声) Ca : Central approximant 中央近 接音 Q : Geminate consonant 促音 -: Long vowel 長 音 +:登録語(個数は上段の数) × :識別語(個数は下段の数) N Fl Fv Sl Sv Ca V N’N’ nnymmysshhhy f zjkkyttsppych ggy ddybbyryyrwQ - o e u i a Vowel 分布に偏りがな い

帯域増加と平均正解率 Last band number C 重要帯域:帯域番号6~14,22~31

帯域減少と平均正解率 first band number C 重要帯域:帯域番号6~14,22~31

平均正解率 fs 範囲 band 数 % band number fs 範囲 100%25%21% band 数 100%67%49% 全 39 帯域を使用した正解率の比 較 88% 86% 83%

1.4 The first formant F(kHz) The second formant F(kHz) /e/ /i/ /u/ /o/ /a/ 第 2 フォルマント 周波数 1091Hz ~ 4000Hz ( 帯域番号 22 ~ 30) 調査結果の検討(高い周波数範囲の検討) 帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )

前頭洞 約 8cm 3 上顎洞 蝶形骨洞 副鼻腔共振周波数 3103 ~ 5398Hz ( 帯域番号 28 ~ 31) 声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz ( 帯域番号 6 ~ 14) 調査結果の検討(高い周波数範囲の検討) 帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz ) 副鼻腔共振周波数・声帯音源基本周波 数

AllAEKMNSASBSCTATBY Talker All Band No. + 1-39 × 6-31 □ CACA データによるばらつきの検討 識別語に共通性 88% 86% 83%

amplitude (dB) amplitude (dB) time ( s ) nen' mimon' 正解率が高い識別語 ( ネットサーフィン:上段 ) 正解率が低い識別語 ( 水戸黄門:下段 ) 鼻音の継続時間 ms tosafi toko ms

声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz 帯域番号 6 ~ 14 → 声帯音源 第 2 フォルマント周波数 1091Hz ~ 4000Hz 帯域番号 22 ~ 30 → 第 2 フォルマント 副鼻腔共振周波数 前頭洞: 3103 ~ 5398Hz 帯域番号 28 ~ 31 → 副鼻腔形状 正解率のばらつきは継続時間に関 連 まとめ

1/4 オクターブバンドの中心周波数

1/4 オクターブバンド狭帯域フィルタ Freq. (Hz) amplitude (dB) 周波数分解: 21.5Hz フィルタ長:約 46ms 音声の狭帯域包絡 線を 100ms で区切 る ⇒声帯音源波 約 4 周期が対象 狭帯域フィルタ: FIR フィルタ 長さ: 2048 サンプル : 44100Hz

登録語 1 )青い空( aoisora ) 2 )映画鑑賞( eigaka n‘shou ) 3 )石田一成( ishida issei ) 4 )マイホーム計画( mai ho-mu keikaku ) 5 )無人島探索( muji n’tou tansaku ) 1 語 / 約 1 秒 1 人 / 約 5 語 計 55 語(登録者全員共通) 識別語:登録語と異なる語 1 )松坂大輔( matsuzaka daisuke ) 2 )メール機能( me-ru kinou ) 3 )目から鱗( mekara uroko ) 4 )水戸黄門( mito koumo n‘ ) 5 )モーニング娘( mo-ni n’gu musume ) 6 )中山きんにくん( nakayama kin‘niku n’ ) 7 )ネットサーフィン( netto sa-fi n‘ ) 8 )猫死んじゃった( neko shi n’jatta ) 9 )猫踏んじゃった( neko fu n‘jatta ) 10 )日本沈没( niho n’ chi n‘botsu ) 11 )忍たま乱太郎( ni n’tama ra n‘tarou ) 12 )ノストラダムス( nosutora damusu ) 13 )のんびり屋( no n’biriya ) 14 )上田晋也( ueda shi n‘ya ) 1 語 / 約 1 秒 1 人 / 約 8 語 計 82 語(登録者により異なる) 話者を識別するシステムに用いた登録語・識別 語

約2%約2% 約5%約5% 全 39 帯域を使用した正解率の比 較 88%86% 83% C band number

データによるばらつきの検討 識別語に共通性 Talker

The first formant F(kHz) The second formant F(kHz) /e/ /i/ /u/ /o/ /a/

正解率が低い識別語 ( 水戸黄門:下段 ) 鼻音の継続時間

登録語と識別語の音素分 布 V : Vowel 母音 N : Nasal 鼻音 Fl : Fricative voiceless 摩擦音(無声) Fv : Fricative voiced 摩擦音(有声) Sl : Stop voiceless 閉鎖音(無声) Sv : Stop voiced 閉鎖音(有声) Ca : Central approximant 中央近 接音 Q : Geminate consonant 促音 -: Long vowel 長 音 +:登録語(個数は上段の数) × :識別語(個数は下段の数) Consonant Vowel