Presentation is loading. Please wait.

Presentation is loading. Please wait.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

Similar presentations


Presentation on theme: "3次キュムラントのバイスペクトラムと PCAによる音声区間検出"— Presentation transcript:

1 3次キュムラントのバイスペクトラムと PCAによる音声区間検出
松田博義,滝口哲也,有木康雄(神戸大) 目的 3次キュムラントの拡張 3次キュムラントの バイスペクトラム キュムラント 音声 3次キュムラントをフレーム間での 相関をとるように拡張.  -K, lは現在処理しているフレームからの距離   ただし,-M ≦ k, l ≦ Mである.  -各フレームから,kを横軸, lを縦軸として,   下図のような2次元のデータが得られる. 得られた3次キュムラントに対し,データ解析の為2次元離散フーリエ変換を行う. 2次元離散フーリエ変換されたものから,PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより,3次元キュムラントによる音声特徴とする. VAD 音声特徴抽出 キュムラント 指標 1次 平均 2次 分散 3次 歪度 4次 尖度 尤度比(信頼値)計算 平滑化及び閾値処理 音声 時間 l離れた フレーム k離れた 現在 処理している 音声フレーム 音声区間 非音声区間 ・実環境における問題点   -目的音声に重畳する各種の    雑音による認識性能の劣化   -音声区間のみを検出(VAD:   Voice Activity Detection)することが必要 3次キュムラントの Bispectrumによる音声特徴 ・キュムラント(累積数)  -確率分布の形状を示す指標.  -正規分布は3次以上のキュムラントは   すべて0となっている. ・3次キュムラントによる音声特徴  -雑音は音声に比べると   乱数(ホワイトノイズ)に近い.  -雑音の3次以上のキュムラントは0に 近くなる. 適用例 音声 雑音重畳音声 雑音 音声、雑音、雑音重畳音声に 対して3次キュムラントバイ スペクトラムを計算.  -雑音重畳音声のSNはおよそ10dB.  -雑音が抑圧され,音声が   強調されている.   →音声強調の効果.

2 MFCCとの統合 尤度比判定 実験条件 PCA-最適な次元数の決定 実験結果-高速道路走行時 GMM-最適なストリーム重みの決定
 キュムラント:フレーム間特徴 MFCC,キュムラントでストリームに分け, 実験により適切な重みを決定する. 補完しあっている. MFCC (n次元) キュムラント 特徴(m次元) 統合特徴(n+m次元) 音声 データ GMM 実験結果:高速道路走行時,SN比:0~10dB,平均6dB PCAにより圧縮した次元数 GMM-最適なストリーム重みの決定 尤度比判定 MFCCとキュムラントを統合する際の最適な ストリーム重みの決定.  -MFCCは固定で,キュムラントに関する重みのみを  変更した. GMMより得られた尤度を用い,対数尤度比を計算. 前後の数フレームで平滑化を行い,閾値判定. L’(x)≧θ:音声 L’(x)<θ:非音声 θ:閾値 実験条件 学習データ  -音声:雑音を重畳させた文章の発話データ.   ASJより男性8名×150発話,女性8名×150発話.  -非音声:一般道路走行時における車内雑音データ   5分弱. テストデータ  -アイドリング時,高速道路走行時における   車内での発話データ.各データとも男性4名女性4名,   各話者100発話,計800発話. 比較対象 ・MFCC  -フレーム幅:32[ms],シフト幅:8[ms] ,Δ無,16次元.  -フレーム幅:32[ms],シフト幅:8[ms] ,Δ有,32次元. ・キュムラント  -フレーム幅:32[ms],シフト幅:1[ms],   最大30フレーム遅延までを計算,8~64次元. ・初期統合による統合特徴  -キュムラント+MFCC(Δ無),48次元.  -キュムラント+MFCC(Δ有),64次元. 考察及び今後の予定 キュムラント特徴に対するストリーム重み キュムラント単体では従来手法であるMFCCを 上回ることはできなかった.  -キュムラント特徴は音声波形のガウス性の有無に  よる音声,非音声の判定を行なっている.  →波形に周期性が現れると,区間検出の際,   音声であると誤検出してしまう. キュムラントと,MFCCを統合することにより 結果は改善された.  -キュムラントによるフレーム間での特徴,MFCCによる   フレーム内での特徴が互いに補完しあったため. 今後の予定  -波形から計算している3次キュムラントをMFCCから   計算する.  -検出された区間に対する認識実験. 実験結果-アイドリング時 実験結果:アイドリング時,SN比:15~25dB,平均18dB


Download ppt "3次キュムラントのバイスペクトラムと PCAによる音声区間検出"

Similar presentations


Ads by Google