3次キュムラントのバイスペクトラムと PCAによる音声区間検出 松田博義,滝口哲也,有木康雄(神戸大) 目的 3次キュムラントの拡張 3次キュムラントの バイスペクトラム キュムラント 音声 3次キュムラントをフレーム間での 相関をとるように拡張. -K, lは現在処理しているフレームからの距離 ただし,-M ≦ k, l ≦ Mである. -各フレームから,kを横軸, lを縦軸として, 下図のような2次元のデータが得られる. 得られた3次キュムラントに対し,データ解析の為2次元離散フーリエ変換を行う. 2次元離散フーリエ変換されたものから,PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより,3次元キュムラントによる音声特徴とする. VAD 音声特徴抽出 キュムラント 指標 1次 平均 2次 分散 3次 歪度 4次 尖度 尤度比(信頼値)計算 平滑化及び閾値処理 音声 時間 l離れた フレーム k離れた 現在 処理している 音声フレーム 音声区間 非音声区間 ・実環境における問題点 -目的音声に重畳する各種の 雑音による認識性能の劣化 -音声区間のみを検出(VAD: Voice Activity Detection)することが必要 3次キュムラントの Bispectrumによる音声特徴 ・キュムラント(累積数) -確率分布の形状を示す指標. -正規分布は3次以上のキュムラントは すべて0となっている. ・3次キュムラントによる音声特徴 -雑音は音声に比べると 乱数(ホワイトノイズ)に近い. -雑音の3次以上のキュムラントは0に 近くなる. 適用例 音声 雑音重畳音声 雑音 音声、雑音、雑音重畳音声に 対して3次キュムラントバイ スペクトラムを計算. -雑音重畳音声のSNはおよそ10dB. -雑音が抑圧され,音声が 強調されている. →音声強調の効果.
MFCCとの統合 尤度比判定 実験条件 PCA-最適な次元数の決定 実験結果-高速道路走行時 GMM-最適なストリーム重みの決定 キュムラント:フレーム間特徴 MFCC,キュムラントでストリームに分け, 実験により適切な重みを決定する. 補完しあっている. MFCC (n次元) キュムラント 特徴(m次元) 統合特徴(n+m次元) 音声 データ GMM 実験結果:高速道路走行時,SN比:0~10dB,平均6dB PCAにより圧縮した次元数 GMM-最適なストリーム重みの決定 尤度比判定 MFCCとキュムラントを統合する際の最適な ストリーム重みの決定. -MFCCは固定で,キュムラントに関する重みのみを 変更した. GMMより得られた尤度を用い,対数尤度比を計算. 前後の数フレームで平滑化を行い,閾値判定. L’(x)≧θ:音声 L’(x)<θ:非音声 θ:閾値 実験条件 学習データ -音声:雑音を重畳させた文章の発話データ. ASJより男性8名×150発話,女性8名×150発話. -非音声:一般道路走行時における車内雑音データ 5分弱. テストデータ -アイドリング時,高速道路走行時における 車内での発話データ.各データとも男性4名女性4名, 各話者100発話,計800発話. 比較対象 ・MFCC -フレーム幅:32[ms],シフト幅:8[ms] ,Δ無,16次元. -フレーム幅:32[ms],シフト幅:8[ms] ,Δ有,32次元. ・キュムラント -フレーム幅:32[ms],シフト幅:1[ms], 最大30フレーム遅延までを計算,8~64次元. ・初期統合による統合特徴 -キュムラント+MFCC(Δ無),48次元. -キュムラント+MFCC(Δ有),64次元. 考察及び今後の予定 キュムラント特徴に対するストリーム重み キュムラント単体では従来手法であるMFCCを 上回ることはできなかった. -キュムラント特徴は音声波形のガウス性の有無に よる音声,非音声の判定を行なっている. →波形に周期性が現れると,区間検出の際, 音声であると誤検出してしまう. キュムラントと,MFCCを統合することにより 結果は改善された. -キュムラントによるフレーム間での特徴,MFCCによる フレーム内での特徴が互いに補完しあったため. 今後の予定 -波形から計算している3次キュムラントをMFCCから 計算する. -検出された区間に対する認識実験. 実験結果-アイドリング時 実験結果:アイドリング時,SN比:15~25dB,平均18dB