1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出 松田博義,滝口哲也,有木康雄(神戸大) 音声特徴 目的 3次キュムラントの バイスペクトラム キュムラント 3次キュムラントの拡張 音声 3次キュムラントをフレーム間での 相関をとるように拡張. -K, lは現在処理しているフレームからの距離 ただし,-M ≦ k, l ≦ Mである. -各フレームから,kを横軸, lを縦軸として, 下図のような2次元のデータが得られる. 得られた3次キュムラントに対し,データ解析の為2次元離散フーリエ変換を行う. 2次元離散フーリエ変換されたものから,PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより,3次元キュムラントによる音声特徴とする. VAD キュムラント 指標 1次 平均 2次 分散 3次 歪度 4次 尖度 音声特徴抽出 尤度比(信頼値)計算 音声 時間 l離れた フレーム k離れた 現在 処理している 音声フレーム 平滑化及び閾値処理 音声区間 非音声区間 ・実環境における問題点 -目的音声に重畳する各種の 雑音による認識性能の劣化 -音声区間のみを検出(VAD: Voice Activity Detection)することが必要 識別器 複数クラスAdaBoost Real AdaBoost 道路 AdaBoost J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression: A Statistical View of Boosting” AdaBoostの学習を行う際、 非音声を複数のクラスに分割 -非音声の分散が小さくなり、 より適切なモデルが得られる ようになる 学習データ 音声 x | y=1 非音声 x | y=-1 音声データ 道路 GMM 食堂 GMM 男声 GMM 女性 GMM 1 テストデータ xt 弱識別器 弱識別器 弱識別器 弱識別器 ・・ 非音声データ -1 食堂 AdaBoost 強識別器 実験条件 学習データ -非音声:CENSREC-1-Cより実験に使わなかった データの非音声部分を切り出したもの(約20分). -音声:AURORA-2Jの学習用クリーン音声に上記の 非音声を重畳させたものを用いた(8440発話). テストデータ ・CENSREC-1-Cより実環境データ -食堂(高SNR)、食堂(低SNR)、 道路(高SNR)、道路(低SNR)の4環境。 -男性4名、女性5名。各話者9~10発話のデータ×4. 比較対象 ・Energy-based VAD ・MFCC, GMM ・MFCC + Cumulant, AdaBoost -Cumulant ・フレーム幅:64[ms],シフト幅:1[ms], 最大30フレーム遅延までを計算,32次元. -AdaBoost ・M=1000 評価尺度 -性能評価はフレームベースで行ない, FRR (False Rejection Rate)と, FAR (False Acceptance Rate)を 用いる. 実験結果 考察 食堂環境において大きな改善が見られる. -キュムラント特徴は,相関,ピッチ,波形の強さ等 を反映した特徴となっており,MFCCでは音声との 分離が困難な雑音(雑談等)でも分離することが可能. 平均結果においてMFCC + Cumulant, AdaBoost の実験結果がGMMを上回った. -特徴量を統合することにより,MFCCのもつフレーム 内での情報,キュムラントの持つフレーム間での 情報を補完しあった. -GMMが学習においてすべてのデータを均等に 用いるのに比べ,AdaBoost は識別が難しい データに対して重点的な学習を行なうため. -AdaBoost は音声・非音声の分離に特化した 識別器を構成する. ・音声・非音声の分離に必要な情報だけを見て, より正確な規則を構築している. 道路環境での結果 食堂環境での結果 各環境での平均結果