Presentation is loading. Please wait.

Presentation is loading. Please wait.

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

Similar presentations


Presentation on theme: "1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出"— Presentation transcript:

1 1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
松田博義,滝口哲也,有木康雄(神戸大) 音声特徴 目的 3次キュムラントの バイスペクトラム キュムラント 3次キュムラントの拡張 音声 3次キュムラントをフレーム間での 相関をとるように拡張.  -K, lは現在処理しているフレームからの距離   ただし,-M ≦ k, l ≦ Mである.  -各フレームから,kを横軸, lを縦軸として,   下図のような2次元のデータが得られる. 得られた3次キュムラントに対し,データ解析の為2次元離散フーリエ変換を行う. 2次元離散フーリエ変換されたものから,PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより,3次元キュムラントによる音声特徴とする. VAD キュムラント 指標 1次 平均 2次 分散 3次 歪度 4次 尖度 音声特徴抽出 尤度比(信頼値)計算 音声 時間 l離れた フレーム k離れた 現在 処理している 音声フレーム 平滑化及び閾値処理 音声区間 非音声区間 ・実環境における問題点   -目的音声に重畳する各種の    雑音による認識性能の劣化   -音声区間のみを検出(VAD:   Voice Activity Detection)することが必要 識別器 複数クラスAdaBoost Real AdaBoost 道路 AdaBoost J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression: A Statistical View of Boosting” AdaBoostの学習を行う際、 非音声を複数のクラスに分割  -非音声の分散が小さくなり、  より適切なモデルが得られる   ようになる 学習データ 音声 x | y=1 非音声 x | y=-1 音声データ 道路 GMM 食堂 GMM 男声 GMM 女性 GMM 1 テストデータ xt 弱識別器 弱識別器 弱識別器 弱識別器 ・・ 非音声データ -1 食堂 AdaBoost 強識別器 実験条件 学習データ  -非音声:CENSREC-1-Cより実験に使わなかった   データの非音声部分を切り出したもの(約20分).  -音声:AURORA-2Jの学習用クリーン音声に上記の   非音声を重畳させたものを用いた(8440発話). テストデータ  ・CENSREC-1-Cより実環境データ   -食堂(高SNR)、食堂(低SNR)、   道路(高SNR)、道路(低SNR)の4環境。   -男性4名、女性5名。各話者9~10発話のデータ×4. 比較対象 ・Energy-based VAD ・MFCC, GMM ・MFCC + Cumulant, AdaBoost -Cumulant   ・フレーム幅:64[ms],シフト幅:1[ms],   最大30フレーム遅延までを計算,32次元. -AdaBoost   ・M=1000 評価尺度 -性能評価はフレームベースで行ない,  FRR  (False Rejection Rate)と,  FAR  (False Acceptance Rate)を  用いる. 実験結果 考察 食堂環境において大きな改善が見られる. -キュムラント特徴は,相関,ピッチ,波形の強さ等  を反映した特徴となっており,MFCCでは音声との  分離が困難な雑音(雑談等)でも分離することが可能. 平均結果においてMFCC + Cumulant, AdaBoost の実験結果がGMMを上回った. -特徴量を統合することにより,MFCCのもつフレーム  内での情報,キュムラントの持つフレーム間での  情報を補完しあった. -GMMが学習においてすべてのデータを均等に  用いるのに比べ,AdaBoost は識別が難しい  データに対して重点的な学習を行なうため. -AdaBoost は音声・非音声の分離に特化した  識別器を構成する.  ・音声・非音声の分離に必要な情報だけを見て,   より正確な規則を構築している. 道路環境での結果 食堂環境での結果 各環境での平均結果


Download ppt "1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出"

Similar presentations


Ads by Google