1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
松田博義，滝口哲也，有木康雄(神戸大) 音声特徴目的 3次キュムラントのバイスペクトラムキュムラント 3次キュムラントの拡張音声３次キュムラントをフレーム間での相関をとるように拡張．　-K, lは現在処理しているフレームからの距離　ただし，-M ≦ k, l ≦ Mである．　-各フレームから,kを横軸, lを縦軸として，　下図のような2次元のデータが得られる．得られた３次キュムラントに対し，データ解析の為２次元離散フーリエ変換を行う． 2次元離散フーリエ変換されたものから，PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより，3次元キュムラントによる音声特徴とする． VAD キュムラント指標１次平均２次分散３次歪度４次尖度音声特徴抽出尤度比(信頼値)計算音声時間 l離れたフレーム k離れた現在処理している音声フレーム平滑化及び閾値処理音声区間非音声区間・実環境における問題点　　-目的音声に重畳する各種の　　　雑音による認識性能の劣化　　-音声区間のみを検出(VAD: 　　Voice Activity Detection)することが必要識別器複数クラスAdaBoost Real AdaBoost 道路 AdaBoost J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression: A Statistical View of Boosting” AdaBoostの学習を行う際、非音声を複数のクラスに分割　-非音声の分散が小さくなり、　より適切なモデルが得られる　ようになる学習データ音声 x | y=1 非音声 x | y=-1 音声データ道路 GMM 食堂 GMM 男声 GMM 女性 GMM 1 テストデータ xt 弱識別器弱識別器弱識別器弱識別器・・非音声データ -1 食堂 AdaBoost 強識別器実験条件学習データ　-非音声：CENSREC-1-Cより実験に使わなかった　データの非音声部分を切り出したもの(約20分)．　-音声：AURORA-2Jの学習用クリーン音声に上記の　非音声を重畳させたものを用いた(8440発話)．テストデータ　・CENSREC-1-Cより実環境データ　 -食堂(高SNR)、食堂(低SNR)、　道路(高SNR)、道路(低SNR)の4環境。　 -男性4名、女性5名。各話者9～10発話のデータ×４．比較対象・Energy-based VAD ・MFCC, GMM ・MFCC + Cumulant, AdaBoost -Cumulant 　・フレーム幅:64[ms]，シフト幅:1[ms]，　最大30フレーム遅延までを計算，32次元． -AdaBoost 　・M=1000 評価尺度 -性能評価はフレームベースで行ない，　FRR 　(False Rejection Rate)と，　FAR 　(False Acceptance Rate)を　用いる．実験結果考察食堂環境において大きな改善が見られる． -キュムラント特徴は，相関，ピッチ，波形の強さ等　を反映した特徴となっており，MFCCでは音声との　分離が困難な雑音(雑談等)でも分離することが可能．平均結果においてMFCC + Cumulant, AdaBoost の実験結果がGMMを上回った． -特徴量を統合することにより，MFCCのもつフレーム　内での情報，キュムラントの持つフレーム間での　情報を補完しあった． -GMMが学習においてすべてのデータを均等に　用いるのに比べ，AdaBoost は識別が難しい　データに対して重点的な学習を行なうため． -AdaBoost は音声・非音声の分離に特化した　識別器を構成する．　・音声・非音声の分離に必要な情報だけを見て，　　より正確な規則を構築している．道路環境での結果食堂環境での結果各環境での平均結果

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

Similar presentations

Presentation on theme: "1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

Similar presentations

Presentation on theme: "1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出"— Presentation transcript:

Similar presentations

About project

フィードバック