Download presentation
Presentation is loading. Please wait.
1
ランダムプロジェクションを用いた音響モデルの線形変換
(22) ◎吉井 麻里子,滝口 哲也,有木 康雄(神戸大), 研究の背景・目的 ■さまざまな環境下において頑健な音声特徴量抽出手法 ■ランダムプロジェクション:高次元空間における任意の2点間のユークリッド距離が,射影先の低次元空間においてもほぼ保存される,という性質を持つ空間写像の手法 → 音声特徴量抽出に用いることで、音声認識の向上を目指す → RMにより認識率にばらつき ■ランダムプロジェクション特徴量の統合 → ROVERを用いた音声特徴量統合 ■音響モデルに対してランダムプロジェクションを行うことで、モデル学習コストを削減 ランダムプロジェクション ランダム写像行列 R 1. 標準正規分布N(0,1)に従う n×k の行列Rを作成 2. グラムシュミットの直交化手法を用いてRを直交化し、 列ベクトルを大きさ1で正規化 ■N 次元ユークリッド空間からd 次元ユークリッド空間へランダムに写像する空間写像の手法 ■ランダムプロジェクションは,元の空間上における任意の2点間のユークリッド距離が変換後も高い確率で保存されるという性質を持つ : reduced-dimensional vector, : original-dimensional vector, : random matrix, 音声特徴量 (1) MFCC(12dim.) -> RP(12dim.) (2) MFCC+⊿+⊿⊿(36dim.) -> RP(36dim.) (3) MFCC(12dim.) -> Segment(11frame, 132dim.) -> RP(36dim.) (4) Gavor(60dim.) -> RP(36dim.) (5) Gavor+⊿+⊿⊿(180dim.) -> RP(36dim.) , ランダム写像関数 , の任意の2点 RPによる音響モデル変換と特徴量変換 実験条件 自動車内音声認識の評価用データベースCENSREC-3 (Corpus and Environments for Noisy Speech RECognition)・Condition4を使用(16kHz・16bit・Monaural) ■学習データ:アイドリング走行時3608音声 ■評価データ:低速・高速走行時8836音声 □評価データ音声は50単語、学習データ音声は音素バランス文を使用 □単語音声の認識は音素HMMにより行う。それぞれ5状態32混合の分布 □得られた特徴量はあらかじめ平均0・分散1に正規化しておく ■ROVERを用いた音響モデルの線形変換による特徴量統合 Test data Speech feature Random matrix 1 Random matrix 1 Recog. Test data Speech feature Random matrix 2 Random matrix 2 Recog. Speech feature HMM ROVER module Best Result ・・・ ・・・ Training data Test data Speech feature Random matrix N Random matrix N Recog. 実験と考察 ■特徴量に対してランダムプロジェクションを行いHMMを学習 ■学習されたHMMに対してランダムプロジェクションを行いRP特徴量で認識 ■音声特徴量に対してRPを行うことで従来より高い音声認識率が得られた ■ROVERによる統合を行うことで安定して高い認識率が得られた ■学習されたHMMに対してRPを行い学習コストを抑えた場合も、音声特徴量に対してRPを行ったときと同様に効果が確認できた □高次元特徴から作成されたHMMは学習が十分でないため、セグメント特徴量132次元やGAVOR+Δ+ΔΔ特徴量180次元の場合は認識率が低下 →HMMの線形変換後に再学習を行うことで対応可能と考えられる ■今後の予定 ○RPによる特徴量空間の変化に対する考察 ○音声認識に適したランダム写像行列の選 択・生成 (1) (2) (3) (4) (5) (6)
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.