Download presentation
Presentation is loading. Please wait.
1
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
朴 玄信, 滝口 哲也, 有木 康雄 (神戸大) 研究背景・目的・アプローチ ICAによる音素部分空間の統合 音声認識システムの実用化には、実環境に頑健である必要 実環境に頑健な音声認識システムのための特徴量抽出 アプローチ (データ依存特徴量抽出) 主成分分析(PCA)により、観測信号から音素情報だけを抽出 独立成分分析(ICA)により、互いに独立で、音素間の関係を表わす成分を抽出 音素部分空間とは、各音素データに対してPCAを行うことで得られる、射影行列(基底ベクトル集合) /a/ /i/ /o/ /u/ 観測空間 O Φ/a/ Φ/i/ Φ/u/ Φ/o/ 全音素部分空間 Φ PCA PCAによる特徴量抽出 観測空間上のデータ分布(構造)をうまく表す新たな空間(正規直交基底ベクトル)を求め、観測信号をこの空間へ射影することで、情報抽出ができる O1 O2 Observed data s1 s2 Observed space O ICAを用いて、各音素部分空間の統合を行う。 各音素部分空間(射影行列)をつなげた空間へ観測ベクトルを射影し、射影されたベクトル集合に対してICAを行うことで、各音素部分空間を統合する射影行列Φ`が得られる。 ●共分散行列Sの固有値分解 ●分散(固有値)が大きい基底ベクトルをPから選び、分空間Vとする ●観測ベクトルxを部分空間Vへ射影 ICA 射影されたベクトル集合 統合した空間 Φ’ 全音素部分空間 Φ ICAによる特徴量抽出 特徴量抽出フロー ●お互い独立な成分による観測信号生成モデル xt 音素/a/ PCA 音素/i/ PCA 音素/o/ PCA 音素部分空間 (射影行列 Φ) yta yti yto ICA 統合した空間(射影行列 Φ’) Yt’ HMM 学習と認識 フレーム 処理 FFT |.|2 Mel filter bank log Speech signal 正 規 化 ・ +Δ 統合した固有音素空間は大きい空間(音素数*各部分空間次元)になる。さらにPCAを用いて次元圧縮を図る。 ●観測信号xの集合だけを用い、Aとsを同時に推定 ●復元行列Wにより復元されるベクトルの独立性(非ガウス性) を最大化することで、sの近似解が求まる ●本研究では、独立性基準をネゲントロピーとし、不動点アルゴリズムを用いて独立成分を推定するFastICAを用いた。 実験条件 実験結果 音声認識タスク 孤立単語認識 音声信号 サンプリング周波数 12kHz フレーム処理 フレーム幅 32ms, 窓シフト 8ms 認識対象話者 4名(男2名、女2名) 学習データ 4x2620単語(クリーン) 評価データ 4x1000単語(x6 残響条件) 音響モデル 54個のモノフォンHMM (3状態、4混合分布) 考察・まとめ 比較特徴量 次元数 元の次元数 (元の特徴量) MFCC 16 32 (FBANK) PCA 音素部分空間 16 x 54 PCA-PCA PCA-ICA 16 x 54 (音素部分空間射影) 提案特徴量PCA-ICAは全ての残響条件において、MFCCより高い認識率を示した。 残響時間が短い場合、PCAやPCA-PCAより性能低下 音素部分空間の最適化が行われなかった。 全ての独立成分を一つのベクトルとし、HMMで学習・評価 予定1 各音素部分空間の最適化 予定2 独立成分のHMMベースモデリング手法の検討
2
補足 ICAの拡張としての提案手法 生成モデル 従来ICA 提案手法 復元モデル 従来ICA 提案手法
生成モデルで、従来ICAのAは、ノイズの影響で変動 提案手法では、AにV転置行列をかけることで、 変動が抑えられ、音素相関情報が付加される 復元モデルでは、観測信号xを音素部分空間(V)へ射影 観測信号のノイズが除去され、各音素との相関情報が取り出される。そこから独立成分が抽出される。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.