Presentation is loading. Please wait.

Presentation is loading. Please wait.

音素部分空間の統合による音声特徴量抽出の検討

Similar presentations


Presentation on theme: "音素部分空間の統合による音声特徴量抽出の検討"— Presentation transcript:

1 音素部分空間の統合による音声特徴量抽出の検討
神戸大学 朴 玄信,滝口 哲也,有木 康雄

2 発表構成 研究背景・目的 従来手法 アプローチ PCA・LDAによる部分空間 提案手法(音素部分空間の統合) 音素部分空間解析
孤立単語認識実験 考察・まとめ・今後の予定

3 研究背景・目的 実環境で音声認識システムの需要が高まる 例:生活家電、ゲーム機、カーナビ など 実環境では様々なノイズの影響で認識率の低下
研究背景・目的   実環境で音声認識システムの需要が高まる 例:生活家電、ゲーム機、カーナビ など 実環境では様々なノイズの影響で認識率の低下 実環境でノイズに頑健な音声認識システムが必要

4 従来手法(耐雑音) モデルベース 特徴量ベース モデル選択 モデル適応 解析手法による特徴量抽出(事前学習なし)
統計手法による特徴量抽出(事前学習あり)

5 アプローチ1(音素部分空間統合) 事前学習ありの特徴量抽出法
主成分分析(PCA)、線形判別分析(LDA)を用い、観測空間から音素情報を表わす部分空間を推定 各音素の部分空間推定⇒各音素部分空間統合 PCAによる統合で、音素間の相関情報を特徴量空間に取り入れることを試みる。

6 アプローチ2(残響フィルタリング) X(i,ω) = S(i,ω)・N1 + N2 X:観測音声 i:フレーム ω:周波数 S:クリーン音声 N1:乗法性雑音 N2:加法性雑音 (残響時間が長い)残響の場合 N1は現在フレームに対する伝達特性(時不変) N2は過去フレームに対する反響音の足し合わせ(時変) logX = logS + log(N1 + N2/S) = logS + logN1 + log(1+N2/SN1) N1はSと無相関、N2にSの相関項の存在を仮定、 N2/SN1はSが打ち消され、Sと無相関 logSに対してPCAを行い、logXからlogSだけ抽出する軸推定

7 主成分分析(PCA) 共分散行列の 固有値分解による 正規直交基底推定 S1:全体構造、S2:共通性
O2 s1 Observed data 共分散行列の 固有値分解による 正規直交基底推定 S1:全体構造、S2:共通性 本研究では 音素部分空間学習と 部分空間統合に利用 s2 まず、本研究で用いる主成分分析(PCA)の性質について簡単に説明します。 観測空間O上に観測データがこのように分布しているとすると、PCAにより、新たなSの空間が得られます。 ここで、S1は観測データの変動性(全体構造)を表わし、S2は、軸の中心が共通性、外側はノイズ性を表わします。 目的により軸を選び部分空間を設計した後、観測データをこの部分空間へ射影することで、新たな特徴が得られます。 軸の計算は、観測データの共分散行列の固有値分解によって得られます。 本研究では、音素部分空間の推定と、部分空間の統合に用います。 Observed space O O1

8 線形判別分析(LDA) クラス内共分散 クラス間共分散 の固有値分解 S1:クラス識別空間 本研究では 音素部分空間学習 O2
Class 2 s1 クラス内共分散 クラス間共分散     の固有値分解 S1:クラス識別空間 本研究では 音素部分空間学習 本研究では、音素部分空間の推定にもちいます。 Class 1 Observed space O O1

9 音素部分空間の学習(PCA) /a/ /i/ /o/ /u/ 観測空間 O Φ/a/ Φ/i/ Φ/u/ Φ/o/ PCAによる音素部分空間
学習により得られる部分空間は、音素数個あり、各音素部分空間の基底数は同じにします。 これらの音素部分空間を原点合わせしてつなげることで、観測空間Oより高次元の、各音素情報を含む空間を学習することができます。

10 音素部分空間の学習(LDA) /a/ /i/ /o/ /u/ 観測空間 O Φ/a/ Φ/i/ Φ/u/ Φ/o/ LDAによる音素部分空間
PCAによる音素部分空間学習との違いは、各音素部分空間の学習時に、全音素データを用いるところです。 たとえば、/a/音素の部分空間の学習には、/a/クラスと、/a/以外のクラスを識別する2クラスLDAを用います。 PCAは特定音素データだけをみての空間を設計ですが、LDAは特定音素と他の音素との違いをみる空間設計になります。

11 音素部分空間の統合(PCA) Yt_/a/ Φ/a/ Yt_/a/ Φ/i/ Yt_/i/ Yt_/i/ Xt Φ/u/ Φ’ Yt_/u/
全音素 データ集合 Yt_/a/ Φ/a/ Yt_/a/ Φ/i/ Yt_/i/ Yt_/i/ Xt Φ/u/ Φ’ Yt_/u/ Yt_/u/ PCA つぎは、音素部分空間の統合です。PCAやLDAにより求めた、各音素部分空間の統合をPCAにより行います。 PCAは次元圧縮や、各次元の無相関化によく用います。 ここでは、全音素データを各音素部分空間へ射影しているので、 全音素データに対して、相関の高い軸はPCAにより圧縮することができる。 こうして得られた軸は各音素の相関情報を表わしていると考えられる。 Φ/o/ Yt_/o/ 音素間の 相関を表わす空間 Yt_/o/ 各音素部分空間を単に繋げた空間へ射影されたベクトルYtの集合に対し PCAを行い、各音素部分空間を統合した空間(Φ’)を推定する。

12 特徴量抽出の流れ Speech signal 窓処理 FFT |.|2 Mel filter bank log
音素/a/ PCA or LDA yta xt PCA Yt’ 正規化 ・ +Δ 音素/i/ PCA or LDA yti HMM このでは、音声認識システムの学習と認識の入力になる、提案特徴量の抽出流れを説明する。 音声信号を窓処理し、フレームに分割し、フーリエ変換によりパワースペクトルを求めます。 次に、周波数を人間の聴覚特性を考慮したメル周波数に非線形変換して、フィルタバンクを行います。 フィルタバンクの出力エネルギーの対数を、ベースの特徴量とします。 音素/o/ PCA or LDA yto 統合した空間 音素部分空間 学習と認識 従来:DCT, PCA, LDA

13 評価実験条件 話者(男2女2)ごと学習2620単語、テスト1000単語 学習:クリーン音声 テスト:クリーン、380ms残響音声
学習:クリーン音声   テスト:クリーン、380ms残響音声 サンプリング12kHz、窓幅32ms、窓シフト8ms 比較特徴量 音響モデル(話者特定モデル、4人話者共通モデル)  54個音素HMM 3状態4混合 Log MFB MFCC (DCT) PCA LDA 音素部分空間 (PCA/LDA) 統合空間 (PCA) フレーム数 - 3000 54 x 100 54 x 100 基本係数 32 16 54 x 16

14 提案手法による部分空間解析 ( PCA ) ( PCA⇒PCA )

15 提案手法による部分空間解析 ( LDA ) ( LDA⇒PCA )

16 実験結果 クリーン音声認識 残響(380ms)音声認識 実験結果を示します。左が、クリーン音声認識、右が、380ms残響音声の認識結果です。
グラフの横軸は特徴量で、特定モデルと4人共通モデルに分けられた、縦軸は4人話者の音声認識率の平均です。 特徴量の左3つが従来手法、右二つ(PPCA、PLDA)が提案手法で、PPCAはPCA->PCA、PLDAはLDA->PCAです。 まず、全体の傾向として、特定モデル、クリーン音声の場合認識率が高く、4人共通モデル、残響音声の場合認識率が低いです。 従来手法間の比較では、全体的にPCAが一番いい結果を示しています。LDAは元の32次元上54個クラスを分けるので、認識劣化が起こりました。 次に、提案手法PPCA、PLDAを従来手法と比較してみると、クリーンの場合は同程度、残響の場合はDCTより約4~6%の認識率向上が得られました。

17 考察 特定話者モデルより、4人共通モデルの場合認識率の低下ー>不特定話者音声認識のためには、話者変動を表わす空間を推定し、除去の必要があるー>多数話者データを用い、音素固有の空間と、話者変動空間を推定 特定話者はPLDA(LDA->PCA)、4人共通はPPCA(PCA->PCA) 多数話者データを用いると、話者変動成分により、 LDAによる音素クラスの分離精度が低下する。 PCAは特定音素部分空間に話者変動成分を含むが、 統合PCAにより音素クラス間共通成分(話者変動成分)が除去される。

18 まとめ、今後の予定 特徴量空間を音素ごとの部分空間に分け、統合する手法を提案した。
提案手法により、クリーン音声に対しては従来と同程度、残響音声に対しては認識率の改善 今後は、多数話者のデータの用いて実験、 独立成分分析(ICA)やカーネルPCAなどを用いた部分空間推定と統合


Download ppt "音素部分空間の統合による音声特徴量抽出の検討"

Similar presentations


Ads by Google