ランダムプロジェクションを用いた 音声特徴量変換 吉井麻里子,滝口哲也,有木康雄(神戸大) Jeff Bilmes (University of Washington)
発表内容 研究背景・目的 ランダムプロジェクション 提案手法 評価実験 まとめ・今後の課題 ランラムプロジェクションを用いた音声特徴量抽出 ROVERを用いた特徴量統合 評価実験 単語音声認識による評価 まとめ・今後の課題
研究背景・目的 音声認識性能の向上のために、観測信号から音声認識に必要な音声特徴のみを取り出す手法が必要 従来のMFCCや、PCA,LDA,ICAなどを用いた手法がある 空間写像を行い,有効な特徴を抽出 ランダムプロジェクション 空間写像の一手法 (画像処理・文書処理等で利用) 変換行列をランダムに与える,変換が容易 距離保存の性質 音声認識のためのランダムプロジェクションを用いた音声特徴量抽出の検討
ランダムプロジェクション ランダムな数値から得られた写像行列 R を用いて空間写像を行う手法 ランダム写像行列Rは,各成分が : reduced-dimensional vector, : original-dimensional vector, : random matrix, Rの例 ランダム写像行列Rは,各成分が 確率的にある値をとる行列として定義
ランダムプロジェクションの性質(1/2) 変換によるベクトル間類似度(内積) RPによりベクトルがそれぞれ n->x,m->y と変換されたとき,変換後の類似度は ここで, を考える の列ベクトル が単位長であるとき,次のように書ける (Iは単位行列,εはN×Nの行列)
ランダムプロジェクションの性質(2/2) と が直交に近くなればなるほど, の要素の分布は0に近くなり,ベクトルの類似度は保存される と が直交に近くなればなるほど, の要素の分布は0に近くなり,ベクトルの類似度は保存される の分布を平均 0 ,分散1の正規分布であると仮定すると, の要素の分布の平均は 0 ,分散 は, と書くことができる (dは削減次元数) したがって削減次元数dが大きい ほど, は 0 に近づき,変換歪 みは保存される
ランダム写像行列の生成 1. 標準正規分布N(0, 1)に従うn×kの行列Rを作成 2. グラムシュミットの直交化手法を用いてRを直交化し,列ベクトルを大きさ1で正規化する
提案手法(1/3) ・・・ ・・・ ランダムプロジェクションによる音声特徴量変換 ROVERを用いたランダムプロジェクション 音声特徴量を入力としてランダムプロジェクションを行い,新たな音声特徴量を生成 ROVERを用いたランダムプロジェクション Speech feature Random matrix ASR Result Random matrix 1 ASR Random matrix 2 ASR rover module Speech feature Best Result ・・・ ・・・ Random matrix N ASR
提案手法(2/3) ROVERを用いたRP特徴量の統合 異なるランダムマトリックスから得られた特徴量を用いて音声認識を行い、その認識結果を投票し、最も投票された認識結果を出力とする J. G. Fiscus “A post-processing system to yield reduced word error rates : Recogniser output voting error reduction (ROVER)”, 1997 RP特徴量 音声認識 認識結果 投票 投票認識結果 RP特徴量1 「コンテンツ」 RP特徴量2 「コンテンツ」 「コンテンツ」 RP特徴量3 「ネットニュース」 ・・・ ・・・ ・・・ RP特徴量N 「コンテンツ」
提案手法(3/3) 音声特徴量 (1) (2) (3) (4) (5) FFT Mel-log Cos MFCC Random Transformation waveform MFCC +⊿+⊿⊿ (2) FFT Mel-log Cos Random Transformation waveform Random Transformation (3) FFT Mel-log Cos MFCC +⊿+⊿⊿ waveform (4) FFT Mel-log Cos Gavor Random Transformation waveform Gavor +⊿+⊿⊿ (5) FFT Mel-log Cos Random Transformation waveform
実験条件(1/2) 自動車内音声認識の評価用データベースCENSREC-3 (Corpus and Environments for Noisy Speech RECognition)・Condition4を使用 学習データ:アイドリング走行時3608音声 (男性202 名,女性91 名) 評価データ:低速・高速走行時8836音声 (男性8 名,女性10 名) 評価データ音声は50単語、学習データ音声は音素バランス文 単語音声の認識は音素HMMにより行う。それぞれ5状態32混合の分布
実験条件(2/2) 特徴量抽出条件 特徴量変換 標本化周波数,語長 16kHz, 16bit 分析窓 Hamming窓 フレーム幅,シフト幅 20ms, 10ms 特徴量次元数 対数メルフィルタバンク(24 dim) MFCC(12 dim) Gavor(60 dim) その他 低周波成分除去(250kHz以下) 特徴量はあらかじめ平均0,分散1に正規化 (1) MFCC(12次元) -> RP(12次元) (2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元) (3) MFCC(12次元) -> RP(12次元)+⊿+⊿⊿(36次元) (4) Gavor(60次元) -> RP(30次元) (5) Gavor+⊿+⊿⊿(180次元) -> RP(30次元)
実験結果(1), (2), (3) RP特徴量を100個使用したときの単語認識率 (3) (2) (1)
実験結果(4), (5) (4) (5)
雑音環境ごとの認識率 (1) (2) (3) (4) (5) (MFCC) (MFCC +⊿+⊿⊿) (Gavor) (Gavor Car speed In-car condition (MFCC) (MFCC +⊿+⊿⊿) (Gavor) (Gavor +⊿+⊿) Low speed Normal 88.21 (82.31) 94.22 (91.16) 93.87 (91.16) 92.92 (85.50) 92.81 (45.05) Fan(low) 86.24 (82.82) 90.82 (89.88) 89.88 (82.35) 90.24 (39.06) Fan(high) 72.63 (71.84) 74.41 (72.40) 74.97 (72.40) 77.21 (67.71) 78.32 (23.46) Audio(on) 62.54 (59.01) 77.03 (73.62) 78.09 (73.62) 67.14 (53.24) 68.43 (26.86) Window(open) 68.78 (64.55) 77.15 (74.25) 78.48 (74.25) 72.13 (63.10) 74.58 (25.75) High speed 79.78 (70.33) 88.67 (83.56) 88.33 (83.56) 89.22 (80.33) 89.67 (37.67) 80.11 (73.89) 86.89 (83.78) 85.89 (83.78) 86.00 (77.00) 87.44 (30.67) 70.33 (68.22) 71.33 (70.00) 73.56 (70.00) 73.11 (64.00) 75.22 (22.11) 57.95 (51.84) 76.20 (73.30) 76.31 (73.30) 69.86 (56.84) 71.64 (24.58) 50.33 (49.22) 52.78 (50.89) 53.90 (50.89) 51.11 (41.98) 51.34 (13.47) Overall 71.57 (67.28) 78.81 (76.14) 79.29 (76.14) 76.75 (67.10) 77.87 (28.73)
まとめ RTの有効性 ランダム写像行列の選び方で認識率に差が生じる Roverにより探求の必要なく高精度の認識が可能 今後の課題 認識に適した特徴量空間 ランダム写像行列の選び方で認識率に差が生じる 音声認識に適したランダムマトリックスの探求 Roverにより探求の必要なく高精度の認識が可能 今後の課題 ランダム写像行列の選択 学習時に選択できれば,認識コスト削減可能 ランダム写像行列ごとの性質の探求
ご清聴ありがとうございました。
音声特徴量空間 音声特徴量の2次元プロット MFCC(12) 2dim 6 4 2 -2 -4 -6 RP(12) 2dim 6 4 2 -2 -4 -6 RP(12) 2dim 6 4 2 -2 -4 -6 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 MFCC(12) 1dim RP(12) 1dim MFCC(12) 12dim 6 4 2 -2 -4 -6 RP(12) 12dim 6 4 2 -2 -4 -6 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 RP(12) 11dim MFCC(12) 11dim
認識率とROVERの関係 (2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元)
特徴量の個数ごとのROVER認識率 [%] (2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元) RP特徴量の個数
ランダム写像行列の直交化 (1) MFCC(12次元) -> RP(12次元) RP特徴量10個 正規分布を要素に持つRM 正規分布を要素に持つ行列に対して直交化 正規分布を要素に持つ行列に対して直交化・列正規化
Random transformation 100 trials of RT for MFCC Random transformation Baseline Vote Max. Mean Min. 71.57% 70.64% 68.68% 66.57% 67.28%
100 trials of RT for MFCC+⊿+⊿⊿ Random transformation Baseline Vote Max. Mean Min. 78.81% 79.20% 76.17% 72.77% 76.14%
100 trials of RT for MFCC, and its⊿ and ⊿⊿ Random transformation Baseline Vote Max. Mean Min. 79.29% 79.33% 76.03% 70.93% 76.14%
Random transformation 100 trials of RT for Gavor Random transformation Baseline Vote Max. Mean Min. 76.75% 74.68% 70.43% 66.24% 67.10%
100 trials of RT for Gavor+⊿+⊿ Random transformation Baseline Vote Max. Mean Min. 77.87% 74.41% 69.90% 64.76% 28.73%