1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討 加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工) 研究概要 82.1 99.4 で重み付け 音声信号 時間-周波数平面 局所特徴の行列 行列の特徴量 GMMで識別 認識結果 ハミング窓でFFT シフト幅10[ms] フレーム幅25[ms] 切出した時間周波数平面 35種の局所パターン シフト幅Sフレーム フレーム幅Tフレーム 時間軸方向に切出し 概要 研究背景 現在の音声認識システムではMFCC特徴量などが使用されているが、フォルマント遷移などを捉えた特徴量とはいえない ⇒そこで、本研究ではフィッシャー重みマップを利用した局所特徴量による手法を提案 ・局所特徴量 幾何学的特長を捉えた特徴量 ・フィッシャー重みマップ どの部分の幾何学的特長が重要か これを短時間フーリエ変換後の時間‐周波数平面で適用 ⇒これによって、時間‐周波数平面の認識に重要な幾何学的特徴のある場所が強調された特徴量が得られる 局所特徴量 点(3,3)での10番目の局所パターン 局所特徴量 時間-スペクトル平面の各点に各局所パターンを適用したもの 局所特徴の例 点(7,2)での15番目の局所パターン 時間 周波数 局所パターンの例 3×3近傍では35種類 35種類の 局所パターン 時間-周波数 平面の各点 1 時間方向に連続する値の大きさ 局所特徴の行列 1 周波数方向に連続する値の大きさ 1 周波数の時間遷移の大きさ 時間-スペクトル平面 フィッシャー重みマップ クラス1 クラス3 クラス2 時間-周波数 平面の各点 固有ベクルの数 固有ベクル の数 局所パターン の数(35個) 局所パターン の数(35個) 時間-周波数平面の各点
実験結果 実験条件 予備実験 特定話者モデルの実験結果 不特定話者モデルでの実験結果 まとめ・今後の課題 今後の課題 ・10人の話者が発声したラベル付き音声データベース ・音素別に切り出し音素認識を実行、25音素、GMMで識別 予備実験 ・時間-周波数平面からのフレーム化処理は、フレーム幅5、シフト幅1 ・時間-メル周波数平面を使用(時間-周波数平面より3%程結果が良い) ・フィッシャー重みマップWの本数25本(20~30辺りが一番認識率がよい) 特定話者モデルの実験結果 MFCC ΔMFCC 提案手法 (PCAなし) 提案手法 (PCAあり) 提案手法 (PCAあり) +MFCC +ΔMFCC MFCC +ΔMFCC 提案手法 (PCAあり) +ΔMFCC 提案手法 (PCAあり) +MFCC 不特定話者モデルでの実験結果 MFCC ΔMFCC 提案手法 (PCAあり) 提案手法 (PCAなし) 提案手法 (PCAあり) +MFCC +ΔMFCC MFCC +ΔMFCC 提案手法 (PCAあり) +ΔMFCC 提案手法 (PCAあり) +MFCC まとめ・今後の課題 ・特定、不特定話者モデル両方において MFCC 、ΔMFCC < 提案手法(PCA) ・単体の特徴量より組合わせた特徴量の方が認識結果が良い 特に、3つの特徴量を組合わせた 提案手法(PCA)+MFCC+ΔMFCC が一番良い 今後の課題 ・単語識別 ・局所パターンの考察 ・メル周波数の考察