Presentation is loading. Please wait.

Presentation is loading. Please wait.

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

Similar presentations


Presentation on theme: "5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3"— Presentation transcript:

1 5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
対判別フィッシャー重みマップを利用した局所特徴量による音素認識 加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工) 研究概要 実験結果 概要 で重み付け 音声信号 時間-周波数平面 局所特徴の行列 行列の特徴量 GMMで識別 認識結果 ハミング窓でFFT シフト幅10[ms] フレーム幅25[ms] 切出した時間周波数平面 35種の局所パターン シフト幅Sフレーム フレーム幅Tフレーム 時間軸方向に切出し 実験条件   同一の話者が発声したラベル付き音声データベース  □5母音・・・学習用、評価用に各音素100個ずつのデータ          (学習データと評価データは別)  □全音素・・・学習用、評価用に計2448個のデータ 研究背景  現在の音声認識システムではMFCC特徴量などが使用されているが、まだ音声の特徴を完璧に捉えた特徴量とはいえない  ⇒そこで、フィッシャー重みマップを利用した局所特徴量による手法を提案   ・局所特徴量・・・幾何学的特長を捉えた特徴量   ・フィッシャー重みマップ・・・どの部分の幾何学的特長が重要か  これを短時間フーリエ変換後の時間‐周波数平面で適用  ⇒これによって、時間‐周波数平面の認識に重要な幾何学的特徴のある場所が強調された特徴量が得られる 群判別の実験結果 普通の周波数 全音素の認識率(wの本数25) 64次元のメル周波数 認識率(%) フレーム幅 シフト幅    2 3 4 5 6 7 3         5         7 73.4% 78.5% 81.5% 81.4% 80.7% 5母音の認識率(wの本数5) フレーム幅5、シフト幅2 wの本数4のとき 提案手法 98.6(%) MFCC 95.8(%) 全音素の認識率(wの本数5) フレーム幅5、シフト幅3 wの本数4のとき 局所特徴量 フィッシャー重みマップ 局所特徴量  時間-スペクトル平面の各点に各局所パターンを適用したもの 提案手法 81.0(%) MFCC 84.6(%) □局所パターンの例 (3×3近傍では35種類) 対判別の実験結果 1 時間方向に連続する 値の大きさ 1 周波数方向 に連続する 値の大きさ 1 周波数の時間遷移の大きさ クラス1 クラス3 クラス2 実験結果(フレーム幅5、シフト幅2、 メル周波数64次元、6子音(pbtdkg)) 実験結果(フレーム幅5、シフト幅2、 メル周波数64次元、5母音) 95.8% 98.6% 時間-スペクトル平面 点(7,2)での15番目の局所パターン □局所特徴の例 局所特徴行列 35種類の 局所パターン 時間-周波数平面の各点 周波数 考察、まとめ ・メル周波数 通常の周波数と同様の認識率 ⇒通常の周波数でも良いのは重みの効果 ・対判別   p,b,t,d,k,gの6音素では群判別より認識率が良いが、母音の認識率は群判別と同じ ⇒似たような音素のグループでは効果はあるが、それ以外だと効果が薄い  時間 時間-スペクトル平面 対判別 □対判別の4クラスでの例 □識別 □学習 A D B C 0.1 0.4 0.3 0.6 0.9 0.7 0.8 0.2 今後の課題  ・全音素での群判別  ⇒音素をクラスタに分けて、クラスタの中で対判別を行なうなど  ・学習データとは違う話者での認識の検討  ・連続音声認識


Download ppt "5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3"

Similar presentations


Ads by Google