Presentation is loading. Please wait.

Presentation is loading. Please wait.

Number of random matrices

Similar presentations


Presentation on theme: "Number of random matrices"— Presentation transcript:

1 Number of random matrices
1-Q-6b ランダムプロジェクションを用いた 構音障害音声の認識および誤り単語検出 ☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大) NETファイル 研究背景・目的 近年,音声認識が新たな入力インタフェースとして注目されている. 構音障害者の発話スタイルは健常者と大きくことなる ⇒ 認識率10%以下 改善ポイント:①データベース,②音素体系,③特徴量 ランダムプロジェクション: 空間写像の手法.変換行列の各要素がある確率分布に従うランダムな値として定義される. ⇒ 音声特徴量変換に応用.ノイズ音声で効果あり.          ⇒ ランダム写像行列によって認識率にばらつきがある. 提案手法: 複数のRMを用いて特徴量変換.各々の特徴量で学習・認識を行い,各認識結果に対して多数決をとることで最適な認識結果を得る.さらに,その投票結果に基づいて認識結果の自動正誤判定を行う. <構音障害者> <健常者> /a k e g a t a/ ランダムプロジェクション ランダム写像行列 R n次元ユークリッド空間からk次元ユークリッド空間に写像する. 元の空間上における任意の2点間のユークリッド距離が変換後も高い確率で保存されるという性質がある. 標準正規分布N(0,1)に従うn×kの行列Rを作成. Gram-Schmidtの直交化手法を用いてRを直交化. 列ベクトルを大きさ1で正規化. : reduced-dimensional vector, : original-dimensional vector, : random matrix, 提案手法 ランダムプロジェクションによる音声特徴量変換 ROVER法を用いた特徴量統合(投票によって最適な認識結果を得る) 投票結果に基づく正誤判定 正解の場合,  ⇒ 少数の候補に票が集まる. 不正解の場合,⇒ 複数の候補に票がばらける. ⇒ 投票結果の第1候補と第2候補の投票数で正誤判定. 実験条件 Speech feature Random matrix Result ASR 構音障害者1名を対象とした孤立単語認識,および正誤判定実験 実験データ: - ATR音素バランス単語(210単語),各単語5回連続発話 第2~5発話を学習データ,第1発話を評価データに用いる 音響モデル:monophone-HMM(5状態8混合) 音声特徴量: MFCC[12dim.] + ΔMFCC[12dim.] MFCC[12dim.] to RP[12dim.] + ΔMFCC[12dim.] Random matrix 1 ASR ROVER module Speech feature Random matrix 2 ASR Best Result ・・・ ・・・ Random matrix N ASR 実験結果・考察 単語認識実験 ランダム写像行列の数:20, 40, 60, 80, 100と変化 ベースライン:76.67% 平均認識率(Mean.)ではベースラインに及ばない. ROVER用いて認識結果を統合 ⇒ 安定して高い認識率が得られる. 20~40個程度の統合で十分. 正誤判定実験 第2~5発話に対して提案手法②を適用(leave-one-out). 各単語の投票結果を用いて非線形SVMを学習. 第1発話に対して正解か誤りかを判定. Number of random matrices T/P Rate [%] T/N Acc. [%] 20 92.3 42.9 82.4 40 95.8 43.2 84.8 60 92.8 60.5 86.2 80 92.9 58.5 100 56.1 85.2 正解単語に関しては高い精度で分類可能. 不正解単語の場合,分類精度が大きく劣化 ⇒ 投票数だけでは困難? 今後の予定 音声認識に適したランダム写像行列の選択・生成 不正解単語に関する,分類精度の向上


Download ppt "Number of random matrices"

Similar presentations


Ads by Google