メタモデルと音響モデルの統合による構音障害者の音声認識

メタモデルと音響モデルの統合による構音障害者の音声認識
メタモデルと音響モデルの　　　　　　　統合による構音障害者の音声認識神戸大学工学研究科　　　松政宏典，滝口哲也，有木康雄追手門学院大学経済学部　李義昭神戸大学発達科学部　中林稔堯

構音障害者とは？構音 [調音] が困難である。緊張時 [意図的な動作時] に、不随意運動が現れる場合がある。母親明るさを調整する
NHK教育＜平常時＞＜発話時＞構音 [調音] が困難である。緊張時 [意図的な動作時] に、不随意運動が現れる場合がある。

研究背景福祉分野での情報技術の重要性音声認識の多様化音声合成手話認識文字認識子供、高齢者車内、会議室
（手話認識、文字の点字化、音声合成）言語障害の原因→脳性マヒ，脳卒中など

研究目的ユニバーサルデザイン音声認識の実現！言語障害者は３万４０００人（平成19年版障害者白書）
　　　　　　　（平成19年版　障害者白書）障害者(聴覚・言語障害)を対象とした音声認識が少ない。音声に頼るしかない場合は？知能をわずらってない

音声認識への期待職域開発コミュニケーションの広がり音声認識ツールの使用による、障害者の雇用機会増加への期待！
　障害者の雇用機会増加への期待！コミュニケーションの広がり音声合成・STT (Speech To Text)による相互理解講演の補助等への活用

関連研究（産総研 07’音響学会）重度障害者のための音声認識電動車いすの開発喉頭摘出者データを用いた人工音声変換システムの評価
　　　　　　　　（産総研　07’音響学会）喉頭摘出者データを用いた人工音声変換システムの評価　（奈良先端大　０7’　電子情報通信学会 WIT）

アプローチ Metamodel との統合ロバストな特徴量抽出法 PCAを用いた発話スタイル変動に
構音障害者において、最初の発話スタイルが、　他発話に比べ、変動する場合がある。 PCAを用いた発話スタイル変動にロバストな特徴量抽出法 → Metamodel との統合

Metamodel Confusion Matrix を音声認識のモデルに組み込むことに
　より、音の変化（削除・挿入・置換）を確率的に表現可能　各状態に離散出力確率・遷移確率（離散型HMM）　入力特徴量は音素認識列　学習は Baum Welch アルゴリズムで行う各音素に Metamodel を作成削除入力 A B C 出力挿入置換挿入

Metamodel 削除挿入置換挿入置換正解（置換）挿入モデル[a]の例入力 [i] の場合 A B C [i] A B
出力分布例 Phoneme / State A B C a 0.1 0.7 0.2 i 0.4 0.3 u 0.05 e o 入力 [a u] の場合 [a] [u] A B C 正解（置換）挿入

Metamodel A B C ：単語：音素：音素認識結果：信号 Metamodel　

Metamodel認識 she ある単語（例；she）を構成する音素列に対応するMetamodel列入力音声音素認識 ch sh er
ax hh sh iy hh [er] [ax] [hh]

Acoustic Model [音素HMM]
提案手法－Metamodelとの統合－＜特徴量-数値＞　　　・・・・・・ <PCA method> ＰＣＡ学習 1回目発話 (不安定音声) 2回目, 3回目 …　(安定音声) Acoustic Model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識＜特徴量-文字＞ o k a sh r aN ii 学習 Metamodel New Confidence measure (Proposed method) 音の変化（置換・挿入・削除）を考慮 Training Test

Acoustic model [音素HMM]
提案手法－Metamodelとの統合－ <PCA method> ＰＣＡ学習 1回目発話 (不安定音声) 2回目, 3回目 …　(安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識学習 Metamodel New Confidence measure (Proposed method) Training Test

PCAによる発話不安定成分の抑圧(1) 抑圧 2回目以降 1回目発話 ; 観測音声 ; 安定した音声 ; 発話不安定成分 ;フレーム番号
;周波数 2回目以降 1回目発話抑圧

PCAによる発話不安定成分の抑圧(2) × × ＰＣＡ … ＊空間の低次に安定した音声成分が集まる。 2回目、3回目･･･発話
＊固有ベクトル集合を主軸（変換行列）Ｖとする 1回目に比べ安定している認識精度が安定ＰＣＡ 1回目発話緊張のために不安定認識に悪影響 … × ×

Acoustic model [音素HMM]
提案手法－Metamodelとの統合－ <PCA method> ＰＣＡ学習 1回目発話 (不安定音声) 2回目, 3回目 …　(安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識学習 Metamodel New Confidence measure (Proposed method) Training Test

統合例 Correct! 音単響語モ認デ識ル Italy M メ e タ t モ a デ認ル識 N-Best …
Test data Correct! Italy … N-Best = weight + メタモデル M e t a 認識 …

実験概要音響モデルとメタモデルの統合による音声認識 PCAには2～5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。
＜実験条件＞ハミング窓長 25 msec 分析周期 10 msec 音響モデル monophone 構音障害者音声データ　 210単語×5回 (1050発話) PCAには2～5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。用いた主成分数･･･15個 [24次元から15次元へ] ３Best単語に対して統合

従来法との比較 [α=0.15] 1回目のみ [test:210単語] 5回平均 [test:1050単語]

まとめ・今後の方向性 Metamodel との統合によって、音の変化への考慮が可能となった。今後の方向性
明瞭度の向上 [高域パワーの強調など] 話者適応　他者の構音障害者モデル vs 健常者不特定話者モデル音素体系作り,,,etc 単語内ＳＰの考慮例；ひょうほん

音声認識の利用例；環境制御装置従来製品との違い環境制御装置「みてら」に音声認識「julian」を組み込む。
多くは認識が困難、コマンド限定で適応コマンドへの自由度が高い、操作を個人に特化可能環境制御装置「みてら」に音声認識「julian」を組み込む。日本シュータ；ＯＳ　Windows　98であるため、2007年5月末をもって販売を中止する予定になっております。　　認識　操作

システムの流れ音声認識ＣＤ/○○テレビ音量アップ/ 電源etc 音声認識結果現在の状態（リクエスト）家電操作環境制御装置
３０分前に前回音声認識結果（リクエスト）現在の状態家電操作環境制御装置

システム動作映像発話可能コマンド対話画面（指示＆認識）ここにデモ映像

ご清聴ありがとうございました。 …END

補助資料

1回目発話[α= 0～0.4]

PCAとMFCCの比較（1回目発話）

構音障害者音声Ａさん（男性）Ｂさん（男性）Ｃさん（女性）母親アルミニウム

アルミニウム（a r u m i n i u m u）構音障害者健常者

Metamodel検証実験提案手法（１）を用いて音素認識実験精度の低下が大きい。
210単語１回目２回目３回目４回目５回目認識率 69.6 71.95 73.38 72.84 71.11 精度 36.03 43.24 47.59 46.69 44.31 精度の低下が大きい。音の変化 [置換・挿入・削除]が生じていると考えられる。

Baum Welch アルゴリズムパラメータ推定出力確率遷移確率

変換行列Ⅴ 音声音声は全て使用固有ベクトルが変換行列Ｖ＜ＰＣＡ＞分散の最大空間から選択低次-------高次非
分散の最大空間から選択　　　　　　低次 高次音韻性 話者性音声は全て使用固有ベクトルが変換行列Ｖ＜DCT＞

モデル適応結果（MLLR+MAP推定）少量データでの適応が困難
モデル適応の結果になります。適応データは２０、から２１０まで変化させ７パターンになります。１００発話適応に用いたとしても４０％までの精度の改善しか得られません。これらから少量のデータでの適応は困難であるといえます。適応が困難な原因として、適応なしの場合においての認識精度があまりに低いためということが考えられます。少量データでの適応が困難

関連研究-音声特徴量 windowing STDFT Log IDFT メル軸上で三角窓の適用 |S|’ DFT 係数 |S| 音波形 log |S|’ MFCC Frequency Amplitude MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの特性を音声特徴量として取り出す

アテトーゼ型脳性マヒとは大脳基底核の損傷のため、随意筋の機能障害アテトーゼ（不随意運動）が生じる。アテトーゼの生じやすい状況
大脳基底核の損傷のため、随意筋の機能障害　　　アテトーゼ（不随意運動）が生じる。アテトーゼの生じやすい状況意図的な動作を行う際緊張状態収録データ (1名) 連続発話　

Confusion Matrix [Pr(Pout|Pin)]
入力音素認識音素

環境制御装置株式会社日本シュータ旭化成「NSシーケアパイロット」特定話者の単語モデルで適応を行う。
Windows98のため販売終了旭化成「ライフタクト」頚椎損傷・リウマチ・筋ジストロフィーなど　手足に障害を持つ方の自立した生活を支援

メタモデルと音響モデルの統合による構音障害者の音声認識

Similar presentations

Presentation on theme: "メタモデルと音響モデルの統合による構音障害者の音声認識"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

メタモデルと音響モデルの 統合による構音障害者の音声認識

Similar presentations

Presentation on theme: "メタモデルと音響モデルの 統合による構音障害者の音声認識"— Presentation transcript:

Similar presentations

About project

フィードバック

メタモデルと音響モデルの統合による構音障害者の音声認識

Presentation on theme: "メタモデルと音響モデルの統合による構音障害者の音声認識"— Presentation transcript: