メタモデルと音響モデルの 統合による構音障害者の音声認識 メタモデルと音響モデルの 統合による構音障害者の音声認識 神戸大学工学研究科 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
構音障害者とは? 構音 [調音] が困難である。 緊張時 [意図的な動作時] に、 不随意運動が現れる場合がある。 母親 明るさを調整する NHK教育 <平常時> <発話時> 構音 [調音] が困難である。 緊張時 [意図的な動作時] に、 不随意運動が現れる場合がある。
研究背景 福祉分野での情報技術の重要性 音声認識の多様化 音声合成 手話認識 文字認識 子供、高齢者 車内、会議室 (手話認識、文字の点字化、音声合成) 言語障害の原因→脳性マヒ,脳卒中など
研究目的 ユニバーサルデザイン音声認識の実現! 言語障害者は3万4000人 (平成19年版 障害者白書) (平成19年版 障害者白書) 障害者(聴覚・言語障害)を対象とした音声認識が少ない。 音声に頼るしかない場合は? 知能をわずらってない
音声認識への期待 職域開発 コミュニケーションの広がり 音声認識ツールの使用による、 障害者の雇用機会増加への期待! 障害者の雇用機会増加への期待! コミュニケーションの広がり 音声合成・STT (Speech To Text)による相互理解 講演の補助等への活用
関連研究 (産総研 07’音響学会) 重度障害者のための音声認識電動車いすの開発 喉頭摘出者データを用いた人工音声変換システムの評価 (産総研 07’音響学会) 喉頭摘出者データを用いた人工音声変換システムの評価 (奈良先端大 07’ 電子情報通信学会 WIT)
アプローチ Metamodel との統合 ロバストな特徴量抽出法 PCAを用いた発話スタイル変動に 構音障害者において、最初の発話スタイルが、 他発話に比べ、変動する場合がある。 PCAを用いた発話スタイル変動に ロバストな特徴量抽出法 → Metamodel との統合
Metamodel Confusion Matrix を音声認識のモデルに組み込むことに より、音の変化(削除・挿入・置換)を確率的に表現可能 各状態に離散出力確率・遷移確率(離散型HMM) 入力特徴量は音素認識列 学習は Baum Welch アルゴリズムで行う 各音素に Metamodel を作成 削除 入力 A B C 出力 挿入 置換 挿入
Metamodel 削除 挿入 置換 挿入 置換 正解 (置換) 挿入 モデル[a]の例 入力 [i] の場合 A B C [i] A B 出力分布例 Phoneme / State A B C a 0.1 0.7 0.2 i 0.4 0.3 u 0.05 e o 入力 [a u] の場合 [a] [u] A B C 正解 (置換) 挿入
Metamodel A B C :単語 :音素 :音素認識結果 :信号 Metamodel
Metamodel認識 she ある単語(例;she)を構成する音素列に対応するMetamodel列 入力音声 音素認識 ch sh er ax hh sh iy hh [er] [ax] [hh]
Acoustic Model [音素HMM] 提案手法-Metamodelとの統合- <特徴量-数値> 1.138 1.283 -1.024 -1.424 -0.123 0.432 1.175 0.187 -0.854 -0.002 ・・・・・・ <PCA method> PCA 学習 1回目発話 (不安定音声) 2回目, 3回目 … (安定音声) Acoustic Model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識 <特徴量-文字> o k a sh r aN ii 学習 Metamodel New Confidence measure (Proposed method) 音の変化(置換・挿入・削除)を考慮 Training Test
Acoustic model [音素HMM] 提案手法-Metamodelとの統合- <PCA method> PCA 学習 1回目発話 (不安定音声) 2回目, 3回目 … (安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識 学習 Metamodel New Confidence measure (Proposed method) Training Test
PCAによる発話不安定成分の抑圧(1) 抑圧 2回目以降 1回目発話 ; 観測音声 ; 安定した音声 ; 発話不安定成分 ;フレーム番号 ;周波数 2回目以降 1回目発話 抑圧
PCAによる発話不安定成分の抑圧(2) × × PCA … *空間の低次に安定した音声成分が集まる。 2回目、3回目・・・発話 *固有ベクトル集合を主軸(変換行列)Vとする 1回目に比べ安定している 認識精度が安定 PCA 1回目発話 緊張のために不安定 認識に悪影響 … × ×
Acoustic model [音素HMM] 提案手法-Metamodelとの統合- <PCA method> PCA 学習 1回目発話 (不安定音声) 2回目, 3回目 … (安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識 学習 Metamodel New Confidence measure (Proposed method) Training Test
統合例 Correct! 音 単 響 語 モ 認 デ 識 ル Italy M メ e タ t モ a デ 認 ル 識 N-Best … Test data Correct! Italy … N-Best = weight + メ タ モ デ ル M e t a 認 識 …
実験概要 音響モデルとメタモデルの統合による音声認識 PCAには2~5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。 <実験条件> ハミング窓長 25 msec 分析周期 10 msec 音響モデル monophone 構音障害者音声データ 210単語×5回 (1050発話) PCAには2~5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。 用いた主成分数・・・15個 [24次元から15次元へ] 3Best単語に対して統合
従来法との比較 [α=0.15] 1回目のみ [test:210単語] 5回平均 [test:1050単語]
まとめ・今後の方向性 Metamodel との統合によって、音の変化への 考慮が可能となった。 今後の方向性 明瞭度の向上 [高域パワーの強調など] 話者適応 他者の構音障害者モデル vs 健常者不特定話者モデル 音素体系作り,,,etc 単語内SPの考慮 例;ひょうほん
音声認識の利用例;環境制御装置 従来製品との違い 環境制御装置「みてら」に音声認識「julian」を組み込む。 多くは認識が困難、コマンド限定で適応 コマンドへの自由度が高い、操作を個人に特化可能 環境制御装置「みてら」に音声認識「julian」を組み込む。 日本シュータ;OS Windows 98であるため、2007年5月末をもって販売を中止する予定になっております。 認識 操作
システムの流れ 音声認識 CD/○○テレビ 音量アップ/ 電源etc 音声認識結果 現在の状態 (リクエスト) 家電操作 環境制御装置 30分前に前回 音声認識結果 (リクエスト) 現在の状態 家電操作 環境制御装置
システム動作映像 発話可能コマンド 対話画面(指示&認識) ここにデモ映像
ご清聴ありがとうございました。 …END
補助資料
1回目発話[α= 0~0.4]
PCAとMFCCの比較(1回目発話)
構音障害者音声 Aさん(男性) Bさん(男性) Cさん(女性) 母親 アルミニウム
アルミニウム(a r u m i n i u m u) 構 音 障 害 者 健 常 者
Metamodel検証実験 提案手法(1)を用いて音素認識実験 精度の低下が大きい。 210単語 1回目 2回目 3回目 4回目 5回目 認識率 69.6 71.95 73.38 72.84 71.11 精度 36.03 43.24 47.59 46.69 44.31 精度の低下が大きい。 音の変化 [置換・挿入・削除]が生じていると考えられる。
Baum Welch アルゴリズム パラメータ推定 出力確率 遷移確率
変換行列Ⅴ 音 声 音声は全て使用 固有ベクトルが変換行列V <PCA> 分散の最大空間から選択 低次-------高次 非 分散の最大空間から選択 低次-------高次 音韻性-------話者性 音声は全て使用 固有ベクトルが変換行列V <DCT>
モデル適応結果(MLLR+MAP推定) 少量データでの適応が困難 モデル適応の結果になります。適応データは20、から210まで変化させ7パターンになります。 100発話適応に用いたとしても40%までの精度の改善しか得られません。 これらから少量のデータでの適応は困難であるといえます。 適応が困難な原因として、適応なしの場合においての認識精度があまりに低いためということが考えられます。 少量データでの適応が困難
関連研究-音声特徴量 windowing STDFT Log IDFT メル軸上で 三角窓の適用 |S|’ DFT 係数 |S| 音波形 log |S|’ MFCC Frequency Amplitude MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの特性を音声特徴量として取り出す
アテトーゼ型脳性マヒとは 大脳基底核の損傷のため、随意筋の機能障害 アテトーゼ(不随意運動)が生じる。 アテトーゼの生じやすい状況 大脳基底核の損傷のため、随意筋の機能障害 アテトーゼ(不随意運動)が生じる。 アテトーゼの生じやすい状況 意図的な動作を行う際 緊張状態 収録データ (1名) 連続発話
Confusion Matrix [Pr(Pout|Pin)] 入力 音素 認識音素
環境制御装置 株式会社日本シュータ 旭化成 「NSシーケアパイロット 」 特定話者の単語モデルで適応を行う。 Windows98のため販売終了 旭化成 「ライフタクト」 頚椎損傷・リウマチ・筋ジストロフィーなど 手足に障害を持つ方の自立した生活を支援