Buried Markov Modelを用いた構音障害者の音声認識の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討
神戸大学大学院工学研究科　　　宮本千琴，駒井祐人，滝口哲也，有木康雄追手門学院大学経済学部　李義昭

構音障害構音障害とは構音障害の原因の一つ：脳性マヒアテトーゼ（不随意運動）が生じる特にアテトーゼの生じやすい状況健常者構音障害者
言葉を正しく明瞭に発音できない症状構音障害の原因の一つ：脳性マヒ出生前や出生時に脳に受けた外傷のため筋肉の制御が難しい　　　　アテトーゼ（不随意運動）が生じる特にアテトーゼの生じやすい状況－意図的動作時－緊張状態健常者構音障害者外出、ごぶさた、ジグザグ、入浴、パイプ

研究背景音声認識技術の様々な状況での利用様々な人が生活の中で使う機会が増えている福祉分野における情報技術の発展
カーナビゲーションの操作会議音声の議事録化駅での音声案内様々な人が生活の中で使う機会が増えている成人だけでなく、子供や高齢者も利用できる福祉分野における情報技術の発展超高齢社会（2800万人）、身体障害者（366万人）平成20年　総務省、内閣府障害白書

構音障害者の音声でも認識可能なシステムの実現
研究目的現在、日本に言語障害者は４万２０００人　　　　　　　（平成20年版　障害者白書）言語障害者を対象とした研究は少ない脳性マヒの方は、構音障害＋手足の不自由発話は自分の気持ちをよく表す手段発話は重要なコミュニケーション手段の一つ発話内容が分かれば、会話時にお互いの理解がより深まる構音障害者の音声でも認識可能なシステムの実現

音声認識の実現職域開発音声認識ツールの使用による　　　　障害者の雇用機会増加への期待！コミュニケーションの広がり講演の補助等への活用

課題① 構音障害者は、発話スタイルが健常者と異なるため、従来のモデルでは認識が困難 →構音障害者モデルの作成
不特定話者（健常者）モデルでの認識結果 →構音障害者モデルの作成

課題② 構音障害者モデル (HMM) の作成 →ΔMFCCの認識率が低い特定話者モデルでの認識結果
健常者に比べて時間変化がうまく表現できていない

これまでの取り組み時間変化を表す特徴量を用いた時の認識率が低い時間変化をより表すようにする ΔMFCCの代わりにセグメント特徴量を用いる
去年10月の本研究会で発表[1] [1]``構音障害者の音声認識における動的特徴量の考察,’’ 電子情報通信学会技術研究報告, SP , pp.37-42,

セグメント特徴量前後数フレーム分のΔMFCCから特徴量を構成 n フレーム・・・・・・・・・・・・・・・・・・・・・・・・
(12次元) ・・・・・・・・・ ΔMFCCを結合させたベクトル ( 12×n 次元) PCA ・・・・・・音声特徴量 (N 次元)

本発表でのアプローチ特徴量ではなくモデルに着目従来のHMMにおける仮定 Buried Markov Model[2]を用いる
状態は１フレーム前の状態によって決まる観測は各フレームの状態によって決まる音声の生成構造が単純化されているため扱いやすい時間的な変化特性を十分に表現出来ていない Buried Markov Model[2]を用いる HMMの各フレームの観測系列間に時間的依存関係を示す　　条件付き確率のエッジを加えたモデル状態によって親との依存関係のパターンが決まる [2]J.A. Bilmes, ``Buried Markov models: a graphical modeling approach to automatic speech recognition,'‘ Computer Speech and Language, Volume 17, Issues 2-3, , 2003.

Hidden Markov Model (HMM)
time 1 2 3 State Feature :時間長 :t番目のフレームにおける出力 :観測に対する状態

Buried Markov Model (BMM)
time 1 2 3 State Feature :フレームｔにおける状態　によって一意に決まる　出力間のエッジの集合を決定する関数

BMMの学習 BMMの構造学習 (Pairwiseアルゴリズム＋独立性検定) BMMのパラメータ学習 (EMアルゴリズム) BMMの構築
識別的依存関係の習得冗長性の検定：ターゲットノード：親ノード集合

独立性検定 Kendallの順位相関係数 2つの変数の順位の間の相関の強さを表す指標：ノードについて青の領域にあるデータ
：ノード　について青の領域にある　データ：ノード　について白の領域にある　データ：データサイズ参考文献：山本他, ``Buried Markov Modelを用いた音声認識モデルの構築法の検討,'' 　　　　　　　情処研報，2009-SLP-79, No.21, pp.1-6, 2009.

BMMを用いた音素認識実験実験条件実験データ：構音障害者１名発話内容：ATR音素バランス単語216単語×5回発話
サンプリング周波数：16kHz フレーム窓長：25msec フレーム周期：10msec 特徴量：12次MFCC＋ΔMFCC 状態数：43音素3状態探索過去フレーム数、親ノード数をそれぞれ変化させ比較

実験結果1 (探索過去フレーム数＝5)

実験結果2 (親ノードの上限数=1)

考察構造学習時に音声データの音素ラベル情報とその時間情報が必要

まとめ発話が不安定な構音障害者の音声認識精度を改善するために、観測ノード間の時間的な依存関係を記述できるBMMを用いた音声認識手法を検討
構造学習手法の検討複数話者での有効性の確認音声特徴だけでなく画像特徴も共に用いる

ご清聴ありがとうございました

Buried Markov Modelを用いた構音障害者の音声認識の検討

Similar presentations

Presentation on theme: "Buried Markov Modelを用いた構音障害者の音声認識の検討"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Buried Markov Modelを用いた 構音障害者の音声認識の検討

Similar presentations

Presentation on theme: "Buried Markov Modelを用いた 構音障害者の音声認識の検討"— Presentation transcript:

Similar presentations

About project

フィードバック

Buried Markov Modelを用いた構音障害者の音声認識の検討

Presentation on theme: "Buried Markov Modelを用いた構音障害者の音声認識の検討"— Presentation transcript: