Buried Markov Modelを用いた構音障害者の音声認識の検討

Slides:

Advertisements

Similar presentations

顔表情クラスタリングによる映像コンテンツへのタギング

Advertisements

音響モデルを利用したシングルチャネルによる音源方向推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

クロストーク成分の相互相関に着目した音場再生システム

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

雑音重み推定と音声ＧＭＭを用いた雑音除去

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

ランダムプロジェクションを用いた音声特徴量変換

神戸大学工学部松政宏典，滝口哲也，有木康雄追手門学院大学経済学部李義昭神戸大学発達科学部中林稔堯

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

脳活動に関するデータデータの種類データの特徴脳波・脳磁図・fMRI画像脳活動とパフォーマンスの関係はきわめて冗長。

非負値行列因子分解による構音障害者の声質変換

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

視点移動カメラにおけるカメラキャリブレーション

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

音素部分空間の統合による音声特徴量抽出の検討

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

予測に用いる数学 2004/05/07 ide.

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

分子生物情報学(2) 配列のマルチプルアライメント法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

AIを用いたドローンの新たな姿勢制御方法に関する研究

一方向画像からの３Dモデル生成電気電子工学科　白井研究室 T215049　田原　大輝.

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

メタモデルと音響モデルの統合による構音障害者の音声認識

非負値行列因子分解に基づく唇動画像からの音声生成

音声情報とベイジアンネットを用いた感性情報処理システム

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

Data Clustering: A Review

B03 量子論理回路の最適化に関する研究西野哲朗，垂井淳，太田和夫，國廣昇電気通信大学　情報通信工学科.

クロスバリデーションを用いたベイズ基準によるHMM音声合成

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

AdaBoostを用いたシステムへの問い合わせと雑談の判別

ブースティングとキーワードフィルタリングによるシステム要求検出

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

Buried Markov Modelを用いた構音障害者の音声認識の検討神戸大学大学院工学研究科　　　宮本千琴，駒井祐人，滝口哲也，有木康雄追手門学院大学経済学部　李義昭

構音障害構音障害とは構音障害の原因の一つ：脳性マヒアテトーゼ（不随意運動）が生じる特にアテトーゼの生じやすい状況健常者構音障害者言葉を正しく明瞭に発音できない症状構音障害の原因の一つ：脳性マヒ出生前や出生時に脳に受けた外傷のため筋肉の制御が難しい　　　　アテトーゼ（不随意運動）が生じる特にアテトーゼの生じやすい状況－意図的動作時－緊張状態健常者構音障害者外出、ごぶさた、ジグザグ、入浴、パイプ

研究背景音声認識技術の様々な状況での利用様々な人が生活の中で使う機会が増えている福祉分野における情報技術の発展カーナビゲーションの操作会議音声の議事録化駅での音声案内様々な人が生活の中で使う機会が増えている成人だけでなく、子供や高齢者も利用できる福祉分野における情報技術の発展超高齢社会（2800万人）、身体障害者（366万人）平成20年　総務省、内閣府障害白書

構音障害者の音声でも認識可能なシステムの実現研究目的現在、日本に言語障害者は４万２０００人　　　　　　　（平成20年版　障害者白書）言語障害者を対象とした研究は少ない脳性マヒの方は、構音障害＋手足の不自由発話は自分の気持ちをよく表す手段発話は重要なコミュニケーション手段の一つ発話内容が分かれば、会話時にお互いの理解がより深まる構音障害者の音声でも認識可能なシステムの実現

音声認識の実現職域開発音声認識ツールの使用による　　　　障害者の雇用機会増加への期待！コミュニケーションの広がり講演の補助等への活用

課題① 構音障害者は、発話スタイルが健常者と異なるため、従来のモデルでは認識が困難 →構音障害者モデルの作成不特定話者（健常者）モデルでの認識結果 →構音障害者モデルの作成

課題② 構音障害者モデル (HMM) の作成 →ΔMFCCの認識率が低い特定話者モデルでの認識結果健常者に比べて時間変化がうまく表現できていない

これまでの取り組み時間変化を表す特徴量を用いた時の認識率が低い時間変化をより表すようにする ΔMFCCの代わりにセグメント特徴量を用いる去年10月の本研究会で発表[1] [1]``構音障害者の音声認識における動的特徴量の考察,’’ 電子情報通信学会技術研究報告, SP2009-55, pp.37-42, 2009-10.

セグメント特徴量前後数フレーム分のΔMFCCから特徴量を構成 n フレーム・・・・・・・・・・・・・・・・・・・・・・・・ (12次元) ・・・・・・・・・ ΔMFCCを結合させたベクトル ( 12×n 次元) PCA ・・・・・・音声特徴量 (N 次元)

本発表でのアプローチ特徴量ではなくモデルに着目従来のHMMにおける仮定 Buried Markov Model[2]を用いる状態は１フレーム前の状態によって決まる観測は各フレームの状態によって決まる音声の生成構造が単純化されているため扱いやすい時間的な変化特性を十分に表現出来ていない Buried Markov Model[2]を用いる HMMの各フレームの観測系列間に時間的依存関係を示す　　条件付き確率のエッジを加えたモデル状態によって親との依存関係のパターンが決まる [2]J.A. Bilmes, ``Buried Markov models: a graphical modeling approach to automatic speech recognition,'‘ Computer Speech and Language, Volume 17, Issues 2-3, 213-231, 2003.

Hidden Markov Model (HMM) time 1 2 3 State Feature :時間長 :t番目のフレームにおける出力 :観測に対する状態

Buried Markov Model (BMM) time 1 2 3 State Feature :フレームｔにおける状態　によって一意に決まる　出力間のエッジの集合を決定する関数

BMMの学習 BMMの構造学習 (Pairwiseアルゴリズム＋独立性検定) BMMのパラメータ学習 (EMアルゴリズム) BMMの構築識別的依存関係の習得冗長性の検定：ターゲットノード：親ノード集合

独立性検定 Kendallの順位相関係数 2つの変数の順位の間の相関の強さを表す指標：ノードについて青の領域にあるデータ：ノード　について青の領域にある　データ：ノード　について白の領域にある　データ：データサイズ参考文献：山本他, ``Buried Markov Modelを用いた音声認識モデルの構築法の検討,'' 　　　　　　　情処研報，2009-SLP-79, No.21, pp.1-6, 2009.

BMMを用いた音素認識実験実験条件実験データ：構音障害者１名発話内容：ATR音素バランス単語216単語×5回発話サンプリング周波数：16kHz フレーム窓長：25msec フレーム周期：10msec 特徴量：12次MFCC＋ΔMFCC 状態数：43音素3状態探索過去フレーム数、親ノード数をそれぞれ変化させ比較

実験結果1 (探索過去フレーム数＝5)

実験結果2 (親ノードの上限数=1)

実験結果3 (親ノードの上限数=3)

実験結果4 (親ノードの上限数=5)

考察構造学習時に音声データの音素ラベル情報とその時間情報が必要

まとめ発話が不安定な構音障害者の音声認識精度を改善するために、観測ノード間の時間的な依存関係を記述できるBMMを用いた音声認識手法を検討構造学習手法の検討複数話者での有効性の確認音声特徴だけでなく画像特徴も共に用いる

ご清聴ありがとうございました