メタモデルと音響モデルの統合による構音障害者の音声認識

Slides:

Advertisements

Similar presentations

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

Advertisements

顔表情クラスタリングによる映像コンテンツへのタギング

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

音響モデルを利用したシングルチャネルによる音源方向推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

クロストーク成分の相互相関に着目した音場再生システム

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

ランダムプロジェクションを用いた音声特徴量変換

神戸大学工学部松政宏典，滝口哲也，有木康雄追手門学院大学経済学部李義昭神戸大学発達科学部中林稔堯

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討

非負値行列因子分解による構音障害者の声質変換

複数尤度を用いた３次元パーティクルフィルタによる選手の追跡 IS1-39

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

視点移動カメラにおけるカメラキャリブレーション

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去.

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

音高による音色変化に着目した音源同定に関する研究

音素部分空間の統合による音声特徴量抽出の検討

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

Specmurtを利用した調波構造行列による混合楽音解析の検討

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

非負値行列因子分解に基づく唇動画像からの音声生成

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

クロスバリデーションを用いたベイズ基準によるHMM音声合成

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

ブースティングとキーワードフィルタリングによるシステム要求検出

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し，合成できるインタフェース

HMM音声合成における変分ベイズ法に基づく線形回帰

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

わかりやすいパターン認識第６章特徴空間の変換６．５ KL展開の適用法〔１〕 KL展開と線形判別法〔２〕 KL展開と学習パターン数

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

メタモデルと音響モデルの統合による構音障害者の音声認識メタモデルと音響モデルの　　　　　　　統合による構音障害者の音声認識神戸大学工学研究科　　　松政宏典，滝口哲也，有木康雄追手門学院大学経済学部　李義昭神戸大学発達科学部　中林稔堯

構音障害者とは？構音 [調音] が困難である。緊張時 [意図的な動作時] に、不随意運動が現れる場合がある。母親明るさを調整する NHK教育＜平常時＞＜発話時＞構音 [調音] が困難である。緊張時 [意図的な動作時] に、不随意運動が現れる場合がある。

研究背景福祉分野での情報技術の重要性音声認識の多様化音声合成手話認識文字認識子供、高齢者車内、会議室（手話認識、文字の点字化、音声合成）言語障害の原因→脳性マヒ，脳卒中など

研究目的ユニバーサルデザイン音声認識の実現！言語障害者は３万４０００人（平成19年版障害者白書）　　　　　　　（平成19年版　障害者白書）障害者(聴覚・言語障害)を対象とした音声認識が少ない。音声に頼るしかない場合は？知能をわずらってない

音声認識への期待職域開発コミュニケーションの広がり音声認識ツールの使用による、障害者の雇用機会増加への期待！　障害者の雇用機会増加への期待！コミュニケーションの広がり音声合成・STT (Speech To Text)による相互理解講演の補助等への活用

関連研究（産総研 07’音響学会）重度障害者のための音声認識電動車いすの開発喉頭摘出者データを用いた人工音声変換システムの評価　　　　　　　　（産総研　07’音響学会）喉頭摘出者データを用いた人工音声変換システムの評価　（奈良先端大　０7’　電子情報通信学会 WIT）

アプローチ Metamodel との統合ロバストな特徴量抽出法 PCAを用いた発話スタイル変動に構音障害者において、最初の発話スタイルが、　他発話に比べ、変動する場合がある。 PCAを用いた発話スタイル変動にロバストな特徴量抽出法 → Metamodel との統合

Metamodel Confusion Matrix を音声認識のモデルに組み込むことに　より、音の変化（削除・挿入・置換）を確率的に表現可能　各状態に離散出力確率・遷移確率（離散型HMM）　入力特徴量は音素認識列　学習は Baum Welch アルゴリズムで行う各音素に Metamodel を作成削除入力 A B C 出力挿入置換挿入

Metamodel 削除挿入置換挿入置換正解（置換）挿入モデル[a]の例入力 [i] の場合 A B C [i] A B 出力分布例 Phoneme / State A B C a 0.1 0.7 0.2 i 0.4 0.3 u 0.05 e o 入力 [a u] の場合 [a] [u] A B C 正解（置換）挿入

Metamodel A B C ：単語：音素：音素認識結果：信号 Metamodel　

Metamodel認識 she ある単語（例；she）を構成する音素列に対応するMetamodel列入力音声音素認識 ch sh er ax hh sh iy hh [er] [ax] [hh]

Acoustic Model [音素HMM] 提案手法－Metamodelとの統合－＜特徴量-数値＞ 1.138 1.283 　-1.024 -1.424 　-0.123 0.432 1.175 0.187 　-0.854 -0.002 ・・・・・・ <PCA method> ＰＣＡ学習 1回目発話 (不安定音声) 2回目, 3回目 …　(安定音声) Acoustic Model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識＜特徴量-文字＞ o k a sh r aN ii 学習 Metamodel New Confidence measure (Proposed method) 音の変化（置換・挿入・削除）を考慮 Training Test

Acoustic model [音素HMM] 提案手法－Metamodelとの統合－ <PCA method> ＰＣＡ学習 1回目発話 (不安定音声) 2回目, 3回目 …　(安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識学習 Metamodel New Confidence measure (Proposed method) Training Test

PCAによる発話不安定成分の抑圧(1) 抑圧 2回目以降 1回目発話 ; 観測音声 ; 安定した音声 ; 発話不安定成分 ;フレーム番号 ;周波数 2回目以降 1回目発話抑圧

PCAによる発話不安定成分の抑圧(2) × × ＰＣＡ … ＊空間の低次に安定した音声成分が集まる。 2回目、3回目･･･発話＊固有ベクトル集合を主軸（変換行列）Ｖとする 1回目に比べ安定している認識精度が安定ＰＣＡ 1回目発話緊張のために不安定認識に悪影響 … × ×

Acoustic model [音素HMM] 提案手法－Metamodelとの統合－ <PCA method> ＰＣＡ学習 1回目発話 (不安定音声) 2回目, 3回目 …　(安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識学習 Metamodel New Confidence measure (Proposed method) Training Test

統合例 Correct! 音単響語モ認デ識ル Italy M メ e タ t モ a デ認ル識 N-Best … Test data Correct! Italy … N-Best = weight + メタモデル M e t a 認識 …

実験概要音響モデルとメタモデルの統合による音声認識 PCAには2～5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。＜実験条件＞ハミング窓長 25 msec 分析周期 10 msec 音響モデル monophone 構音障害者音声データ　 210単語×5回 (1050発話) PCAには2～5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。用いた主成分数･･･15個 [24次元から15次元へ] ３Best単語に対して統合

従来法との比較 [α=0.15] 1回目のみ [test:210単語] 5回平均 [test:1050単語]

まとめ・今後の方向性 Metamodel との統合によって、音の変化への考慮が可能となった。今後の方向性明瞭度の向上 [高域パワーの強調など] 話者適応　他者の構音障害者モデル vs 健常者不特定話者モデル音素体系作り,,,etc 単語内ＳＰの考慮例；ひょうほん

音声認識の利用例；環境制御装置従来製品との違い環境制御装置「みてら」に音声認識「julian」を組み込む。多くは認識が困難、コマンド限定で適応コマンドへの自由度が高い、操作を個人に特化可能環境制御装置「みてら」に音声認識「julian」を組み込む。日本シュータ；ＯＳ　Windows　98であるため、2007年5月末をもって販売を中止する予定になっております。　　認識　操作

システムの流れ音声認識ＣＤ/○○テレビ音量アップ/ 電源etc 音声認識結果現在の状態（リクエスト）家電操作環境制御装置３０分前に前回音声認識結果（リクエスト）現在の状態家電操作環境制御装置

システム動作映像発話可能コマンド対話画面（指示＆認識）ここにデモ映像

ご清聴ありがとうございました。 …END

補助資料

1回目発話[α= 0～0.4]

PCAとMFCCの比較（1回目発話）

構音障害者音声Ａさん（男性）Ｂさん（男性）Ｃさん（女性）母親アルミニウム

アルミニウム（a r u m i n i u m u）構音障害者健常者

Metamodel検証実験提案手法（１）を用いて音素認識実験精度の低下が大きい。 210単語１回目２回目３回目４回目５回目認識率 69.6 71.95 73.38 72.84 71.11 精度 36.03 43.24 47.59 46.69 44.31 精度の低下が大きい。音の変化 [置換・挿入・削除]が生じていると考えられる。

Baum Welch アルゴリズムパラメータ推定出力確率遷移確率

変換行列Ⅴ 音声音声は全て使用固有ベクトルが変換行列Ｖ＜ＰＣＡ＞分散の最大空間から選択低次-------高次非分散の最大空間から選択　　　　　　低次-------高次音韻性-------話者性音声は全て使用固有ベクトルが変換行列Ｖ＜DCT＞

モデル適応結果（MLLR+MAP推定）少量データでの適応が困難モデル適応の結果になります。適応データは２０、から２１０まで変化させ７パターンになります。１００発話適応に用いたとしても４０％までの精度の改善しか得られません。これらから少量のデータでの適応は困難であるといえます。適応が困難な原因として、適応なしの場合においての認識精度があまりに低いためということが考えられます。少量データでの適応が困難

関連研究-音声特徴量 windowing STDFT Log IDFT メル軸上で三角窓の適用 |S|’ DFT 係数 |S| 音波形 log |S|’ MFCC Frequency Amplitude MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの特性を音声特徴量として取り出す

アテトーゼ型脳性マヒとは大脳基底核の損傷のため、随意筋の機能障害アテトーゼ（不随意運動）が生じる。アテトーゼの生じやすい状況大脳基底核の損傷のため、随意筋の機能障害　　　アテトーゼ（不随意運動）が生じる。アテトーゼの生じやすい状況意図的な動作を行う際緊張状態収録データ (1名) 連続発話　

Confusion Matrix [Pr(Pout|Pin)] 入力音素認識音素

環境制御装置株式会社日本シュータ旭化成「NSシーケアパイロット」特定話者の単語モデルで適応を行う。 Windows98のため販売終了旭化成「ライフタクト」頚椎損傷・リウマチ・筋ジストロフィーなど　手足に障害を持つ方の自立した生活を支援