メタモデルと音響モデルの 統合による構音障害者の音声認識

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

メタモデルと音響モデルの 統合による構音障害者の音声認識 メタモデルと音響モデルの       統合による構音障害者の音声認識 神戸大学工学研究科    松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部  李 義昭 神戸大学発達科学部  中林 稔堯

構音障害者とは? 構音 [調音] が困難である。 緊張時 [意図的な動作時] に、 不随意運動が現れる場合がある。 母親 明るさを調整する NHK教育 <平常時> <発話時> 構音 [調音] が困難である。 緊張時 [意図的な動作時] に、 不随意運動が現れる場合がある。

研究背景 福祉分野での情報技術の重要性 音声認識の多様化 音声合成 手話認識 文字認識 子供、高齢者 車内、会議室 (手話認識、文字の点字化、音声合成) 言語障害の原因→脳性マヒ,脳卒中など

研究目的 ユニバーサルデザイン音声認識の実現! 言語障害者は3万4000人 (平成19年版 障害者白書)        (平成19年版 障害者白書) 障害者(聴覚・言語障害)を対象とした音声認識が少ない。 音声に頼るしかない場合は? 知能をわずらってない

音声認識への期待 職域開発 コミュニケーションの広がり 音声認識ツールの使用による、 障害者の雇用機会増加への期待!  障害者の雇用機会増加への期待! コミュニケーションの広がり 音声合成・STT (Speech To Text)による相互理解 講演の補助等への活用

関連研究 (産総研 07’音響学会) 重度障害者のための音声認識電動車いすの開発 喉頭摘出者データを用いた人工音声変換システムの評価         (産総研 07’音響学会) 喉頭摘出者データを用いた人工音声変換システムの評価   (奈良先端大 07’ 電子情報通信学会 WIT)

アプローチ Metamodel との統合 ロバストな特徴量抽出法 PCAを用いた発話スタイル変動に 構音障害者において、最初の発話スタイルが、  他発話に比べ、変動する場合がある。 PCAを用いた発話スタイル変動に ロバストな特徴量抽出法 → Metamodel との統合

Metamodel Confusion Matrix を音声認識のモデルに組み込むことに  より、音の変化(削除・挿入・置換)を確率的に表現可能  各状態に離散出力確率・遷移確率(離散型HMM)  入力特徴量は音素認識列  学習は Baum Welch アルゴリズムで行う 各音素に Metamodel を作成 削除 入力 A B C 出力 挿入 置換 挿入

Metamodel 削除 挿入 置換 挿入 置換 正解 (置換) 挿入 モデル[a]の例 入力 [i] の場合 A B C [i] A B 出力分布例 Phoneme / State A B C a 0.1 0.7 0.2 i 0.4 0.3 u 0.05 e o 入力 [a u] の場合 [a] [u] A B C 正解 (置換) 挿入

Metamodel A B C :単語 :音素 :音素認識結果 :信号 Metamodel 

Metamodel認識 she ある単語(例;she)を構成する音素列に対応するMetamodel列 入力音声 音素認識 ch sh er ax hh sh iy hh [er] [ax] [hh]

Acoustic Model [音素HMM] 提案手法-Metamodelとの統合- <特徴量-数値> 1.138 1.283  -1.024 -1.424  -0.123 0.432 1.175 0.187  -0.854 -0.002 ・・・・・・ <PCA method> PCA 学習 1回目発話 (不安定音声) 2回目, 3回目 … (安定音声) Acoustic Model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識 <特徴量-文字> o k a sh r aN ii 学習 Metamodel New Confidence measure (Proposed method) 音の変化(置換・挿入・削除)を考慮 Training Test

Acoustic model [音素HMM] 提案手法-Metamodelとの統合- <PCA method> PCA 学習 1回目発話 (不安定音声) 2回目, 3回目 … (安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識 学習 Metamodel New Confidence measure (Proposed method) Training Test

PCAによる発話不安定成分の抑圧(1) 抑圧 2回目以降 1回目発話 ; 観測音声 ; 安定した音声 ; 発話不安定成分 ;フレーム番号 ;周波数 2回目以降 1回目発話 抑圧

PCAによる発話不安定成分の抑圧(2) × × PCA … *空間の低次に安定した音声成分が集まる。 2回目、3回目・・・発話 *固有ベクトル集合を主軸(変換行列)Vとする 1回目に比べ安定している 認識精度が安定 PCA 1回目発話 緊張のために不安定 認識に悪影響 … × ×

Acoustic model [音素HMM] 提案手法-Metamodelとの統合- <PCA method> PCA 学習 1回目発話 (不安定音声) 2回目, 3回目 … (安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> 音素認識 + 音素例[あかい-a k a i] Meta 認識 学習 Metamodel New Confidence measure (Proposed method) Training Test

統合例 Correct! 音 単 響 語 モ 認 デ 識 ル Italy M メ e タ t モ a デ 認 ル 識 N-Best … Test data Correct! Italy … N-Best = weight + メ タ モ デ ル M e t a 認 識 …

実験概要 音響モデルとメタモデルの統合による音声認識 PCAには2~5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。 <実験条件> ハミング窓長 25 msec 分析周期 10 msec 音響モデル monophone 構音障害者音声データ  210単語×5回 (1050発話) PCAには2~5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。 用いた主成分数・・・15個 [24次元から15次元へ] 3Best単語に対して統合

従来法との比較 [α=0.15] 1回目のみ [test:210単語] 5回平均 [test:1050単語]

まとめ・今後の方向性 Metamodel との統合によって、音の変化への 考慮が可能となった。 今後の方向性 明瞭度の向上 [高域パワーの強調など] 話者適応 他者の構音障害者モデル vs 健常者不特定話者モデル 音素体系作り,,,etc 単語内SPの考慮 例;ひょうほん

音声認識の利用例;環境制御装置 従来製品との違い 環境制御装置「みてら」に音声認識「julian」を組み込む。 多くは認識が困難、コマンド限定で適応 コマンドへの自由度が高い、操作を個人に特化可能 環境制御装置「みてら」に音声認識「julian」を組み込む。 日本シュータ;OS Windows 98であるため、2007年5月末をもって販売を中止する予定になっております。   認識  操作

システムの流れ 音声認識 CD/○○テレビ 音量アップ/ 電源etc 音声認識結果 現在の状態 (リクエスト) 家電操作 環境制御装置 30分前に前回 音声認識結果 (リクエスト) 現在の状態 家電操作 環境制御装置

システム動作映像 発話可能コマンド 対話画面(指示&認識) ここにデモ映像

ご清聴ありがとうございました。 …END

補助資料

1回目発話[α= 0~0.4]

PCAとMFCCの比較(1回目発話)

構音障害者音声 Aさん(男性) Bさん(男性) Cさん(女性) 母親 アルミニウム

アルミニウム(a r u m i n i u m u) 構 音 障 害 者 健 常 者

Metamodel検証実験 提案手法(1)を用いて音素認識実験 精度の低下が大きい。 210単語 1回目 2回目 3回目 4回目 5回目 認識率 69.6 71.95 73.38 72.84 71.11 精度 36.03 43.24 47.59 46.69 44.31 精度の低下が大きい。 音の変化 [置換・挿入・削除]が生じていると考えられる。

Baum Welch アルゴリズム パラメータ推定 出力確率 遷移確率

変換行列Ⅴ 音 声 音声は全て使用 固有ベクトルが変換行列V <PCA> 分散の最大空間から選択 低次-------高次 非 分散の最大空間から選択         低次-------高次 音韻性-------話者性 音声は全て使用 固有ベクトルが変換行列V <DCT>

モデル適応結果(MLLR+MAP推定) 少量データでの適応が困難 モデル適応の結果になります。適応データは20、から210まで変化させ7パターンになります。 100発話適応に用いたとしても40%までの精度の改善しか得られません。 これらから少量のデータでの適応は困難であるといえます。 適応が困難な原因として、適応なしの場合においての認識精度があまりに低いためということが考えられます。 少量データでの適応が困難

関連研究-音声特徴量 windowing STDFT Log IDFT メル軸上で 三角窓の適用 |S|’ DFT 係数 |S| 音波形 log |S|’ MFCC Frequency Amplitude MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの特性を音声特徴量として取り出す

アテトーゼ型脳性マヒとは 大脳基底核の損傷のため、随意筋の機能障害 アテトーゼ(不随意運動)が生じる。 アテトーゼの生じやすい状況 大脳基底核の損傷のため、随意筋の機能障害     アテトーゼ(不随意運動)が生じる。 アテトーゼの生じやすい状況 意図的な動作を行う際 緊張状態 収録データ (1名) 連続発話 

Confusion Matrix [Pr(Pout|Pin)] 入力 音素 認識音素

環境制御装置 株式会社日本シュータ 旭化成 「NSシーケアパイロット 」 特定話者の単語モデルで適応を行う。 Windows98のため販売終了 旭化成 「ライフタクト」 頚椎損傷・リウマチ・筋ジストロフィーなど  手足に障害を持つ方の自立した生活を支援