Presentation is loading. Please wait.

Presentation is loading. Please wait.

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

Similar presentations


Presentation on theme: "3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討"— Presentation transcript:

1 3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
松政 宏典 滝口 哲也 有木 康雄 (神戸大・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達)  研究背景・目的 構音障害者とは? ・脳性麻痺による随意筋障害をもつ      →構音(調音)が困難、不安定 ・知能障害の程度が軽いケースも多い ・福祉分野での情報技術の重要性 ・言語障害者は3万4000人 - 障害者を対象とした音声認識が少ない。 - 音声に頼るしかない場合は? 音声例  /a k e g a t a/ 音声認識の実現 <健常者> <構音障害者> 音声認識を用いた有効的な使用方法は? 環境制御装置 課題と対策  構音障害者では、発話スタイルが健常者と異  なるため、従来のモデルでは認識が困難 ・重度障害者の自立支援に重要な役割 ・赤外線装置による家電の操作が可能 ・操作方法 → → → 呼気、押しボタン、音声認識 など 構音障害者モデルの作成 脳性麻痺のため、発話スタイルが変動する場合が ある。 MLLR法、MAP法を用いた 変動に対する適応 発話に障害がない人の音声を対象としているため、 構音障害者の音声認識が困難 MLLR法&MAP法 タスク内容 ・対象機器(テレビ・CDプレーヤ・照明) ・7シーン、41コマンド MLLR法(複数の分布を一まとめにして、クラスとして適応) 機器選択  テレビ操作  CD操作 照明操作 Ch操作 番組表操作 メニュー操作 戻る テレビ 次のページ 再生する 照明をつける 番組表 メニューの表示 CDプレーヤ 電源 照明を消す NHK 上へ移動 照明1 電源オフ 豆球にする サンテレビ 下へ移動 Chアップ 一時停止 明るさを調整する 毎日放送 右へ移動 Chダウン 停止 テレビ大阪 左へ移動 音量アップ 次の曲 ABCテレビ 決定 音量ダウン 前の曲 関西テレビ 読売テレビ NHK教育 消音 音声切り替え オフタイマー ;バイアス ;基の平均ベクトル ;適応データ MAP法 (予め作成された音響モデルを事前情報として、事後確率の最大化を行う) MLLR法で求める  ;状態数   ;混合分布要素   ;重み    ;尤度    ;適応データ    ;基の平均 実験結果 今後の取り組み 音声認識システム 健常者モデル 構音障害者モデル ・100%の認識精度   -コマンドの絞込み   -モデルの強化 ・非コマンド発話への対応 ・環境音への配慮   -ノイズキャンセラなど CD/○○テレビ 音量アップ/ 電源etc Julian 環境制御装置 音声認識結果 (リクエスト) 現在の状態 家電操作 まとめ 平均 機器選択 TV操作 CD操作 照明操作 Ch操作 番組表操作 メニュー操作 ・構音障害者の音響モデルを  用いることで制御装置の実  現へ前進 ・状態に影響を受けやすく、  発話スタイルが変動しやす  いため、適応などによる対  処が必要である ・音声だけではなく非音声へ  の取り組みを行う MLLR + MAP法 環境制御装置「みてら」に音声認識「julian」を組み込む。 HMM-3状態(54音素) 音響モデル 633発話 テストデータ 25次元 (12MFCC+Δ+Δpower) 特徴量  10msec 分析周期 25msec ハミング窓長   認識  操作 健常者モデル(健常者の音声を用いて作成) 構音障害者モデル(構音障害者の音声を用いて作成)

2 Each example of spectrogram //a k e g a t a//
重度障害者の自立支援に重要な役割 赤外線装置による家電の操作が可能 操作方法 呼気、押しボタン、音声認識 など 発話に障害がない人の音声を対象としているため、 構音障害者の音声認識が困難 Each example of spectrogram //a k e g a t a// 構音障害者の音声認識が可能な環境制御装置の実現を目指す! CD/○○テレビ 音量アップ/ 電源etc Julian 環境制御装置 音声認識結果 (リクエスト) 現在の状態 家電操作 機器選択  テレビ操作  CD操作 照明操作 Ch操作 番組表操作 メニュー操作 戻る テレビ 次のページ 再生する 照明をつける 番組表 メニューの表示 CDプレーヤ 電源 照明を消す NHK 上へ移動 照明1 電源オフ 豆球にする サンテレビ 下へ移動 Chアップ 一時停止 明るさを調整する 毎日放送 右へ移動 Chダウン 停止 テレビ大阪 左へ移動 音量アップ 次の曲 ABCテレビ 決定 音量ダウン 前の曲 関西テレビ 読売テレビ NHK教育 消音 音声切り替え オフタイマー 健常者モデル 構音障害者モデル

3 3-Q-29 脳性麻痺構音障がい者の音声認識による情報家電操作の検討
松政 宏典 滝口 哲也 有木 康雄 (神戸大学院・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達)  課題と対策 研究背景・目的  構音障害者では、発話スタイルが健常者と異  なるため、従来のモデルでは認識が困難 ・福祉分野での情報技術の重要性 ・言語障害者は3万4000人 - 障害者を対象とした音声認識が少ない。 - 音声に頼るしかない場合は? 構音障害者モデルの作成 PCAを用いた発話スタイル変動に ロバストな特徴量抽出法 構音障害者において、最初の発話スタイルが、 他発話に比べ、変動する場合がある。 音声認識の実現 脳性マヒ・収録データ 不特定話者モデルでの認識&話者適応 ・大脳基底核の損傷のため、随意筋の 機能障害 MLLR + MAP推定   アテトーゼ(不随意運動)が生じる。 ・アテトーゼの生じやすい状況 - 意図的な動作を行う際 - 緊張状態 ・ 収録形式   - 連続発話 (5回連続) 不特定話者モデルでの認識は困難、 適応には大量のデータが必要である。 Ex) a k e g a t a Ex) h a n a h a d a 提案手法 ; 観測音声 ; 安定した音声 ; 発話スタイル成分  ;フレーム ;周波数 構音障害者モデル 音声データ FFT Mel Log | | PCA DCT 2回目以降 <作成例> 1回目発話 モデル作成(学習) 認識 2回目以降の発話 安定した音声 1回目発話 調音不安定音声 写像 安定した音声を用いて、PCAで求めた 主軸Vの部分空間に写像する。 (提案手法) →最初の意図的な動作のため  発話スタイルが不安定 空間の低次に安定した音声成分が、      高次には発話スタイル成分が集まる。 実験結果(1回目発話) まとめ・今後の方向性 ハミング窓長 25 msec 分析周期 10 msec 音響モデル monophone(54音素) 音声データ  210単語×5回 1回目の不安定な発話に対して、PCAを用いて特徴量を抽出することで、より有効的な特徴量が得られる。 福祉機器の開発 ・PCAには2~5回目発話の安定  した音声のフィルタバンク 出力 24 次元を用いる。 ・用いた主成分数   11,13,15,17,19 個 PCA MFCC 対象者を増やす PCAを用いることで 6.1 %の改善 少量データでの声質変換、話者適応


Download ppt "3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討"

Similar presentations


Ads by Google