3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

Slides:



Advertisements
Similar presentations
顔表情クラスタリングによる 映像コンテンツへのタギング
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討 松政 宏典 滝口 哲也 有木 康雄 (神戸大・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達)  研究背景・目的 構音障害者とは? ・脳性麻痺による随意筋障害をもつ      →構音(調音)が困難、不安定 ・知能障害の程度が軽いケースも多い ・福祉分野での情報技術の重要性 ・言語障害者は3万4000人 - 障害者を対象とした音声認識が少ない。 - 音声に頼るしかない場合は? 音声例  /a k e g a t a/ 音声認識の実現 <健常者> <構音障害者> 音声認識を用いた有効的な使用方法は? 環境制御装置 課題と対策  構音障害者では、発話スタイルが健常者と異  なるため、従来のモデルでは認識が困難 ・重度障害者の自立支援に重要な役割 ・赤外線装置による家電の操作が可能 ・操作方法 → → → 呼気、押しボタン、音声認識 など 構音障害者モデルの作成 脳性麻痺のため、発話スタイルが変動する場合が ある。 MLLR法、MAP法を用いた 変動に対する適応 発話に障害がない人の音声を対象としているため、 構音障害者の音声認識が困難 MLLR法&MAP法 タスク内容 ・対象機器(テレビ・CDプレーヤ・照明) ・7シーン、41コマンド MLLR法(複数の分布を一まとめにして、クラスとして適応) 機器選択  テレビ操作  CD操作 照明操作 Ch操作 番組表操作 メニュー操作 戻る テレビ 次のページ 再生する 照明をつける 番組表 メニューの表示 CDプレーヤ 電源 照明を消す NHK 上へ移動 照明1 電源オフ 豆球にする サンテレビ 下へ移動 Chアップ 一時停止 明るさを調整する 毎日放送 右へ移動 Chダウン 停止 テレビ大阪 左へ移動 音量アップ 次の曲 ABCテレビ 決定 音量ダウン 前の曲 関西テレビ 読売テレビ NHK教育 消音 音声切り替え オフタイマー ;バイアス ;基の平均ベクトル ;適応データ MAP法 (予め作成された音響モデルを事前情報として、事後確率の最大化を行う) MLLR法で求める  ;状態数   ;混合分布要素   ;重み    ;尤度    ;適応データ    ;基の平均 実験結果 今後の取り組み 音声認識システム 健常者モデル 構音障害者モデル ・100%の認識精度   -コマンドの絞込み   -モデルの強化 ・非コマンド発話への対応 ・環境音への配慮   -ノイズキャンセラなど CD/○○テレビ 音量アップ/ 電源etc Julian 環境制御装置 音声認識結果 (リクエスト) 現在の状態 家電操作 まとめ 平均 機器選択 TV操作 CD操作 照明操作 Ch操作 番組表操作 メニュー操作 ・構音障害者の音響モデルを  用いることで制御装置の実  現へ前進 ・状態に影響を受けやすく、  発話スタイルが変動しやす  いため、適応などによる対  処が必要である ・音声だけではなく非音声へ  の取り組みを行う MLLR + MAP法 環境制御装置「みてら」に音声認識「julian」を組み込む。 HMM-3状態(54音素) 音響モデル 633発話 テストデータ 25次元 (12MFCC+Δ+Δpower) 特徴量  10msec 分析周期 25msec ハミング窓長   認識  操作 健常者モデル(健常者の音声を用いて作成) 構音障害者モデル(構音障害者の音声を用いて作成)

Each example of spectrogram //a k e g a t a// 重度障害者の自立支援に重要な役割 赤外線装置による家電の操作が可能 操作方法 呼気、押しボタン、音声認識 など 発話に障害がない人の音声を対象としているため、 構音障害者の音声認識が困難 Each example of spectrogram //a k e g a t a// 構音障害者の音声認識が可能な環境制御装置の実現を目指す! CD/○○テレビ 音量アップ/ 電源etc Julian 環境制御装置 音声認識結果 (リクエスト) 現在の状態 家電操作 機器選択  テレビ操作  CD操作 照明操作 Ch操作 番組表操作 メニュー操作 戻る テレビ 次のページ 再生する 照明をつける 番組表 メニューの表示 CDプレーヤ 電源 照明を消す NHK 上へ移動 照明1 電源オフ 豆球にする サンテレビ 下へ移動 Chアップ 一時停止 明るさを調整する 毎日放送 右へ移動 Chダウン 停止 テレビ大阪 左へ移動 音量アップ 次の曲 ABCテレビ 決定 音量ダウン 前の曲 関西テレビ 読売テレビ NHK教育 消音 音声切り替え オフタイマー 健常者モデル 構音障害者モデル

3-Q-29 脳性麻痺構音障がい者の音声認識による情報家電操作の検討 松政 宏典 滝口 哲也 有木 康雄 (神戸大学院・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達)  課題と対策 研究背景・目的  構音障害者では、発話スタイルが健常者と異  なるため、従来のモデルでは認識が困難 ・福祉分野での情報技術の重要性 ・言語障害者は3万4000人 - 障害者を対象とした音声認識が少ない。 - 音声に頼るしかない場合は? 構音障害者モデルの作成 PCAを用いた発話スタイル変動に ロバストな特徴量抽出法 構音障害者において、最初の発話スタイルが、 他発話に比べ、変動する場合がある。 音声認識の実現 脳性マヒ・収録データ 不特定話者モデルでの認識&話者適応 ・大脳基底核の損傷のため、随意筋の 機能障害 MLLR + MAP推定   アテトーゼ(不随意運動)が生じる。 ・アテトーゼの生じやすい状況 - 意図的な動作を行う際 - 緊張状態 ・ 収録形式   - 連続発話 (5回連続) 不特定話者モデルでの認識は困難、 適応には大量のデータが必要である。 Ex) a k e g a t a Ex) h a n a h a d a 提案手法 ; 観測音声 ; 安定した音声 ; 発話スタイル成分  ;フレーム ;周波数 構音障害者モデル 音声データ FFT Mel Log | | PCA DCT 2回目以降 <作成例> 1回目発話 モデル作成(学習) 認識 2回目以降の発話 ∥ 安定した音声 1回目発話 ∥ 調音不安定音声 写像 安定した音声を用いて、PCAで求めた 主軸Vの部分空間に写像する。 (提案手法) →最初の意図的な動作のため  発話スタイルが不安定 空間の低次に安定した音声成分が、      高次には発話スタイル成分が集まる。 実験結果(1回目発話) まとめ・今後の方向性 ハミング窓長 25 msec 分析周期 10 msec 音響モデル monophone(54音素) 音声データ  210単語×5回 1回目の不安定な発話に対して、PCAを用いて特徴量を抽出することで、より有効的な特徴量が得られる。 福祉機器の開発 ・PCAには2~5回目発話の安定  した音声のフィルタバンク 出力 24 次元を用いる。 ・用いた主成分数   11,13,15,17,19 個 PCA MFCC 対象者を増やす PCAを用いることで 6.1 %の改善 少量データでの声質変換、話者適応