1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
脳活動に関するデータ データの種類 データの特徴 脳波・脳磁図・fMRI画像 脳活動とパフォーマンスの関係はきわめて冗長。
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
予測に用いる数学 2004/05/07 ide.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討 宮本 千琴,駒井 祐人,滝口 哲也,有木 康雄(神戸大),李 義昭(追手門大) 構音障害 研究背景・目的 音声認識技術の様々な状況での利用     カーナビゲーションの操作、駅での音声案内、子供や高齢者 福祉分野における情報技術の発展の重要性     超高齢社会(2800万人)、身体障害者(366万人) しかし、言語障害者を対象としているものは少ない 脳性マヒの方は、発話障害+手足の不自由     発話は自分の気持ちをよく表す手段であり、     重要なコミュニケーション手段の一つ 発話内容が分かれば、会話時にお互いの理解がより深まる 構音障害とは   言葉を正しく明瞭に発音できない症状 構音障害の原因の一つ:脳性マヒ   出生前や出生時に受けた外傷のため筋肉の制御が難しい      アテトーゼ(不随意運動)が生じる 特にアテトーゼの生じやすい状況   -意図的動作時   -緊張状態 健常者 構音障害者 構音障害者を対象とした音声認識システムの実現 n e a g e 問題点 従来のHMMにおける仮定 状態は1フレーム前の状態によって決まる 観測は各フレームの状態によって決まる    音声の生成構造が単純化されているため扱いやすい    時間的な変化特性を十分に表現できていない a k e g a t a 構音障害者の不安定な発話を認識するために Buried Markov Modelを用いる Buried Markov Model 学習の流れ Buried Markov Model [1] BMMの構造学習 (Pairwiseアルゴリズム+独立性検定) BMMのパラメータ学習 (EMアルゴリズム) BMM time 1 2 3 State Pairwiseアルゴリズム 独立性検定[2] 識別的依存関係の習得 Kendall の順位相関係数   2つの変数の順位の間の相関の強さを表す指標 Feature 冗長性の検定 Yの順位 :ターゲットノード :親ノード集合 HMMの各フレームの観測系列間に時間的依存関係を加えたモデル 状態によって親との依存関係のパターンが決まる :ノード について青の領域にある  データ :ノード について白の領域にある  データ [1]J.A. Bilmes, ``Buried Markov models: a graphical modeling approach to automatic speech recognition,'‘ Computer Speech and Language, Volume 17, Issues 2-3, 213-231, 2003. [2]山本 他, ``Buried Markov Modelを用いた音声認識モデルの構築法の検討,'' 情処研報,2009-SLP-79, No.21, pp.1-6, 2009. :データサイズ Xの順位 実験とまとめ 実験条件 実験データ:構音障害者1名 発話内容:ATR音素バランス単語216単語×5回発話 サンプリング周波数:16kHz フレーム窓長:25msec フレーム周期:10msec 特徴量:12次MFCC+ΔMFCC 状態数:43音素3状態 親ノードの上限数=3 探索過去フレーム数=5 考察 BMMの構造学習時に音声データの音素ラベル情報と   その時間情報が必要 音素間の境界が曖昧である 発声されていない子音がある 親ノードの上限数=5 親ノードの上限数=1 まとめ 音素間の境界と発声されていない子音を考慮する方法を検討 複数話者に対して有効性の確認 画像特徴も共に用いた構築アルゴリズムの検討