神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯

Slides:



Advertisements
Similar presentations
顔表情クラスタリングによる 映像コンテンツへのタギング
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
連続音声の音響的性質.
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
脳性まひをもつ 子どもの発達 肢体不自由児の動作改善を目指して 障害児病理・保健学演習 プレゼンテーション資料 2000年2月24日
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
主成分分析 Principal Component Analysis PCA
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯 構音障害者の音声認識の検討 神戸大学工学部    松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部  李 義昭 神戸大学発達科学部  中林 稔堯

研究背景 音声認識の多様化 福祉分野への情報技術の適用 子供、高齢者 車内 音声合成 手話認識 文字認識 (手話認識、文字の点字化、音声合成) 言語障害の原因→脳性マヒ,脳卒中など

研究目的 音声認識の実現 言語障害者は3万4000人 (平成13年度 厚生労働省) 障害者(聴覚・言語障害)を対象とした音声認識が少ない。        (平成13年度 厚生労働省) 障害者(聴覚・言語障害)を対象とした音声認識が少ない。 音声に頼るしかない場合は? 音声認識の実現

課題 構音障害者モデルの作成 変動成分の抑圧のための PCAを用いた徴量抽出方法 構音障害者では、発話スタイルが異なるため、従来のモデルでは認識が困難 構音障害者モデルの作成 構音障害者において、最初の発話スタイルが、  他発話に比べ、変動する場合がある。 → 変動成分の抑圧のための PCAを用いた徴量抽出方法

脳性マヒとは 受胎から生後4週以内の新生児までの間に生じた、脳の非進行性病変に基づく、永続的な、しかし変化しうる運動および姿勢の異常である。その症状は満2歳までに発現する。(厚生省)   *分類 痙直型 アテトーゼ型 (10~15%) 失調型 緊張低下型 固縮型 混合型 受胎から新生児期までの間に、種々の原因で脳に非進行性の病変を起こし、その結果、永久的に四肢及び躯幹筋の痙直、麻痺、不随運動、運動失調などを生じた病態を指す。

アテトーゼ型とは 大脳基底核に損傷を受けたことによる、随意筋機能障害であり、アテトーゼ(不随意運動)が生じる。 意図的な動作を行う際や緊張状態においてアテトーゼが出やすい。 アテトーゼ型脳性マヒでは、知能障害を合併していないケースや比較的知能 障害の程度が軽いケースも多い。 Aaaa

収録データ 210単語 (ATR音素バランス単語) 連続発話 音声例 ・あけがた ・はなはだ 図差し替え 連続発話  音声例  ・あけがた     ・はなはだ 発話毎に認識率の変化を調べるために連続発話。 各発話を切り取り 図差し替え

汎用モデルでの認識 →従来の汎用モデルでは構音障害者の音声認識が困難

構音障害者モデルでの発話毎の認識率 →最初の意図的な動作のため発話スタイルが不安定

提案手法 DCTではなく、スペクトル上でPCAを用いる。 音声認識システムにおいて、従来はMFCCをもちいまし。MFCCではメル尺度でのフィルタバンクの短時間対数エネルギー出力に対して、離散コサイン変換を適用しケプストラムを得ています。そしてスペクトルホウラク成分に対応する低次成分のみ用いています。今回はより発話スタイルの変動にロバストな特徴量抽出方法として、離散コサイン変換ではなくPCAを用いる。 DCTではなく、スペクトル上でPCAを用いる。

PCAによる発話スタイル変動成分の抑圧(1) ; 観測音声 ; 安定した音声 ; 発話スタイル変動成分 2回目以降 1回目発話 抑圧

PCAによる発話スタイル変動成分の抑圧(2) 1回目発話 ∥ 調音不安定音声 2回目以降の発話 ∥ 安定した音声 写像 安定した音声を用いて、PCAで求めた主軸Vの部分空間に写像する。 空間の低次に音声成分が、高次には発話スタイル変動成分が集まる。

実験内容 MLLR+MAP推定による話者適応 PCAを用いた発話スタイル変動にロバストな特徴量抽出法

実験条件 ハミング窓長 25msec 分析周期 10msec 音響モデル monophone モデル適応には2回目の発話を用いる。 PCAには2~5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。

モデル適応結果 少量データでの適応が困難

PCAとMFCCの比較(1回目発話) PCAを用いることで    6.1%の改善 (79.1%→85.2%) より有効的な特徴量抽出が可能である。

発話毎の認識率比較(17次元)

まとめ・課題 1回目の不安定な発話に対して、PCAを用いて特徴量を抽出することで、より有効的な特徴量が得られる。 PCAのカーネル化 構音障害者用の音素モデル 対象者を増やす

END

→ → → →補助

1回目と他発話の違い <例> はっぴゃく はんぎゃく

PCA(Principal Component Analysis) x2 空間選択;分散が最大空間         を順次選択     有効性 低次-------高次 大 ------- 小 y X1

発話毎の認識率 構音障害者の場合1回目の認識率が著しく低下する。 図図 構音障害者の場合1回目の認識率が著しく低下する。 1回目は最初の意図的な動作であり緊張状態のためアテトーゼが生じ、調音が困難となっているため 発話スタイルが不安定と考えられる。

単語認識結果

特定話者モデルの作成 音素数 54 音素 混合分布数 6 テストデータ 1050(210単語×5回) <作成例> 認識 モデル作成(学習)

従来手法での問題点 汎用モデルでは認識が困難 少量データでの適応が困難 精度の向上には大量のデータが必要 適応データ数(2回目発話) 認識率 [%] 2.9 40 22.5 100 42.9 210 61.3

モデル適応 MLLR(Maximum Likelihood Linear Regression)法 MAP(Maximum A Posteriori)推定法 ;適応前平均ベクトル ;適応後平均ベクトル MLLR法で求められた平均ベクトルを事前分布における平均ベクトルとする。 データ量が多い場合に最ゆう推定への収束が保証されている。 ;推定パラメータ ;適応データ ;パラメータ(既知)←MLLR法で求めたものを使用

PCAとMFCCの比較(1回目発話)

全発話での結果 平均1.3%の改善が

MFCC(Mel Frequency Cepstrum Coefficient) 音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale) 周波数の対数におおよそ対応 人間の周波数に対する音の高さの感覚 低周波数 → 細かい 高周波数 → 粗い レベル ・・・ ・・ ・ メル周波数 各帯域フィルタの出力   と, 離散コサイン変換(DCT)を用いて,MFCC係数が計算される.

想定される質問 一度写像した音声を逆写像したら、安定した音声と同じように聞こえるのか? 今後・・・ 今回でも約40分ほどのデータ収録をしている。負担が大きいので話者適応を目指した方がよいのでは? 今回はアプローチ方法の一つとして特定話者モデルを作成した。

音素数による違い 母音・子音に違いは無い。 54音素の場合はより音は細かく表示可能。 <例>こんにゃく 54音素;k oN ny a- k u+ 43音素 ; k o N ny a k u