神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯 構音障害者の音声認識の検討 神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
研究背景 音声認識の多様化 福祉分野への情報技術の適用 子供、高齢者 車内 音声合成 手話認識 文字認識 (手話認識、文字の点字化、音声合成) 言語障害の原因→脳性マヒ,脳卒中など
研究目的 音声認識の実現 言語障害者は3万4000人 (平成13年度 厚生労働省) 障害者(聴覚・言語障害)を対象とした音声認識が少ない。 (平成13年度 厚生労働省) 障害者(聴覚・言語障害)を対象とした音声認識が少ない。 音声に頼るしかない場合は? 音声認識の実現
課題 構音障害者モデルの作成 変動成分の抑圧のための PCAを用いた徴量抽出方法 構音障害者では、発話スタイルが異なるため、従来のモデルでは認識が困難 構音障害者モデルの作成 構音障害者において、最初の発話スタイルが、 他発話に比べ、変動する場合がある。 → 変動成分の抑圧のための PCAを用いた徴量抽出方法
脳性マヒとは 受胎から生後4週以内の新生児までの間に生じた、脳の非進行性病変に基づく、永続的な、しかし変化しうる運動および姿勢の異常である。その症状は満2歳までに発現する。(厚生省) *分類 痙直型 アテトーゼ型 (10~15%) 失調型 緊張低下型 固縮型 混合型 受胎から新生児期までの間に、種々の原因で脳に非進行性の病変を起こし、その結果、永久的に四肢及び躯幹筋の痙直、麻痺、不随運動、運動失調などを生じた病態を指す。
アテトーゼ型とは 大脳基底核に損傷を受けたことによる、随意筋機能障害であり、アテトーゼ(不随意運動)が生じる。 意図的な動作を行う際や緊張状態においてアテトーゼが出やすい。 アテトーゼ型脳性マヒでは、知能障害を合併していないケースや比較的知能 障害の程度が軽いケースも多い。 Aaaa
収録データ 210単語 (ATR音素バランス単語) 連続発話 音声例 ・あけがた ・はなはだ 図差し替え 連続発話 音声例 ・あけがた ・はなはだ 発話毎に認識率の変化を調べるために連続発話。 各発話を切り取り 図差し替え
汎用モデルでの認識 →従来の汎用モデルでは構音障害者の音声認識が困難
構音障害者モデルでの発話毎の認識率 →最初の意図的な動作のため発話スタイルが不安定
提案手法 DCTではなく、スペクトル上でPCAを用いる。 音声認識システムにおいて、従来はMFCCをもちいまし。MFCCではメル尺度でのフィルタバンクの短時間対数エネルギー出力に対して、離散コサイン変換を適用しケプストラムを得ています。そしてスペクトルホウラク成分に対応する低次成分のみ用いています。今回はより発話スタイルの変動にロバストな特徴量抽出方法として、離散コサイン変換ではなくPCAを用いる。 DCTではなく、スペクトル上でPCAを用いる。
PCAによる発話スタイル変動成分の抑圧(1) ; 観測音声 ; 安定した音声 ; 発話スタイル変動成分 2回目以降 1回目発話 抑圧
PCAによる発話スタイル変動成分の抑圧(2) 1回目発話 ∥ 調音不安定音声 2回目以降の発話 ∥ 安定した音声 写像 安定した音声を用いて、PCAで求めた主軸Vの部分空間に写像する。 空間の低次に音声成分が、高次には発話スタイル変動成分が集まる。
実験内容 MLLR+MAP推定による話者適応 PCAを用いた発話スタイル変動にロバストな特徴量抽出法
実験条件 ハミング窓長 25msec 分析周期 10msec 音響モデル monophone モデル適応には2回目の発話を用いる。 PCAには2~5回目発話の安定した音声のフィルタバンク出力 24 次元を用いる。
モデル適応結果 少量データでの適応が困難
PCAとMFCCの比較(1回目発話) PCAを用いることで 6.1%の改善 (79.1%→85.2%) より有効的な特徴量抽出が可能である。
発話毎の認識率比較(17次元)
まとめ・課題 1回目の不安定な発話に対して、PCAを用いて特徴量を抽出することで、より有効的な特徴量が得られる。 PCAのカーネル化 構音障害者用の音素モデル 対象者を増やす
END
→ → → →補助
1回目と他発話の違い <例> はっぴゃく はんぎゃく
PCA(Principal Component Analysis) x2 空間選択;分散が最大空間 を順次選択 有効性 低次-------高次 大 ------- 小 y X1
発話毎の認識率 構音障害者の場合1回目の認識率が著しく低下する。 図図 構音障害者の場合1回目の認識率が著しく低下する。 1回目は最初の意図的な動作であり緊張状態のためアテトーゼが生じ、調音が困難となっているため 発話スタイルが不安定と考えられる。
単語認識結果
特定話者モデルの作成 音素数 54 音素 混合分布数 6 テストデータ 1050(210単語×5回) <作成例> 認識 モデル作成(学習)
従来手法での問題点 汎用モデルでは認識が困難 少量データでの適応が困難 精度の向上には大量のデータが必要 適応データ数(2回目発話) 認識率 [%] 2.9 40 22.5 100 42.9 210 61.3
モデル適応 MLLR(Maximum Likelihood Linear Regression)法 MAP(Maximum A Posteriori)推定法 ;適応前平均ベクトル ;適応後平均ベクトル MLLR法で求められた平均ベクトルを事前分布における平均ベクトルとする。 データ量が多い場合に最ゆう推定への収束が保証されている。 ;推定パラメータ ;適応データ ;パラメータ(既知)←MLLR法で求めたものを使用
PCAとMFCCの比較(1回目発話)
全発話での結果 平均1.3%の改善が
MFCC(Mel Frequency Cepstrum Coefficient) 音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale) 周波数の対数におおよそ対応 人間の周波数に対する音の高さの感覚 低周波数 → 細かい 高周波数 → 粗い レベル ・・・ ・・ ・ メル周波数 各帯域フィルタの出力 と, 離散コサイン変換(DCT)を用いて,MFCC係数が計算される.
想定される質問 一度写像した音声を逆写像したら、安定した音声と同じように聞こえるのか? 今後・・・ 今回でも約40分ほどのデータ収録をしている。負担が大きいので話者適応を目指した方がよいのでは? 今回はアプローチ方法の一つとして特定話者モデルを作成した。
音素数による違い 母音・子音に違いは無い。 54音素の場合はより音は細かく表示可能。 <例>こんにゃく 54音素;k oN ny a- k u+ 43音素 ; k o N ny a k u