構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究 3-Q-31 構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究 石井 良,滝口 哲也,有木 康雄(神戸大学) 学習・変換過程 学習ステップ 変換ステップ フレームごとに 変動成分を算出 研究背景・目的 構音障害 障害者 聴覚・言語障害者は全国に約34万人(平成18年度厚生労働省) 福祉分野における情報技術の発展の重要性 構音障害者の講演の補助等 手足の不自由などで音声に頼るしかない場合 構音障害者の声質変換が実現 構音障害とは 言葉を正しく明瞭に発音できない症状 構音障害の原因の一つ:脳性麻痺 出生前や出生時に受けた外傷のため筋肉の制御が難しい アテトーゼ(不随意運動)が生じる 特にアテトーゼの生じやすい状況 -意図的動作時 -緊張状態 変換後の スペクトルを生成 健常者 各フレームに対して実行 :障害者の スペクトル包絡 :健常者の 健常者 構音障害者 構音障害者の雇用機会の増加,社会的自立につながる 音声に変換 Frequency Frequency 特徴量抽出・学習 STRAIGHT [H. Kawahara, 1997] Time Time DCT データ間のアラインメント処理 GMM スペクトル 低次48次元を抽出 DCT ・混合正規分布 健常者音声 非周期成分 GMMを学習 基本周波数 DCT :入力特徴量 スペクトル :出力特徴量 低次48次元を抽出 DCT 障害者音声 非周期成分 ・変換式 基本周波数 実験条件 ・健常者,障害者の108単語のパラレルデータセットで学習 (GMMの混合数は16~64) アラインメント ・アラインメント処理は各単語の特徴量間のユークリッド距離に基 づくDPマッチング ・アラインメント成功例(あかちゃん) ・標本化周波数12kHz ・障害者音声10単語を変換 ・静かな部屋でのヘッドホンによる両耳受聴 ・音声の聴き取りやすさを5段階で評価(1:非常に聴き取りづら い~5;非常に聴き取りやすい) 実験結果 5 構音障害者の音声は,子音部が存在しない場合が多々ある 4 ・アラインメント失敗例(こんにゃく) 3 MOS 2 1 健常者 障害者 16 24 32 64 (混合数) 問題点と今後の課題 アラインメントの問題の検討 明瞭度という点におけるGMMによる変換音声の問題