雑音環境下における Sparse Coding声質変換 3-P-49d ○藤井貴生,相原龍,高島遼一,滝口哲也,有木康雄 (神戸大) 研究背景・研究目的 パラレル辞書 従来は統計的アプローチによる声質変換がされてきた GMMに基づく声質変換[Y. Stylianou, 1998] 従来手法は雑音を考慮した定式化がなされていない 入力話者と出力話者が同じテキストを発話した学習サンプル を用意(パラレルデータ) Dynamic Programmingによるマッチングにより フレーム間の同期を取り、それらの特徴量を並べたもの を辞書とする(パラレル辞書) 雑音環境下における声質変換 声質変換 声質変換の流れ 提案手法 Sparse Coding変換により雑音除去,声質変換が行われるが, これらはまだ完全とは言えない →Sparse Coding変換後にGMMに基づく補正を行う 評価実験 実験結果 雑音重畳音声を入力とする話者性の変換実験 雑音環境:レストラン(SNR:10dB) 入力話者:男性1名 出力話者:女性1名 2つの従来手法との比較 GMMに基づく声質変換法 Sparse Codingを用いた声質変換法 変換後の音声と目標音声とのケプストラム距離から 変換の精度を算出 入力音声は男性話者の発話した単語・文章 学習データに含まれる50単語(CLOSED) 学習データに含まれていない25文章(OPEN) まとめ・今後の課題 Sparse Coding変換後の特徴量に対してGMMに基づく補正 を行うことにより、出力話者への近似精度が向上した Sparse Coding変換時の重み行列の推定に問題がある →重み行列自身の変換を行う手法の検討 CLOSED・OPENの両条件で提案手法を 用いた場合が最も目標音声へと近似された