雑音環境下における非負値行列因子分解を用いた声質変換

雑音環境下における非負値行列因子分解を用いた声質変換
神戸大学大学院システム情報学研究科情報科学専攻　CS17　有木研究室藤井貴生，相原龍，高島遼一，滝口哲也，有木康雄 ARIKI Lab. Kobe Univ.

声質変換とは？声質変換は、入力音声を音韻情報などは保ったまま、話者性のような特定の情報のみを変換する技術である
話者変換や感情変換、発話支援など様々なタスクへの応用異なる言語間における話者変換により、ある話者の性質で母国語以外の言語を発声 “いきおい” 入力話者出力話者 ARIKI Lab. Kobe Univ.

研究背景・研究目的雑音環境下における声質変換従来は統計的アプローチによる声質変換がされてきた
GMMに基づく声質変換従来手法は雑音を考慮した定式化がされていない入力話者同一発話内容の学習データ（パラレルデータ）フレーム毎に特徴量抽出 + DTWによりフレームを同期フレーム毎の特徴量同一発話のフレームのペアから変換関数を学習出力話者雑音環境下における声質変換 ARIKI Lab. Kobe Univ.

声質変換システムの流れ “いきおい” 変換学習特徴量抽出パラレル辞書構築 Sparse Coding 変換 GMM学習
入力音声 (雑音重畳) 学習特徴量抽出パラレル辞書構築 Sparse Coding 変換入力話者 GMM学習 GMMに基づく補正音声合成出力音声出力話者 ARIKI Lab. Kobe Univ.

パラレル辞書入力話者と出力話者が同じテキストを発話した学習サンプルを用意(パラレルデータ)
Dynamic Programmingによるマッチングによりフレーム間の同期を取り、それらの特徴量を並べたものを辞書とする(パラレル辞書) 平滑化スペクトル入力話者辞書入力話者音声 (source) 特徴量抽出フレーム間同期出力話者辞書平滑化スペクトル出力話者音声 (target) パラレル辞書 ARIKI Lab. Kobe Univ.

Sparse Codingによる雑音除去・声質変換
雑音の辞書を足すことで、入力音声を雑音と音声に分離可能雑音辞書は入力の前後の無音区間から構築平滑化スペクトルは本手法における雑音の分離には適さないため、入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる L J K D 分解？入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 音声辞書に対する重みのみをコピーパラレル辞書重み行列を推定 (J x L) 内積により再構成出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L) 入力の重み行列

Sparse Codingによる雑音除去・声質変換
雑音の辞書を足すことで、入力音声を雑音と音声に分離可能雑音辞書は入力の前後の無音区間から構築平滑化スペクトルは本手法における雑音の分離には適さないため、入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる変換入力音声 (雑音重畳) 学習 L J K 特徴量抽出パラレル辞書構築 D 分解 Sparse Coding 変換？入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 音声辞書に対する重みのみをコピーパラレル辞書 GMM学習 GMMに基づく補正重み行列を推定 (J x L) 音声合成内積により再構成出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L) 出力音声入力の重み行列

提案手法入力系列から推定される重み行列と，実際の目標のスペクトルを表す重み行列には相違がある
→Sparse Coding変換後にGMMに基づく補正を行う L J K D 分解目標となるスペクトル系列入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 音声辞書に対する重みのみをコピーパラレル辞書相違がある GMMに基づく補正重み行列を推定 (J x L) 目標となるスペクトル系列出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L) 推定されるべき重み行列入力の重み行列

GMM学習 Sparse Coding変換後のスペクトルと目標話者のスペクトルを学習データとしてGMMを学習する
→216単語のパラレルデータを用意 L J K D 分解目標となるスペクトル系列入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 入力系列 (振幅スペクトル) (D x L) パラレル辞書変換モデル生成出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L)

評価実験雑音重畳音声を入力とする話者性の変換実験２つの従来手法との比較変換後の音声と目標音声とのケプストラム距離から変換の精度を算出
GMMに基づく声質変換法 Sparse Codingを用いた声質変換法変換後の音声と目標音声とのケプストラム距離から変換の精度を算出入力音声は男性話者の発話した単語・文章学習データに含まれる50単語(CLOSED) 学習データに含まれていない25文章(OPEN) 辞書構築データ ATRデータベース216単語入力話者(source) 男性１名出力話者(target) 女性１名雑音環境レストラン(SNR:10dB)

CLOSED・OPENの両条件で提案手法を
実験結果 50単語(CLOSED) 25文章(OPEN) Cepstrum Distance Cepstrum Distance source target GMM SC SC+GMM CLOSED・OPENの両条件で提案手法を用いた場合が最も目標音声へと近似された ARIKI Lab. Kobe Univ.

まとめ・今後の課題本研究では雑音重畳音声に対する声質変換の検討を行った
評価実験により、雑音環境下において本提案手法が有効であることが示された Sparse Codingによる重み行列の推定に問題がある →重み行列自身を変換する手法の検討 ARIKI Lab. Kobe Univ.

ご清聴ありがとうございました ARIKI Lab. Kobe Univ.

雑音環境下における非負値行列因子分解を用いた声質変換

Similar presentations

Presentation on theme: "雑音環境下における非負値行列因子分解を用いた声質変換"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

雑音環境下における 非負値行列因子分解を用いた声質変換

Similar presentations

Presentation on theme: "雑音環境下における 非負値行列因子分解を用いた声質変換"— Presentation transcript:

Similar presentations

About project

フィードバック

雑音環境下における非負値行列因子分解を用いた声質変換

Presentation on theme: "雑音環境下における非負値行列因子分解を用いた声質変換"— Presentation transcript: