Presentation is loading. Please wait.

Presentation is loading. Please wait.

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

Similar presentations


Presentation on theme: "多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4"— Presentation transcript:

1 多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大) 概要 システムの流れ 背景 従来の代表的な音声合成技術⇒Concatenative Synthesis この手法では、膨大なデータサイズが必要となる なるべく計算機資源を抑えたい アプローチ 音声信号をパラメトリックにモデル化する 多重関数 (Multi Function) を用いて、 スペクトル形状 (各調波の強度時間変化) を数式的に表現 学習部で音素ごとのパラメータを求める。合成部で使用する音素パラメータを選択し、音声を合成する Speech signal Text Generated speech I am.. Synthesis Stage Training Stage Parameters database Alignment Spectrum modeling Text analysis Speech Synthesis p(t;\alpha, \beta) &= \frac{1}{B(\alpha,\beta)} t^{\alpha-1} (1-t)^{\beta-1} \label{eq:beta} \\ \sum_n c_n &= 1 , \ \forall n, \, \alpha_n, \beta_n > 0 \\ \delta_{i,j} &= \begin{cases} 1 & (i=j) \\ 0 & otherwise \end{cases} q(x,t; \alpha, \beta, c) &= \sum_n \delta_{x, n} \ c_n \cdot p(t;\alpha_n,\beta_n) モデル化の概念図 ピッチが一定な音素のモデル化。ハーモニクスの強度変化を、「関数」でフィッティングさせる Time Harmonics Power Spectrogram Spectro-model function 評価実験 実験条件 関数のパラメータから音素の音響信号を作り出す評価実験。条件を変えて出力信号の精度比較を行う Modeling Function MBD*1 MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of Mixtures - 2 4 Number of Iterations 200 20 100 Number of Samples 5000 2000 多重関数 t [s] n [harmonics] I [dB] 1 2 実験に用いたデータ 多重関数の定義 周波数軸に関して離散的 時間軸に関して連続的 全領域における積分値は1 を満たすような時間-周波数の2変数関数 対象音源: 女性アナウンサー 対象音素: 長母音/e:/ ピッチ: 440Hz (*1) MBD : Multi Beta Distribution ベータ分布をハーモニクスのモデル化に使用したもの 時間(連続)とハーモニクス(離散)の 2 変数関数 実験結果 : 時刻変数 : ハーモニクスのインデックス : 多重関数 : 部分関数 : 部分関数のパタメータ行列 : 多重率 オリジナルのスペクトル形状(上段)と、それを多重ガウス合分布でフィッティングした結果(中段)、多重ベータ分布でフィッティングした結果(下段)。手前方向に時間、横方向にハーモニクスを表す。これらのモデルでは、強度ピーク時間やハーモニクス間の強度比率、強度減衰など、おおまかなスペクトル形状を表現出来ていることが分かる。特に第2ハーモニクスのピーク(山)情報が、うまく再現できている ここで、多重率πは 多重ガウス混合分布 (Multi Gaussian Mixture Model; MGMM) 部分関数にガウス混合分布を用いたもの : 混合率 : 混合コンポーネントのインデックス 多重ベータ混合モデル (Multi Beta Mixture model; MBMM) 部分関数にベータ混合モデルを用いたもの : ベータ関数 Modeling Function MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 各実験条件の、パラメータ数を示した(右表)。混合数が同じであれば、MGMMとMBMMのパラメータ数は等しい いずれのモデルもEMアルゴリズムでパラメータを推定できる 多重関数パラメータから音声合成 DP距離による比較 音素信号の合成は、倍音加算方式を用いて行う 異なる実験条件でDP距離を算出した結果(左図)。値が小さいほどよく近似できていることを示す。B1はG2よりもパラメータ数が少なく、近似精度が高い。B2はさらに精度良くオリジナルの形状をフィッティングできている :n倍音の強度時間変化 : 合成される楽器音信号 :発音長 :音高 ここで    は 多重関数のパラメータを用いて表現できる 多重関数のパラメータを用いて 音声の合成が可能 多重ベータ混合モデルが最もよく音色形状を近似できている : 部分関数


Download ppt "多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4"

Similar presentations


Ads by Google