Presentation is loading. Please wait.

Presentation is loading. Please wait.

多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討

Similar presentations


Presentation on theme: "多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討"— Presentation transcript:

1 多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大) 概要 システムの流れ 背景 従来の代表的な音声合成技術⇒Concatenative Synthesis この手法では、膨大なデータサイズが必要となる なるべく計算機資源を抑えたい アプローチ 音声信号をパラメトリックにモデル化する 多重ベータ混合モデル (Multi Beta Mixture Model, MBMM) を用いて、 スペクトル形状 (各調波の強度時間変化) をモデル化 学習部で音素ごとのパラメータを求める。合成部で使用する音素パラメータを選択し、音声を合成する Speech signal Text Generated speech I am.. Synthesis Stage Training Stage Parameters database Alignment Spectrum modeling Text analysis Speech Synthesis p(t;\alpha, \beta) &= \frac{1}{B(\alpha,\beta)} t^{\alpha-1} (1-t)^{\beta-1} \label{eq:beta} \\ \sum_n c_n &= 1 , \ \forall n, \, \alpha_n, \beta_n > 0 \\ \delta_{i,j} &= \begin{cases} 1 & (i=j) \\ 0 & otherwise \end{cases} q(x,t; \alpha, \beta, c) &= \sum_n \delta_{x, n} \ c_n \cdot p(t;\alpha_n,\beta_n) モデル化の概念図 ピッチが一定な音素のモデル化。ハーモニクスの強度変化を、「関数」でフィッティングさせる Time Harmonics Power Spectrogram Spectro-model function 評価実験 実験条件 関数のパラメータから音素の音響信号を作り出す評価実験。条件を変えて出力信号の精度比較を行う Modeling Function MBD*1 MGMM*2 MBMM Condition Name A1 G1 G2 B1 B2 Number of Mixtures - 2 4 Number of Iterations 200 20 100 Number of Samples 5000 2000 多重ベータ混合モデル 実験に用いたデータ 概要 複数のベータ混合モデルが周波数軸上に重なり合っているような関数として定義 パラメータを変えることで多様な2次元形状を表現できる 対象音源: 女性アナウンサー 対象音素: 長母音/e:/ ピッチ: 440Hz (*1) MBD : Multi Beta Distribution (*2) MGMM : Multi Gaussian Mixture Model それぞれベータ分布,GMMをハーモニクスのモデル化に使用したもの t [s] n [harmonics] I [dB] 1 2 時間(連続)とハーモニクス(離散)の 2 変数関数 実験結果 Original MBMM model 定義 オリジナルのスペクトル形状(上図)と、それを多重ベータ混合モデルでフィッティングした結果(下図)。手前方向に時間、横方向にハーモニクスを表す。特に第2ハーモニクスのピーク(山)情報が、うまく再現できている ここで : ベータ関数 : ディガンマ関数 : 観測値からのサンプル : n番目のハーモニクスの観測値 パラメータの推定 ν,β,αの推定 πの推定 EMアルゴリズムで繰り返し更新することで、パラメータを推定することが可能 強度ピーク時間やハーモニクス間の強度比率,強度減衰など、MBMMを用いてスペクトル形状を表現できることが分かる Modeling Function MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 各実験条件の、パラメータ数を示した(右表)。混合数が同じであれば、MGMMとMBMMのパラメータ数は等しい ハーモニクス間の強度比率として表現される モデルパラメータからの音声合成 DP距離による比較 音素信号の合成は、倍音加算方式を用いて行う 異なる実験条件でDP距離を算出した結果(左図)。値が小さいほどよく近似できていることを示す。B1はG2よりもパラメータ数が少なく、近似精度が高い。B2はさらに精度良くオリジナルの形状をフィッティングできている :音高 :n倍音の強度時間変化 : 合成される楽器音信号 :発音長 ここで    は 多重ベータ混合モデルのパラメータを用いて表現できる MBMM のパラメータを用いて 音声の合成が可能 多重ベータ混合モデルが最もよく音色形状を近似できている : 多重ベータ混合モデルの部分関数


Download ppt "多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討"

Similar presentations


Ads by Google