Presentation is loading. Please wait.

Presentation is loading. Please wait.

ベイズ音声合成における 事前分布とモデル構造の話者間共有

Similar presentations


Presentation on theme: "ベイズ音声合成における 事前分布とモデル構造の話者間共有"— Presentation transcript:

1 ベイズ音声合成における 事前分布とモデル構造の話者間共有
橋本 佳,南角 吉彦,徳田 恵一 名古屋工業大学

2 背景 統計モデルに基づく音声合成 全話者に共通した音響的特徴 事前分布とモデル構造の話者間共有 尤度最大化(ML)基準による音声合成
ベイズ基準による音声合成 [Hashimoto et al., ’08] 全話者に共通した音響的特徴 Speaker Adaptive Training (SAT) [Anastasakos et al., ’97] Shared Tree Clustering (STC) [Yamagishi et al., ’03] Universal Background Model (UBM) [Reynolds et al., ’00] 事前分布とモデル構造の話者間共有 複数話者の学習データから効率良くモデルを学習

3 ベイズ基準による音声合成(1/3) モデル学習・音声合成 ML Bayes 学習 合成 学習・合成 : 合成データ : 合成データのラベル列
: 学習データ : 学習データのラベル列 : モデルパラメータ

4 ベイズ基準による音声合成(2/3) モデル構造を表す隠れ変数の導入 事後確率に基づくモデル構造選択 単一のモデル構造による近似予測分布
: モデル構造

5 ベイズ基準による音声合成(3/3) 予測分布(周辺尤度関数) 変分ベイズ法 [Attias, ’99]
: 合成データの状態系列を表す隠れ変数 : 学習データの状態系列を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法 [Attias, ’99]

6 変分ベイズ法 近似事後分布推定法 ⇒ 対数周辺尤度の下限 の最大化による推定 Jensen’s inequality : 近似事後分布
⇒ 対数周辺尤度の下限 の最大化による推定 Jensen’s inequality : 近似事後分布 : ハイパーパラメータ : に関する期待値計算 : モデル構造

7 複数話者の同時モデル化 全話者に共通した音響的特徴 複数話者の同時モデル化 全話者の学習データを効率良く利用 モデル推定精度の改善
SAT, STC, UBM, etc… モデル推定精度の改善 複数話者の同時モデル化 : 話者 : ハイパーパラメータ : モデル構造 モデル構造と事前分布の話者間共有

8 ベイズ基準による共有決定木クラスタリング(STC)
モデル構造の話者間共有 下限の和の最大化による共有モデル構造の選択 Is this phoneme a vowel? yes no リーフノード 分割停止条件: : 各話者の事後分布 ベイズ基準による共有決定木クラスタリング(STC)

9 事前分布の設定 共役事前分布 学習データを用いた事前分布設定 複数話者の学習データを事前データとして利用 ⇒ 不特定話者事前分布
出力確率分布 事前分布 : ハイパーパラメータ : 事前データのデータ量 : 事前データの平均 : 事前データの分散 : 調整パラメータ

10 事前分布の話者間共有 下限の和の最大化による共有事前分布の推定 各話者の事後分布を考慮した事前分布推定
話者正規化学習 ⇒ 話者正規化事前分布 事前分布と事後分布が相互に依存 ⇒ 勾配法 : 各話者の事後分布 : 共有事前分布

11 実験条件 話者 男性話者5人 学習データ 各話者450文 テストデータ 各話者53文 サンプリング周波数 16 kHz 窓関数
Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ 音響モデル 5状態 left-to-right HSMM

12 比較手法 ベイズ音声合成における共有方法の比較 モデル構造 事前分布 SD Tree ○ Prior △ Tree-Prior
(不特定話者事前分布) ※話者間共有されていない Tree-Prior Tree-SAT (話者正規化事前分布)

13 実験結果 主観評価実験による自然性の評価

14 むすび 事前分布とモデル構造の話者間共有 今後の課題 全話者に共通した音響的特徴を利用 主観評価値の大幅の改善 様々な実験条件での比較実験
頑健なモデル構造の選択 適切な事前分布の設定 主観評価値の大幅の改善 話者間共有手法の有効性を確認 今後の課題 様々な実験条件での比較実験 話者選択手法の検討


Download ppt "ベイズ音声合成における 事前分布とモデル構造の話者間共有"

Similar presentations


Ads by Google