ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大)
ベイズ基準によるHSMM音声合成の詳細な評価 はじめに HMMに基づく音声合成 ML基準によるモデル学習 MDL基準によるモデル構造選択 ベイズ基準によるHMM音声合成(橋本ら; ’08) モデルパラメータの周辺化 データ量を考慮したモデル構造選択 学習・合成間におけるモデルの不一致 ベイズ基準によるHSMM音声合成(橋本ら; ’09) 学習・合成において同一のモデルを使用 ベイズ基準によるHSMM音声合成の詳細な評価
隠れマルコフモデル(HMM) 1 2 3 : 観測系列 : 状態系列 1 1 1 1 2 2 3 3
隠れセミマルコフモデル(HSMM) 継続長分布 : : 状態継続長を考慮したモデル 観測系列 状態系列 1 2 3 1 1 1 1 2 2
HSMMでは状態遷移確率が継続長分布によって算出 尤度関数の比較 尤度関数 HMM HSMM : 観測系列 : 状態系列 : モデルパラメータ HSMMでは状態遷移確率が継続長分布によって算出
ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : モデルパラメータ : 合成文のラベル列 : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 : 学習データ : 合成音声パラメータ系列
ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 変分ベイズ法による近似(Attias; ’99) : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法による近似(Attias; ’99)
変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定
変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化
音声パラメータ生成 音声パラメータ ベイズ基準による合成音声パラメータ生成 静的特徴量と動的特徴量によって表現 ⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成 下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定
実験条件 データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元)
※ クロスバリデーションを用いたベイズ基準によるモデル構造選択(橋本ら; ’08) ML基準・HMMとの比較 ML基準とベイズ基準の比較 HMMとHSMMの比較 学習・合成基準 モデル構造選択 モデル ML-HMM ML基準 MDL基準 HMM ML-HSMM HSMM Bayes-HMM ベイズ基準 Bayes-HSMM ※ ※ クロスバリデーションを用いたベイズ基準によるモデル構造選択(橋本ら; ’08)
主観評価実験 ML基準・HMMとの比較 分布数 87,267 88,287 745,969 744,955
改善の要因の調査 ベイズ基準による改善の要因 パラメータの周辺化 モデル構造選択 学習・合成基準 モデル構造選択 モデル ML-MDL HSMM Bayes-MDL ベイズ基準 ML-Bayes Bayes-Bayes
主観評価実験 モデル構造の比較 分布数 88,287 88,287 744,955 744,955
むすび ベイズ基準によるHSMM音声合成の評価 今後の課題 ベイズ基準の有効性 パラメータの周辺化とモデル構造の両方が必要 小規模な学習データでの音声合成実験 モデル構造と音質の調査
ベイズ基準によるHSMM音声合成の詳細な評価 はじめに HMMに基づく音声合成 学習・合成間におけるモデルの不一致 HSMMに基づく音声合成(Zen et al.; ’04) 学習・合成において同一のモデルを使用 ML基準によるモデル学習 MDL基準によるモデル構造選択 ベイズ基準によるHSMM音声合成(橋本ら; ’09) モデルパラメータの周辺化 データ量を考慮したモデル構造選択 ベイズ基準によるHSMM音声合成の詳細な評価
実装における近似 事後分布 が合成データに依存 合成データに依存しないと仮定 合成ラベル決定後に学習 膨大な計算量 事後分布 が合成データに依存 合成ラベル決定後に学習 膨大な計算量 合成データに依存しないと仮定 ⇒ 学習データのみから を推定
事前分布 共役事前分布 事前分布と事後分布が同じ分布族 数学的取扱いが容易 継続長分布 共役事前分布 :平均 :精度行列 :ハイパーパラメータ
HMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HMMの学習 ラベル 学習部 合成部 コンテキスト依存HMM 継続長モデル 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声
HSMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HSMMの学習 ラベル 学習部 合成部 コンテキスト依存HSMM 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声
ベイズ基準ではモデルパラメータの期待値を使用 HSMMの尤度計算 Generalized Forward-Backward Algorithm Forward Backward ベイズ基準ではモデルパラメータの期待値を使用
音声パラメータ生成(2/2) 音声パラメータ生成 尤度関数 ML基準 ⇒ ベイズ基準 ⇒ ML基準と同じ形で推定可能