ベイズ基準による 隠れセミマルコフモデルに基づく音声合成 ◎橋本 佳,南角吉彦,徳田恵一 (名工大)
はじめに(1/2) ML基準によるHMM音声合成 ベイズ基準によるHMM音声合成(南角ら; ’03) モデルパラメータを点推定 ⇒ 学習データが不十分な場合に過学習 MDL基準によるモデル構造選択 ⇒ 学習データ少量時に推定精度低下 ベイズ基準によるHMM音声合成(南角ら; ’03) モデルパラメータの事後分布を推定 事前情報をモデル学習に利用 データ量を考慮したモデル構造選択
ベイズ基準によるHSMMに基づく音声合成 はじめに(2/2) HMM音声合成における状態継続長 学習部 : 継続長を考慮しない 合成部 : 継続長を考慮 ⇒ 学習・合成間のモデルの不一致 HSMMに基づく音声合成(Zen et al.; ’04) 継続長分布を持つモデル 学習・合成間のモデルの不一致を解決 ML基準によるモデル学習・音声合成 ベイズ基準によるHSMMに基づく音声合成
隠れマルコフモデル(HMM) 1 2 3 : 観測系列 : 状態系列 1 1 1 1 2 2 3 3
隠れセミマルコフモデル(HSMM) 継続長分布 : : 状態継続長を考慮したモデル 観測系列 状態系列 1 2 3 1 1 1 1 2 2
HSMMでは状態遷移確率が継続長分布によって算出 尤度関数の比較 尤度関数 HMM HSMM : 観測系列 : 状態系列 : モデルパラメータ HSMMでは状態遷移確率が継続長分布によって算出
HMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HMMの学習 ラベル 学習部 合成部 コンテキスト依存HMM 継続長モデル 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声
HSMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HSMMの学習 ラベル 学習部 合成部 コンテキスト依存HSMM 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声
ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : モデルパラメータ : 合成文のラベル列 : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 : 学習データ : 合成音声パラメータ系列
ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 変分ベイズ法による近似(Attias; ’99) : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法による近似(Attias; ’99)
変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定
変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化
ベイズ基準ではモデルパラメータの期待値を使用 HSMMの尤度計算 Generalized Forward-Backward Algorithm Forward Backward ベイズ基準ではモデルパラメータの期待値を使用
音声パラメータ生成 音声パラメータ ベイズ基準による合成音声パラメータ生成 静的特徴量と動的特徴量によって表現 ⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成 下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定
実験条件(1/2) データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元)
実験条件(2/2) 比較手法 主観評価実験 HSMMとHMMの比較 ベイズ基準によるモデル学習・音声合成 クロスバリデーションを用いたベイズ基準による モデル構造選択(橋本ら; ’08) 主観評価実験 被験者10人 被験者ごとにランダムに20文選択
主観評価実験 対比較実験 合成音声の品質を改善
むすび ベイズ基準によるHSMMに基づく音声合成 今後の課題 合成音声の品質改善 ベイズ基準によるHSMMの学習 学習・合成間のモデルの不一致を解決 合成音声の品質改善 今後の課題 ML基準によるHSMM音声合成との比較