クロスバリデーションを用いた ベイズ基準によるHMM音声合成 ◎橋本 佳,全 炳河,南角吉彦,徳田恵一 (名工大)
はじめに 変分ベイズ法に基づくHMM音声合成(南角ら; ’03) Cross Validationに基づく事前分布(橋本ら; ’08) 事前分布をモデル学習に利用 ⇒ 事後分布推定・モデル構造選択に影響 従来の事前分布の設定 ⇒ 事前分布パラメータを調整パラメータとして使用 Cross Validationに基づく事前分布(橋本ら; ’08) 調整パラメータを用いない事前分布設定 汎化性能の高いモデル構造を選択 HMM音声合成に適用
ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : 静的特徴量に動的特徴量を付加する行列 : 静的特徴量に動的特徴量を付加する行列 : 合成音声パラメータ系列(静的特徴量) : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 : 学習データ
ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 困難な期待値計算 : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 困難な期待値計算 ⇒ 変分ベイズ法による近似(Attias; ’99)
変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 近似事後分布の独立性を仮定 を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 ⇒ の最大化による対数周辺尤度の近似 近似事後分布の独立性を仮定 : 近似事後分布 : に関する期待値 (Jensenの不等式) を最大化する近似事後分布を推定
変分ベイズ法(2/2) 変分法による を最大化する事後分布の導出 近似事後分布が合成データに依存 ⇒ は合成データに依存しないと仮定 変分法による を最大化する事後分布の導出 近似事後分布が合成データに依存 ⇒ は合成データに依存しないと仮定 ⇒ 学習データから を推定
ベイズ基準における適切なモデル構造を選択 ベイズ基準によるモデル構造選択 を最大化するモデル構造を選択 : 先行音素は母音? 質問の選択 : yes no の増加量 : ⇒ 増加量が最大となる分割 分割停止条件 : ベイズ基準における適切なモデル構造を選択
事前分布 事前分布は下限 に影響 共役事前分布 事前情報による事前分布の設定 ⇒ 適切な事前分布設定法が必要 尤度関数 共役事前分布 事前分布は下限 に影響 ⇒ 適切な事前分布設定法が必要 共役事前分布 事前情報による事前分布の設定 尤度関数 共役事前分布 : ベクトル次元数 :事前情報の分散 :事前情報の平均 :事前情報のデータ量
Cross Validationを用いたベイズ基準 学習データをK個に分割 2,3 1,2 1,3 事前分布 設定 事後分布 推定 モデル評価 : の計算
CVを用いたベイズ基準モデル構造選択 を最大化する決定木構造を選択 汎化性能の高いモデル構造を選択 各ノードで を計算 分割前後での増加量 : 先行音素は母音? yes no 各ノードで を計算 分割前後での増加量 が最大となる分割を行う 分割停止条件 : 汎化性能の高いモデル構造を選択
実験条件(1/2) データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元)
実験条件(2/2) 比較手法 主観評価実験 被験者10人 被験者ごとにランダムに20文選択 モデル名 学習基準 モデル構造選択基準 状態数 MDL ML基準 MDL基準 2,491 CVB ベイズ基準 CVを用いたベイズ基準 25,911 CVB-MDL 状態数をMDLにそろえたCVB 2,553 ML-CVB 状態数をCVBにそろえたMDL 26,106
主観評価実験 5-point MOS
むすび CVを用いたベイズ基準によるHMM音声合成 今後の課題 合成音声の品質改善 クロスバリデーションに基づく事前分布設定 汎化性能の高いモデル構造を選択 合成音声の品質改善 今後の課題 少量学習データによる音声合成 状態数と音質に関する調査