Download presentation
Presentation is loading. Please wait.
1
HMM音声合成における 変分ベイズ法に基づく線形回帰
◎橋本 佳1, 山岸 順一2, Peter Bell2, Simon King2, Steve Renals2, 徳田 恵一1 1名古屋工業大学 2University of Edinburgh
2
HMM音声合成における変分ベイズ法に基づく線形回帰
背景 線形回帰に基づく話者適応 少量の適応データから変換パラメータを推定 尤度最大化(ML)基準による推定 ⇒ MLLR [Gales; ’98] 過学習の問題 ベイズ基準による推定 事前分布の利用 ⇒ MAPLR [Chou; ’99] 事後分布に基づく期待値計算 ⇒ 変分ベイズ法に基づく線形回帰 [Yu et al.; ’07] HMM音声合成における変分ベイズ法に基づく線形回帰
3
線形回帰による話者適応 線形回帰を用いたHMMの尤度関数 線形回帰を表現 遷移確率 出力確率 1 : 適応データ : 状態遷移系列
: 変換パラメータ : モデルパラメータ
4
音声合成における話者適応 尤度最大化(ML)基準による話者適応 ベイズ基準による話者適応 変換パラメータを点推定 ⇒ 過学習
変換パラメータを周辺化(期待値計算) : 適応データ : 変換パラメータ : モデルパラメータ : 合成データ
5
ベイズ基準における事後分布 変換パラメータの事後分布 事後確率最大化(MAP)基準による近似 困難な積分計算 ⇒ 近似手法が必要
事前分布を利用 変換パラメータを点推定 : 適応データ : 変換パラメータ : モデルパラメータ : 状態系列
6
変分ベイズ法(1/2) 変分ベイズ法による近似事後分布の推定 [Attias; ’99] 対数周辺尤度の下限を定義
(Jensenの不等式) : 近似事後分布 下限の最大化による近似事後分布の推定
7
変分ベイズ法(2/2) 制約条件の導入 変分法による近似事後分布の導出 事後分布は相互に依存 ⇒ 繰返し推定による最適化
8
変換パラメータの事後分布 変換パラメータの事後分布 変換行列の各行が独立と仮定 共役事前分布を使用 各行の事前分布にガウス分布を設定
9
更新式の比較 MLLR MAPLR VBLR (Variational Bayesian method based Linear Regression) 統計量
10
状態遷移系列の事後分布 変換パラメータに関する周辺化 事後分布に依存したペナルティ項 適応データ量が多量 ⇒ ペナルティ項の影響は小
遷移確率 出力確率
11
実験条件(1/2) 学習データ CMU ARCTIC 3628発話(4話者) 適応データ 100発話 テストデータ 50文
サンプリング周波数 48 kHz フレームシフト 5 ms 特徴量 49次 STRAIGHT メルケプストラム, 対数基本周波数,非周期成分 + Δ + ΔΔ 音響モデル 5状態 left-to-right HSMM
12
実験条件(2/2) 比較手法 MAPLR, VBLRにおける事前分布 事前分布の利用 変換パラメータの周辺化 MLLR MAPLR ✔
単位行列 グローバル 単一の回帰クラスの変換行列を利用 構造的アプローチ 回帰木の親ノードの変換行列を利用 ※ 調整パラメータ : 1, 10, 100, 1000, 10000
13
メルケプストラム歪み 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択
14
事前分布の比較 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択
15
むすび 音声合成における変分ベイズ法に基づく線形回帰 今後の課題 適応パラメータの事後分布を推定
変換パラメータの周辺化を実現 適応データが少量の時にMLLRから大きく改善 MAPLRと同程度の客観評価値 変換パラメータの周辺化の効果は小さい 事前分布の影響が大きい 今後の課題 事前分布の検討 合成過程と変換パラメータの事後分布推定の統合 回帰クラス数の自動選択
16
音声サンプル 目標音声 平均声 適応データ量 2発話 10発話 100発話 MLLR MAPLR VBLR SVBLR
17
従来法との比較 変換パラメータの周辺化 事前分布の利用 適応データ量が多量であるほどMAPLRに近づく
適応データ量が多量であるほどMLLRに近づく 事前分布の利用 変換パラメータの 周辺化 MLLR MAPLR ✔ VBLR
18
メルケプストラム歪み 適応データ量:100発話
19
メルケプストラム歪み 適応データ量:100発話
20
メルケプストラム歪み 適応データ量:100発話
21
メルケプストラム歪み 適応データ量:10発話
22
メルケプストラム歪み 適応データ量:10発話
23
メルケプストラム歪み 適応データ量:10発話
24
メルケプストラム歪み 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択
25
メルケプストラム歪み 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択
26
事前分布の比較 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択
27
F0歪み 各適応データ量におけるF0歪み 回帰クラス数と調整パラメータは最適値を選択
28
F0歪み 各適応データ量におけるF0歪み 回帰クラス数と調整パラメータは最適値を選択
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.