HMM音声合成における 変分ベイズ法に基づく線形回帰

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Pattern Recognition and Machine Learning 1.5 決定理論
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
ベイズ的ロジスティックモデル に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
ガウス過程による回帰 Gaussian Process Regression GPR
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
NTTコミュニケーション科学基礎研究所 村山 立人
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ベイズ・アプローチによる グラフィカル・テスト理論
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
分枝カット法に基づいた線形符号の復号法に関する一考察
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
実験計画法 Design of Experiments (DoE)
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
AAMと回帰分析による視線、顔方向同時推定
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

HMM音声合成における 変分ベイズ法に基づく線形回帰 ◎橋本 佳1, 山岸 順一2, Peter Bell2, Simon King2, Steve Renals2, 徳田 恵一1 1名古屋工業大学 2University of Edinburgh

HMM音声合成における変分ベイズ法に基づく線形回帰 背景 線形回帰に基づく話者適応 少量の適応データから変換パラメータを推定 尤度最大化(ML)基準による推定 ⇒ MLLR [Gales; ’98] 過学習の問題 ベイズ基準による推定 事前分布の利用 ⇒ MAPLR [Chou; ’99] 事後分布に基づく期待値計算 ⇒ 変分ベイズ法に基づく線形回帰 [Yu et al.; ’07] HMM音声合成における変分ベイズ法に基づく線形回帰

線形回帰による話者適応 線形回帰を用いたHMMの尤度関数 線形回帰を表現 遷移確率 出力確率 1 : 適応データ : 状態遷移系列 : 変換パラメータ : モデルパラメータ

音声合成における話者適応 尤度最大化(ML)基準による話者適応 ベイズ基準による話者適応 変換パラメータを点推定 ⇒ 過学習 変換パラメータを周辺化(期待値計算) : 適応データ : 変換パラメータ : モデルパラメータ : 合成データ

ベイズ基準における事後分布 変換パラメータの事後分布 事後確率最大化(MAP)基準による近似 困難な積分計算 ⇒ 近似手法が必要 事前分布を利用 変換パラメータを点推定 : 適応データ : 変換パラメータ : モデルパラメータ : 状態系列

変分ベイズ法(1/2) 変分ベイズ法による近似事後分布の推定 [Attias; ’99] 対数周辺尤度の下限を定義 (Jensenの不等式) : 近似事後分布 下限の最大化による近似事後分布の推定

変分ベイズ法(2/2) 制約条件の導入 変分法による近似事後分布の導出 事後分布は相互に依存 ⇒ 繰返し推定による最適化

変換パラメータの事後分布 変換パラメータの事後分布 変換行列の各行が独立と仮定 共役事前分布を使用 各行の事前分布にガウス分布を設定

更新式の比較 MLLR MAPLR VBLR (Variational Bayesian method based Linear Regression) 統計量

状態遷移系列の事後分布 変換パラメータに関する周辺化 事後分布に依存したペナルティ項 適応データ量が多量 ⇒ ペナルティ項の影響は小 遷移確率 出力確率

実験条件(1/2) 学習データ CMU ARCTIC 3628発話(4話者) 適応データ 100発話 テストデータ 50文 サンプリング周波数 48 kHz フレームシフト 5 ms 特徴量 49次 STRAIGHT メルケプストラム, 対数基本周波数,非周期成分 + Δ + ΔΔ 音響モデル 5状態 left-to-right HSMM

実験条件(2/2) 比較手法 MAPLR, VBLRにおける事前分布 事前分布の利用 変換パラメータの周辺化 MLLR MAPLR ✔ 単位行列 グローバル 単一の回帰クラスの変換行列を利用 構造的アプローチ 回帰木の親ノードの変換行列を利用 ※ 調整パラメータ  : 1, 10, 100, 1000, 10000

メルケプストラム歪み 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択

事前分布の比較 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択

むすび 音声合成における変分ベイズ法に基づく線形回帰 今後の課題 適応パラメータの事後分布を推定 変換パラメータの周辺化を実現 適応データが少量の時にMLLRから大きく改善 MAPLRと同程度の客観評価値 変換パラメータの周辺化の効果は小さい 事前分布の影響が大きい 今後の課題 事前分布の検討 合成過程と変換パラメータの事後分布推定の統合 回帰クラス数の自動選択

音声サンプル 目標音声 平均声 適応データ量 2発話 10発話 100発話 MLLR MAPLR VBLR SVBLR

従来法との比較 変換パラメータの周辺化 事前分布の利用 適応データ量が多量であるほどMAPLRに近づく 適応データ量が多量であるほどMLLRに近づく 事前分布の利用 変換パラメータの 周辺化 MLLR MAPLR ✔ VBLR

メルケプストラム歪み 適応データ量:100発話

メルケプストラム歪み 適応データ量:100発話

メルケプストラム歪み 適応データ量:100発話

メルケプストラム歪み 適応データ量:10発話

メルケプストラム歪み 適応データ量:10発話

メルケプストラム歪み 適応データ量:10発話

メルケプストラム歪み 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択

メルケプストラム歪み 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択

事前分布の比較 各適応データ量におけるメルケプストラム歪み 回帰クラス数と調整パラメータは最適値を選択

F0歪み 各適応データ量におけるF0歪み 回帰クラス数と調整パラメータは最適値を選択

F0歪み 各適応データ量におけるF0歪み 回帰クラス数と調整パラメータは最適値を選択