ベイズ音声合成における 事前分布とモデル構造の話者間共有

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Pattern Recognition and Machine Learning 1.5 決定理論
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
ベイズ的ロジスティックモデル に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
東京工業大学 機械制御システム専攻 山北 昌毅
小標本検査データを元にした 疲労破損率のベイズ推定
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
領域ベースの隠れ変数を用いた画像領域分割
NTTコミュニケーション科学基礎研究所 村山 立人
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
複数の相関のある情報源に対するベイズ符号化について
Data Clustering: A Review
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
ベイズ・アプローチによる グラフィカル・テスト理論
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
領域ベースの隠れ変数を用いた決定論的画像領域分割
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

ベイズ音声合成における 事前分布とモデル構造の話者間共有 橋本 佳,南角 吉彦,徳田 恵一 名古屋工業大学

背景 統計モデルに基づく音声合成 全話者に共通した音響的特徴 事前分布とモデル構造の話者間共有 尤度最大化(ML)基準による音声合成 ベイズ基準による音声合成 [Hashimoto et al., ’08] 全話者に共通した音響的特徴 Speaker Adaptive Training (SAT) [Anastasakos et al., ’97] Shared Tree Clustering (STC) [Yamagishi et al., ’03] Universal Background Model (UBM) [Reynolds et al., ’00] 事前分布とモデル構造の話者間共有 複数話者の学習データから効率良くモデルを学習

ベイズ基準による音声合成(1/3) モデル学習・音声合成 ML Bayes 学習 合成 学習・合成 : 合成データ : 合成データのラベル列 : 学習データ : 学習データのラベル列 : モデルパラメータ

ベイズ基準による音声合成(2/3) モデル構造を表す隠れ変数の導入 事後確率に基づくモデル構造選択 単一のモデル構造による近似予測分布 : モデル構造

ベイズ基準による音声合成(3/3) 予測分布(周辺尤度関数) 変分ベイズ法 [Attias, ’99] : 合成データの状態系列を表す隠れ変数 : 学習データの状態系列を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法 [Attias, ’99]

変分ベイズ法 近似事後分布推定法 ⇒ 対数周辺尤度の下限 の最大化による推定 Jensen’s inequality : 近似事後分布 ⇒ 対数周辺尤度の下限 の最大化による推定 Jensen’s inequality : 近似事後分布 : ハイパーパラメータ : に関する期待値計算 : モデル構造

複数話者の同時モデル化 全話者に共通した音響的特徴 複数話者の同時モデル化 全話者の学習データを効率良く利用 モデル推定精度の改善 SAT, STC, UBM, etc… モデル推定精度の改善 複数話者の同時モデル化 : 話者 : ハイパーパラメータ : モデル構造 モデル構造と事前分布の話者間共有

ベイズ基準による共有決定木クラスタリング(STC) モデル構造の話者間共有 下限の和の最大化による共有モデル構造の選択 Is this phoneme a vowel? yes no リーフノード 分割停止条件: : 各話者の事後分布 ベイズ基準による共有決定木クラスタリング(STC)

事前分布の設定 共役事前分布 学習データを用いた事前分布設定 複数話者の学習データを事前データとして利用 ⇒ 不特定話者事前分布 出力確率分布 事前分布 : ハイパーパラメータ : 事前データのデータ量 : 事前データの平均 : 事前データの分散 : 調整パラメータ

事前分布の話者間共有 下限の和の最大化による共有事前分布の推定 各話者の事後分布を考慮した事前分布推定 話者正規化学習 ⇒ 話者正規化事前分布 事前分布と事後分布が相互に依存 ⇒ 勾配法 : 各話者の事後分布 : 共有事前分布

実験条件 話者 男性話者5人 学習データ 各話者450文 テストデータ 各話者53文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ 音響モデル 5状態 left-to-right HSMM

比較手法 ベイズ音声合成における共有方法の比較 モデル構造 事前分布 SD Tree ○ Prior △ Tree-Prior (不特定話者事前分布) ※話者間共有されていない Tree-Prior Tree-SAT (話者正規化事前分布)

実験結果 主観評価実験による自然性の評価

むすび 事前分布とモデル構造の話者間共有 今後の課題 全話者に共通した音響的特徴を利用 主観評価値の大幅の改善 様々な実験条件での比較実験 頑健なモデル構造の選択 適切な事前分布の設定 主観評価値の大幅の改善 話者間共有手法の有効性を確認 今後の課題 様々な実験条件での比較実験 話者選択手法の検討