ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
非侵襲脳活動計測(fMRI)と(MEG)情報統合とその応用
菊池自由エネルギーに対する CCCPアルゴリズムの拡張
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
ベイズ的ロジスティックモデル に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
ランダムプロジェクションを用いた 音声特徴量変換
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
東京工業大学 機械制御システム専攻 山北 昌毅
非侵襲脳活動計測(fMRI)と(MEG)情報統合とその応用
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
NTTコミュニケーション科学基礎研究所 村山 立人
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多重ベータ分布を用いた音色形状の数理モデリングによる
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ベイズ・アプローチによる グラフィカル・テスト理論
Number of random matrices
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
経営学研究科 M1年 学籍番号 speedster
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
領域ベースの隠れ変数を用いた決定論的画像領域分割
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
世帯の復旧資金の調達と 流動性制約 京都大学大学院 小林研究室.
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
CSP係数の識別に基づく話者の 頭部方向の推定
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
ランダムプロジェクションを用いた音響モデルの線形変換
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大)

ベイズ基準によるHSMM音声合成の詳細な評価 はじめに HMMに基づく音声合成 ML基準によるモデル学習 MDL基準によるモデル構造選択 ベイズ基準によるHMM音声合成(橋本ら; ’08) モデルパラメータの周辺化 データ量を考慮したモデル構造選択 学習・合成間におけるモデルの不一致 ベイズ基準によるHSMM音声合成(橋本ら; ’09) 学習・合成において同一のモデルを使用 ベイズ基準によるHSMM音声合成の詳細な評価

隠れマルコフモデル(HMM) 1 2 3 : 観測系列 : 状態系列 1 1 1 1 2 2 3 3

隠れセミマルコフモデル(HSMM) 継続長分布 : : 状態継続長を考慮したモデル 観測系列 状態系列 1 2 3 1 1 1 1 2 2

HSMMでは状態遷移確率が継続長分布によって算出 尤度関数の比較 尤度関数 HMM HSMM : 観測系列 : 状態系列 : モデルパラメータ HSMMでは状態遷移確率が継続長分布によって算出

ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : モデルパラメータ : 合成文のラベル列 : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 : 学習データ : 合成音声パラメータ系列

ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 変分ベイズ法による近似(Attias; ’99) : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法による近似(Attias; ’99)

変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定

変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化

音声パラメータ生成 音声パラメータ ベイズ基準による合成音声パラメータ生成 静的特徴量と動的特徴量によって表現 ⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成 下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定

実験条件 データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元)

※ クロスバリデーションを用いたベイズ基準によるモデル構造選択(橋本ら; ’08) ML基準・HMMとの比較 ML基準とベイズ基準の比較 HMMとHSMMの比較 学習・合成基準 モデル構造選択 モデル ML-HMM ML基準 MDL基準 HMM ML-HSMM HSMM Bayes-HMM ベイズ基準 Bayes-HSMM ※ ※ クロスバリデーションを用いたベイズ基準によるモデル構造選択(橋本ら; ’08)

主観評価実験 ML基準・HMMとの比較 分布数 87,267 88,287 745,969 744,955

改善の要因の調査 ベイズ基準による改善の要因 パラメータの周辺化 モデル構造選択 学習・合成基準 モデル構造選択 モデル ML-MDL HSMM Bayes-MDL ベイズ基準 ML-Bayes Bayes-Bayes

主観評価実験 モデル構造の比較 分布数 88,287 88,287 744,955 744,955

むすび ベイズ基準によるHSMM音声合成の評価 今後の課題 ベイズ基準の有効性 パラメータの周辺化とモデル構造の両方が必要 小規模な学習データでの音声合成実験 モデル構造と音質の調査

ベイズ基準によるHSMM音声合成の詳細な評価 はじめに HMMに基づく音声合成 学習・合成間におけるモデルの不一致 HSMMに基づく音声合成(Zen et al.; ’04) 学習・合成において同一のモデルを使用 ML基準によるモデル学習 MDL基準によるモデル構造選択 ベイズ基準によるHSMM音声合成(橋本ら; ’09) モデルパラメータの周辺化 データ量を考慮したモデル構造選択 ベイズ基準によるHSMM音声合成の詳細な評価

実装における近似 事後分布 が合成データに依存 合成データに依存しないと仮定 合成ラベル決定後に学習 膨大な計算量 事後分布 が合成データに依存 合成ラベル決定後に学習 膨大な計算量 合成データに依存しないと仮定 ⇒ 学習データのみから を推定

事前分布 共役事前分布 事前分布と事後分布が同じ分布族 数学的取扱いが容易 継続長分布 共役事前分布 :平均 :精度行列 :ハイパーパラメータ

HMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HMMの学習 ラベル 学習部 合成部 コンテキスト依存HMM 継続長モデル 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声

HSMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HSMMの学習 ラベル 学習部 合成部 コンテキスト依存HSMM 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声

ベイズ基準ではモデルパラメータの期待値を使用 HSMMの尤度計算 Generalized Forward-Backward Algorithm Forward Backward ベイズ基準ではモデルパラメータの期待値を使用

音声パラメータ生成(2/2) 音声パラメータ生成 尤度関数 ML基準 ⇒ ベイズ基準 ⇒ ML基準と同じ形で推定可能