ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

Slides:

Advertisements

Similar presentations

1 小暮研究会２第１章ベイジアンアルゴリズム２値選択ベルヌーイ試行尤度原理同一性交換可能性尤度についてのまとめ環境情報学部３年渡邊洋一.

Advertisements

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

コンピュータビジョン特論第８回対象追跡２００６年１１月２２日加藤丈和.

非侵襲脳活動計測（fMRI）と（MEG）情報統合とその応用

菊池自由エネルギーに対する CCCPアルゴリズムの拡張

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

クロストーク成分の相互相関に着目した音場再生システム

ベイズ的ロジスティックモデルに関する研究

雑音重み推定と音声ＧＭＭを用いた雑音除去

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--

確率モデルによる画像処理技術入門 --- ベイズ統計と確率的画像処理 ---

ランダムプロジェクションを用いた音声特徴量変換

ベイジアンネットワーク概説第3章　ベイジアンネットワークモデルの　　　　　数学的基礎 3.5 情報量基準を用いた構造学習岩崎唯史.

【小暮研究会２】「ベイズのアルゴリズム」：序章【１，２：計量経済分析と統計分析】【３：ベイズ定理】

東京工業大学機械制御システム専攻山北昌毅

非侵襲脳活動計測（fMRI）と（MEG）情報統合とその応用

ガウス過程による回帰 Gaussian Process Regression GPR

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

NTTコミュニケーション科学基礎研究所村山立人

教師なしデータ学習データ　X1, X2, …, Xn 　真の情報源テストデータ　X 　.

創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

多重ベータ分布を用いた音色形状の数理モデリングによる

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

標本分散の標本分布標本分散の統計量　　　の定義　　　の性質分布表の使い方　　　分布の信頼区間　

量子系における確率推論の平均場理論田中和之東北大学大学院情報科学研究科

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

ベイズ･アプローチによるグラフィカル･テスト理論

Number of random matrices

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

楽器音を対象とした音源同定：音高による音色変化を考慮する識別手法の検討

第3章　線形回帰モデル修士1年山田　孝太郎.

ベイズ最適化 Bayesian Optimization BO

経営学研究科 M1年学籍番号 speedster

クロスバリデーションを用いたベイズ基準によるHMM音声合成

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

人工知能特論II　第8回二宮　崇.

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

JNNS-DEX-SMI-玉川公開講座「交換モンテカルロ法とその応用」

ポッツスピン型隠れ変数による画像領域分割

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

制約付き非負行列因子分解を用いた音声特徴抽出の検討

領域ベースの隠れ変数を用いた決定論的画像領域分割

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

世帯の復旧資金の調達と流動性制約京都大学大学院小林研究室.

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

CSP係数の識別に基づく話者の頭部方向の推定

Q状態イジング模型を用いた多値画像修復における周辺尤度最大化によるハイパパラメータ推定

ランダムプロジェクションを用いた音響モデルの線形変換

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）

ベイズ基準によるHSMM音声合成の詳細な評価はじめに HMMに基づく音声合成 ML基準によるモデル学習 MDL基準によるモデル構造選択ベイズ基準によるHMM音声合成（橋本ら; ’08）モデルパラメータの周辺化データ量を考慮したモデル構造選択学習・合成間におけるモデルの不一致ベイズ基準によるHSMM音声合成（橋本ら; ’09）学習・合成において同一のモデルを使用ベイズ基準によるHSMM音声合成の詳細な評価

隠れマルコフモデル（HMM） 1 2 3 : 観測系列 : 状態系列 1 1 1 1 2 2 3 3

隠れセミマルコフモデル（HSMM）継続長分布 : : 状態継続長を考慮したモデル観測系列状態系列 1 2 3 1 1 1 1 2 2

HSMMでは状態遷移確率が継続長分布によって算出尤度関数の比較尤度関数 HMM HSMM : 観測系列 : 状態系列 : モデルパラメータ HSMMでは状態遷移確率が継続長分布によって算出

ベイズ基準による音声合成（1/2）モデル学習基準・音声合成基準 ML基準ベイズ基準 : モデルパラメータ : 合成文のラベル列 : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 : 学習データ : 合成音声パラメータ系列

ベイズ基準による音声合成（2/2）ベイズ基準における予測分布（周辺尤度関数）変分ベイズ法による近似（Attias; ’99） : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布変分ベイズ法による近似（Attias; ’99）

変分ベイズ法（1/2）対数周辺尤度の下限を定義下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定対数周辺尤度の下限を定義（Jensenの不等式）：に関する期待値 : 近似事後分布下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定

変分ベイズ法（2/2）近似事後分布の独立性を仮定変分法による事後分布推定 : 正規化項交互に更新することでを最大化

音声パラメータ生成音声パラメータベイズ基準による合成音声パラメータ生成静的特徴量と動的特徴量によって表現 ⇒ 合成部では静的特徴量のみ推定ベイズ基準による合成音声パラメータ生成下限は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定

実験条件データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文テストデータ 53 文サンプリング周波数 16 kHz 窓関数 Blackman 窓フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元)

※ クロスバリデーションを用いたベイズ基準によるモデル構造選択（橋本ら; ’08） ML基準・HMMとの比較 ML基準とベイズ基準の比較 HMMとHSMMの比較学習・合成基準モデル構造選択モデル ML-HMM ML基準 MDL基準 HMM ML-HSMM HSMM Bayes-HMM ベイズ基準 Bayes-HSMM ※ ※ クロスバリデーションを用いたベイズ基準によるモデル構造選択（橋本ら; ’08）

主観評価実験 ML基準・HMMとの比較分布数 87,267 88,287 745,969 744,955

改善の要因の調査ベイズ基準による改善の要因パラメータの周辺化モデル構造選択学習・合成基準モデル構造選択モデル ML-MDL HSMM Bayes-MDL ベイズ基準 ML-Bayes Bayes-Bayes

主観評価実験モデル構造の比較分布数 88,287 88,287 744,955 744,955

むすびベイズ基準によるHSMM音声合成の評価今後の課題ベイズ基準の有効性パラメータの周辺化とモデル構造の両方が必要小規模な学習データでの音声合成実験モデル構造と音質の調査

ベイズ基準によるHSMM音声合成の詳細な評価はじめに HMMに基づく音声合成学習・合成間におけるモデルの不一致 HSMMに基づく音声合成（Zen et al.; ’04）学習・合成において同一のモデルを使用 ML基準によるモデル学習 MDL基準によるモデル構造選択ベイズ基準によるHSMM音声合成（橋本ら; ’09）モデルパラメータの周辺化データ量を考慮したモデル構造選択ベイズ基準によるHSMM音声合成の詳細な評価

実装における近似事後分布が合成データに依存合成データに依存しないと仮定合成ラベル決定後に学習膨大な計算量事後分布が合成データに依存合成ラベル決定後に学習膨大な計算量合成データに依存しないと仮定 ⇒ 学習データのみからを推定

事前分布共役事前分布事前分布と事後分布が同じ分布族数学的取扱いが容易継続長分布共役事前分布：平均：精度行列：ハイパーパラメータ

HMM音声合成学習データメルケプストラム分析基本周波数抽出 HMMの学習ラベル学習部合成部コンテキスト依存HMM 継続長モデル音声パラメータ生成ラベル励振源生成合成フィルタ合成音声

HSMM音声合成学習データメルケプストラム分析基本周波数抽出 HSMMの学習ラベル学習部合成部コンテキスト依存HSMM 音声パラメータ生成ラベル励振源生成合成フィルタ合成音声

ベイズ基準ではモデルパラメータの期待値を使用 HSMMの尤度計算 Generalized Forward-Backward Algorithm Forward Backward ベイズ基準ではモデルパラメータの期待値を使用

音声パラメータ生成（2/2）音声パラメータ生成尤度関数 ML基準 ⇒ ベイズ基準 ⇒ ML基準と同じ形で推定可能