ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
非侵襲脳活動計測(fMRI)と(MEG)情報統合とその応用
菊池自由エネルギーに対する CCCPアルゴリズムの拡張
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
ベイズ的ロジスティックモデル に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
ランダムプロジェクションを用いた 音声特徴量変換
京都大学 化学研究所 バイオインフォマティクスセンター
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
東京工業大学 機械制御システム専攻 山北 昌毅
小標本検査データを元にした 疲労破損率のベイズ推定
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多重ベータ分布を用いた音色形状の数理モデリングによる
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ベイズ・アプローチによる グラフィカル・テスト理論
Number of random matrices
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
HMM音声合成における 変分ベイズ法に基づく線形回帰
人工知能特論II 第8回 二宮 崇.
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
領域ベースの隠れ変数を用いた決定論的画像領域分割
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
世帯の復旧資金の調達と 流動性制約 京都大学大学院 小林研究室.
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
CSP係数の識別に基づく話者の 頭部方向の推定
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

ベイズ基準による 隠れセミマルコフモデルに基づく音声合成 ◎橋本 佳,南角吉彦,徳田恵一 (名工大)

はじめに(1/2) ML基準によるHMM音声合成 ベイズ基準によるHMM音声合成(南角ら; ’03) モデルパラメータを点推定 ⇒ 学習データが不十分な場合に過学習 MDL基準によるモデル構造選択 ⇒ 学習データ少量時に推定精度低下 ベイズ基準によるHMM音声合成(南角ら; ’03) モデルパラメータの事後分布を推定 事前情報をモデル学習に利用 データ量を考慮したモデル構造選択

ベイズ基準によるHSMMに基づく音声合成 はじめに(2/2) HMM音声合成における状態継続長 学習部 : 継続長を考慮しない 合成部 : 継続長を考慮 ⇒ 学習・合成間のモデルの不一致 HSMMに基づく音声合成(Zen et al.; ’04) 継続長分布を持つモデル 学習・合成間のモデルの不一致を解決 ML基準によるモデル学習・音声合成 ベイズ基準によるHSMMに基づく音声合成

隠れマルコフモデル(HMM) 1 2 3 : 観測系列 : 状態系列 1 1 1 1 2 2 3 3

隠れセミマルコフモデル(HSMM) 継続長分布 : : 状態継続長を考慮したモデル 観測系列 状態系列 1 2 3 1 1 1 1 2 2

HSMMでは状態遷移確率が継続長分布によって算出 尤度関数の比較 尤度関数 HMM HSMM : 観測系列 : 状態系列 : モデルパラメータ HSMMでは状態遷移確率が継続長分布によって算出

HMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HMMの学習 ラベル 学習部 合成部 コンテキスト依存HMM 継続長モデル 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声

HSMM音声合成 学習データ メルケプストラム分析 基本周波数抽出 HSMMの学習 ラベル 学習部 合成部 コンテキスト依存HSMM 音声パラメータ生成 ラベル 励振源生成 合成フィルタ 合成音声

ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : モデルパラメータ : 合成文のラベル列 : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 : 学習データ : 合成音声パラメータ系列

ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 変分ベイズ法による近似(Attias; ’99) : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法による近似(Attias; ’99)

変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定

変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化

ベイズ基準ではモデルパラメータの期待値を使用 HSMMの尤度計算 Generalized Forward-Backward Algorithm Forward Backward ベイズ基準ではモデルパラメータの期待値を使用

音声パラメータ生成 音声パラメータ ベイズ基準による合成音声パラメータ生成 静的特徴量と動的特徴量によって表現 ⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成 下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定

実験条件(1/2) データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元)

実験条件(2/2) 比較手法 主観評価実験 HSMMとHMMの比較 ベイズ基準によるモデル学習・音声合成 クロスバリデーションを用いたベイズ基準による モデル構造選択(橋本ら; ’08) 主観評価実験 被験者10人 被験者ごとにランダムに20文選択

主観評価実験 対比較実験 合成音声の品質を改善

むすび ベイズ基準によるHSMMに基づく音声合成 今後の課題 合成音声の品質改善 ベイズ基準によるHSMMの学習 学習・合成間のモデルの不一致を解決 合成音声の品質改善 今後の課題 ML基準によるHSMM音声合成との比較