クロスバリデーションを用いた ベイズ基準によるHMM音声合成

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
データ解析
非侵襲脳活動計測(fMRI)と(MEG)情報統合とその応用
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
ベイズ的ロジスティックモデル に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
非侵襲脳活動計測(fMRI)と(MEG)情報統合とその応用
Buried Markov Modelを用いた 構音障害者の音声認識の検討
小標本検査データを元にした 疲労破損率のベイズ推定
ガウス過程による回帰 Gaussian Process Regression GPR
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
領域ベースの隠れ変数を用いた画像領域分割
NTTコミュニケーション科学基礎研究所 村山 立人
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
ベイズ・アプローチによる グラフィカル・テスト理論
Number of random matrices
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
領域ベースの隠れ変数を用いた決定論的画像領域分割
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

クロスバリデーションを用いた ベイズ基準によるHMM音声合成 ◎橋本 佳,全 炳河,南角吉彦,徳田恵一 (名工大)

はじめに 変分ベイズ法に基づくHMM音声合成(南角ら; ’03) Cross Validationに基づく事前分布(橋本ら; ’08) 事前分布をモデル学習に利用 ⇒ 事後分布推定・モデル構造選択に影響 従来の事前分布の設定 ⇒ 事前分布パラメータを調整パラメータとして使用 Cross Validationに基づく事前分布(橋本ら; ’08) 調整パラメータを用いない事前分布設定 汎化性能の高いモデル構造を選択 HMM音声合成に適用

ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : 静的特徴量に動的特徴量を付加する行列 : 静的特徴量に動的特徴量を付加する行列 : 合成音声パラメータ系列(静的特徴量) : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 : 学習データ

ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 困難な期待値計算 : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 困難な期待値計算 ⇒ 変分ベイズ法による近似(Attias; ’99)

変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 近似事後分布の独立性を仮定 を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 ⇒ の最大化による対数周辺尤度の近似 近似事後分布の独立性を仮定 : 近似事後分布 : に関する期待値 (Jensenの不等式) を最大化する近似事後分布を推定

変分ベイズ法(2/2) 変分法による を最大化する事後分布の導出 近似事後分布が合成データに依存 ⇒ は合成データに依存しないと仮定 変分法による を最大化する事後分布の導出 近似事後分布が合成データに依存 ⇒ は合成データに依存しないと仮定 ⇒ 学習データから を推定

ベイズ基準における適切なモデル構造を選択 ベイズ基準によるモデル構造選択 を最大化するモデル構造を選択 : 先行音素は母音? 質問の選択 : yes no の増加量 : ⇒ 増加量が最大となる分割 分割停止条件 : ベイズ基準における適切なモデル構造を選択

事前分布 事前分布は下限 に影響 共役事前分布 事前情報による事前分布の設定 ⇒ 適切な事前分布設定法が必要 尤度関数 共役事前分布 事前分布は下限 に影響 ⇒ 適切な事前分布設定法が必要 共役事前分布 事前情報による事前分布の設定 尤度関数 共役事前分布 : ベクトル次元数 :事前情報の分散 :事前情報の平均 :事前情報のデータ量

Cross Validationを用いたベイズ基準 学習データをK個に分割 2,3 1,2 1,3 事前分布 設定 事後分布 推定 モデル評価 : の計算

CVを用いたベイズ基準モデル構造選択 を最大化する決定木構造を選択 汎化性能の高いモデル構造を選択 各ノードで を計算 分割前後での増加量 : 先行音素は母音? yes no 各ノードで を計算 分割前後での増加量 が最大となる分割を行う 分割停止条件 : 汎化性能の高いモデル構造を選択

実験条件(1/2) データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元)

実験条件(2/2) 比較手法 主観評価実験 被験者10人 被験者ごとにランダムに20文選択 モデル名 学習基準 モデル構造選択基準 状態数 MDL ML基準 MDL基準 2,491 CVB ベイズ基準 CVを用いたベイズ基準 25,911 CVB-MDL 状態数をMDLにそろえたCVB 2,553 ML-CVB 状態数をCVBにそろえたMDL 26,106

主観評価実験 5-point MOS

むすび CVを用いたベイズ基準によるHMM音声合成 今後の課題 合成音声の品質改善 クロスバリデーションに基づく事前分布設定 汎化性能の高いモデル構造を選択 合成音声の品質改善 今後の課題 少量学習データによる音声合成 状態数と音質に関する調査