多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討

Slides:



Advertisements
Similar presentations
音響モデルを利用したシングルチャネルに よる音源方向推定
Advertisements

音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
発声のしくみ -声道の共鳴と音源の生成-.
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
文字から声をつくる仕組み.
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
音高による音色変化に着目した 音源同定手法
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
ディジタル信号処理 Digital Signal Processing
各会話シーン毎に、発話(音源)方向を推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討 ○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大) 概要 システムの流れ 背景 従来の代表的な音声合成技術⇒Concatenative Synthesis この手法では、膨大なデータサイズが必要となる なるべく計算機資源を抑えたい アプローチ 音声信号をパラメトリックにモデル化する 多重ベータ混合モデル (Multi Beta Mixture Model, MBMM) を用いて、 スペクトル形状 (各調波の強度時間変化) をモデル化 学習部で音素ごとのパラメータを求める。合成部で使用する音素パラメータを選択し、音声を合成する Speech signal Text Generated speech I am.. Synthesis Stage Training Stage Parameters database Alignment Spectrum modeling Text analysis Speech Synthesis p(t;\alpha, \beta) &= \frac{1}{B(\alpha,\beta)} t^{\alpha-1} (1-t)^{\beta-1} \label{eq:beta} \\ \sum_n c_n &= 1 , \ \forall n, \, \alpha_n, \beta_n > 0 \\ \delta_{i,j} &= \begin{cases} 1 & (i=j) \\ 0 & otherwise \end{cases} q(x,t; \alpha, \beta, c) &= \sum_n \delta_{x, n} \ c_n \cdot p(t;\alpha_n,\beta_n) モデル化の概念図 ピッチが一定な音素のモデル化。ハーモニクスの強度変化を、「関数」でフィッティングさせる Time Harmonics Power Spectrogram Spectro-model function 評価実験 実験条件 関数のパラメータから音素の音響信号を作り出す評価実験。条件を変えて出力信号の精度比較を行う Modeling Function MBD*1 MGMM*2 MBMM Condition Name A1 G1 G2 B1 B2 Number of Mixtures - 2 4 Number of Iterations 200 20 100 Number of Samples 5000 2000 多重ベータ混合モデル 実験に用いたデータ 概要 複数のベータ混合モデルが周波数軸上に重なり合っているような関数として定義 パラメータを変えることで多様な2次元形状を表現できる 対象音源: 女性アナウンサー 対象音素: 長母音/e:/ ピッチ: 440Hz (*1) MBD : Multi Beta Distribution (*2) MGMM : Multi Gaussian Mixture Model それぞれベータ分布,GMMをハーモニクスのモデル化に使用したもの t [s] n [harmonics] I [dB] 1 2 時間(連続)とハーモニクス(離散)の 2 変数関数 実験結果 Original MBMM model 定義 オリジナルのスペクトル形状(上図)と、それを多重ベータ混合モデルでフィッティングした結果(下図)。手前方向に時間、横方向にハーモニクスを表す。特に第2ハーモニクスのピーク(山)情報が、うまく再現できている ここで : ベータ関数 : ディガンマ関数 : 観測値からのサンプル : n番目のハーモニクスの観測値 パラメータの推定 ν,β,αの推定 πの推定 EMアルゴリズムで繰り返し更新することで、パラメータを推定することが可能 強度ピーク時間やハーモニクス間の強度比率,強度減衰など、MBMMを用いてスペクトル形状を表現できることが分かる Modeling Function MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 各実験条件の、パラメータ数を示した(右表)。混合数が同じであれば、MGMMとMBMMのパラメータ数は等しい ハーモニクス間の強度比率として表現される モデルパラメータからの音声合成 DP距離による比較 音素信号の合成は、倍音加算方式を用いて行う 異なる実験条件でDP距離を算出した結果(左図)。値が小さいほどよく近似できていることを示す。B1はG2よりもパラメータ数が少なく、近似精度が高い。B2はさらに精度良くオリジナルの形状をフィッティングできている , :音高 :n倍音の強度時間変化 : 合成される楽器音信号 :発音長 ここで    は 多重ベータ混合モデルのパラメータを用いて表現できる MBMM のパラメータを用いて 音声の合成が可能 多重ベータ混合モデルが最もよく音色形状を近似できている : 多重ベータ混合モデルの部分関数