多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

Slides:

Advertisements

Similar presentations

音響モデルを利用したシングルチャネルによる音源方向推定

Advertisements

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

発声のしくみ－声道の共鳴と音源の生成－.

クロストーク成分の相互相関に着目した音場再生システム

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

文字から声をつくる仕組み.

ランダムプロジェクションを用いた音声特徴量変換

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討

非負値行列因子分解による構音障害者の声質変換

音高による音色変化に着目した音源同定手法

音信号表現音声波形のデジタル化（ＰＣＭ）サンプリング、標本化定理、量子化ソースフィルタモデル

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

音高による音色変化に着目した音源同定に関する研究

多重ベータ分布を用いた音色形状の数理モデリングによる

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定

Specmurtを利用した調波構造行列による混合楽音解析の検討

Basis vectors generation

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

非負値行列因子分解に基づく唇動画像からの音声生成

Number of random matrices

ディジタル信号処理 Digital Signal Processing

各会話シーン毎に、発話（音源）方向を推定

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

楽器音を対象とした音源同定：音高による音色変化を考慮する識別手法の検討

クロスバリデーションを用いたベイズ基準によるHMM音声合成

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

川崎浩司：沿岸域工学，コロナ社第4章（pp.58-68）

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し，合成できるインタフェース

HMM音声合成における変分ベイズ法に基づく線形回帰

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

ソースフィルタモデル.

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討 ○中鹿亘（神戸大）・立花隆輝・西村雅史（日本IBM）・滝口哲也・有木康雄（神戸大）概要システムの流れ背景従来の代表的な音声合成技術⇒Concatenative Synthesis この手法では、膨大なデータサイズが必要となるなるべく計算機資源を抑えたいアプローチ音声信号をパラメトリックにモデル化する多重ベータ混合モデル (Multi Beta Mixture Model, MBMM) を用いて、スペクトル形状 (各調波の強度時間変化）をモデル化学習部で音素ごとのパラメータを求める。合成部で使用する音素パラメータを選択し、音声を合成する Speech signal Text Generated speech I am.. Synthesis Stage Training Stage Parameters database Alignment Spectrum modeling Text analysis Speech Synthesis p(t;\alpha, \beta) &= \frac{1}{B(\alpha,\beta)} t^{\alpha-1} (1-t)^{\beta-1} \label{eq:beta} \\ \sum_n c_n &= 1 , \ \forall n, \, \alpha_n, \beta_n > 0 \\ \delta_{i,j} &= \begin{cases} 1 & (i=j) \\ 0 & otherwise \end{cases} q(x,t; \alpha, \beta, c) &= \sum_n \delta_{x, n} \ c_n \cdot p(t;\alpha_n,\beta_n) モデル化の概念図ピッチが一定な音素のモデル化。ハーモニクスの強度変化を、「関数」でフィッティングさせる Time Harmonics Power Spectrogram Spectro-model function 評価実験実験条件関数のパラメータから音素の音響信号を作り出す評価実験。条件を変えて出力信号の精度比較を行う Modeling Function MBD*1 MGMM*2 MBMM Condition Name A1 G1 G2 B1 B2 Number of Mixtures - 2 4 Number of Iterations 200 20 100 Number of Samples 5000 2000 多重ベータ混合モデル実験に用いたデータ概要複数のベータ混合モデルが周波数軸上に重なり合っているような関数として定義パラメータを変えることで多様な２次元形状を表現できる対象音源: 女性アナウンサー対象音素：長母音/e:/ ピッチ： 440Hz (*1) MBD : Multi Beta Distribution (*2) MGMM : Multi Gaussian Mixture Model それぞれベータ分布，GMMをハーモニクスのモデル化に使用したもの t [s] n [harmonics] I [dB] 1 2 時間（連続）とハーモニクス（離散）の 2 変数関数実験結果 Original MBMM model 定義オリジナルのスペクトル形状（上図）と、それを多重ベータ混合モデルでフィッティングした結果（下図）。手前方向に時間、横方向にハーモニクスを表す。特に第2ハーモニクスのピーク（山）情報が、うまく再現できているここで : ベータ関数 : ディガンマ関数 : 観測値からのサンプル : n番目のハーモニクスの観測値パラメータの推定 ν,β,αの推定 πの推定 EMアルゴリズムで繰り返し更新することで、パラメータを推定することが可能強度ピーク時間やハーモニクス間の強度比率，強度減衰など、MBMMを用いてスペクトル形状を表現できることが分かる Modeling Function MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 各実験条件の、パラメータ数を示した（右表）。混合数が同じであれば、MGMMとMBMMのパラメータ数は等しいハーモニクス間の強度比率として表現されるモデルパラメータからの音声合成 DP距離による比較音素信号の合成は、倍音加算方式を用いて行う異なる実験条件でDP距離を算出した結果（左図）。値が小さいほどよく近似できていることを示す。B1はG2よりもパラメータ数が少なく、近似精度が高い。B2はさらに精度良くオリジナルの形状をフィッティングできている， :音高 :n倍音の強度時間変化 : 合成される楽器音信号 :発音長ここで　　　　は多重ベータ混合モデルのパラメータを用いて表現できる MBMM のパラメータを用いて音声の合成が可能多重ベータ混合モデルが最もよく音色形状を近似できている : 多重ベータ混合モデルの部分関数