多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

Slides:



Advertisements
Similar presentations
顔表情クラスタリングによる 映像コンテンツへのタギング
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
発声のしくみ -声道の共鳴と音源の生成-.
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
文字から声をつくる仕組み.
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
大気レーダーのアダプティブクラッタ 抑圧法の開発
非負値行列因子分解による 構音障害者の声質変換
音高による音色変化に着目した 音源同定手法
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
雑音環境下における 非負値行列因子分解を用いた声質変換
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
ディジタル信号処理 Digital Signal Processing
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
ディジタル信号処理 Digital Signal Processing
各会話シーン毎に、発話(音源)方向を推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4 ○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大) 概要 システムの流れ 背景 従来の代表的な音声合成技術⇒Concatenative Synthesis この手法では、膨大なデータサイズが必要となる なるべく計算機資源を抑えたい アプローチ 音声信号をパラメトリックにモデル化する 多重関数 (Multi Function) を用いて、 スペクトル形状 (各調波の強度時間変化) を数式的に表現 学習部で音素ごとのパラメータを求める。合成部で使用する音素パラメータを選択し、音声を合成する Speech signal Text Generated speech I am.. Synthesis Stage Training Stage Parameters database Alignment Spectrum modeling Text analysis Speech Synthesis p(t;\alpha, \beta) &= \frac{1}{B(\alpha,\beta)} t^{\alpha-1} (1-t)^{\beta-1} \label{eq:beta} \\ \sum_n c_n &= 1 , \ \forall n, \, \alpha_n, \beta_n > 0 \\ \delta_{i,j} &= \begin{cases} 1 & (i=j) \\ 0 & otherwise \end{cases} q(x,t; \alpha, \beta, c) &= \sum_n \delta_{x, n} \ c_n \cdot p(t;\alpha_n,\beta_n) モデル化の概念図 ピッチが一定な音素のモデル化。ハーモニクスの強度変化を、「関数」でフィッティングさせる Time Harmonics Power Spectrogram Spectro-model function 評価実験 実験条件 関数のパラメータから音素の音響信号を作り出す評価実験。条件を変えて出力信号の精度比較を行う Modeling Function MBD*1 MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of Mixtures - 2 4 Number of Iterations 200 20 100 Number of Samples 5000 2000 多重関数 t [s] n [harmonics] I [dB] 1 2 実験に用いたデータ 多重関数の定義 周波数軸に関して離散的 時間軸に関して連続的 全領域における積分値は1 を満たすような時間-周波数の2変数関数 対象音源: 女性アナウンサー 対象音素: 長母音/e:/ ピッチ: 440Hz (*1) MBD : Multi Beta Distribution ベータ分布をハーモニクスのモデル化に使用したもの 時間(連続)とハーモニクス(離散)の 2 変数関数 実験結果 : 時刻変数 : ハーモニクスのインデックス : 多重関数 : 部分関数 : 部分関数のパタメータ行列 : 多重率 オリジナルのスペクトル形状(上段)と、それを多重ガウス合分布でフィッティングした結果(中段)、多重ベータ分布でフィッティングした結果(下段)。手前方向に時間、横方向にハーモニクスを表す。これらのモデルでは、強度ピーク時間やハーモニクス間の強度比率、強度減衰など、おおまかなスペクトル形状を表現出来ていることが分かる。特に第2ハーモニクスのピーク(山)情報が、うまく再現できている ここで、多重率πは 多重ガウス混合分布 (Multi Gaussian Mixture Model; MGMM) 部分関数にガウス混合分布を用いたもの : 混合率 : 混合コンポーネントのインデックス 多重ベータ混合モデル (Multi Beta Mixture model; MBMM) 部分関数にベータ混合モデルを用いたもの : ベータ関数 Modeling Function MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 各実験条件の、パラメータ数を示した(右表)。混合数が同じであれば、MGMMとMBMMのパラメータ数は等しい いずれのモデルもEMアルゴリズムでパラメータを推定できる 多重関数パラメータから音声合成 DP距離による比較 音素信号の合成は、倍音加算方式を用いて行う 異なる実験条件でDP距離を算出した結果(左図)。値が小さいほどよく近似できていることを示す。B1はG2よりもパラメータ数が少なく、近似精度が高い。B2はさらに精度良くオリジナルの形状をフィッティングできている , :n倍音の強度時間変化 : 合成される楽器音信号 :発音長 :音高 ここで    は 多重関数のパラメータを用いて表現できる 多重関数のパラメータを用いて 音声の合成が可能 多重ベータ混合モデルが最もよく音色形状を近似できている : 部分関数