Presentation is loading. Please wait.

Presentation is loading. Please wait.

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース

Similar presentations


Presentation on theme: "VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース"— Presentation transcript:

1 VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
大石 康智, 亀岡 弘和,持橋 大地 永野 秀尚,柏野 邦夫 NTTコミュニケーション科学基礎研究所 Copyright (c) 2010 日本電信電話株式会社

2 デモシステムの紹介 ①観測F0系列 ②入力歌声聴取 ③パラメータに基づく生成F0系列 ④パラメータ説明(ダイナミクスと音高)
減衰率,固有周波数,音高差 ⑤付加機能(ビブラート)説明 ⑥合成説明 ⑦歌声合成音聴取 Copyright (c) 2010 日本電信電話株式会社

3 歌声音響信号の合成 ① 観測F0系列と生成(修正)F0系列の比率計算 ② 入力歌声音響信号の線形予測分析
③ Griffin-Limの反復STFT法による位相推定 時間 [s] 比率 0.96 1 1.04 1.08 1.12 周波数 [Hz] 時間 [s] 線形伸縮 合成スペクトログラム 周波数 [Hz] 時間 [s] 入力スペクトログラム 周波数 [Hz] 時間 [s] 包絡構造(音韻) 周波数 [Hz] 時間 [s] 微細構造(音高) 周波数 [Hz] 時間 [s] 修正微細構造 周波数 [Hz] 時間 [s] Copyright (c) 2010 日本電信電話株式会社

4 それでは 聴いてみましょう! Copyright (c) 2010 日本電信電話株式会社

5 システムの基礎技術 F0系列のセグメント分割 F0系列の成分分解 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ 旋律成分
4000 4400 4800 5200 5600 6000 F0 [cent] [sec] 2 4 6 8 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ インパルス応答 旋律成分 時間 大局的 動的変動成分 ノート間の 音高差 局所的 動的変動成分 観測F0系列 時間 ⇒ 2次系によるF0動特性の統計的モデリング Copyright (c) 2010 日本電信電話株式会社

6 F0系列のセグメント分割 隠れマルコフモデル(HMM)によるViterbiサーチ
周波数 [cent] 時間 [s] 無音 Copyright (c) 2010 日本電信電話株式会社

7 F0系列の成分分解 想定する歌声のF0生成過程の概略図 旋律成分:ステップ信号 大局的変動成分:2次系インパルス応答 系の出力信号
パラメータ:ノート間の音高差 大局的変動成分:2次系インパルス応答 パラメータ:減衰率  ,固有周波数 系の出力信号 局所的変動成分:ガウス性白色雑音 パラメータ:ガウス分布の分散 観測F0系列 旋律成分 大局的変動成分 局所的変動成分 インパルス応答 ノート間の 音高差 減衰振動(        ) 臨界制動(     ) 指数減衰(     ) オーバーシュート ポルタメント Copyright (c) 2010 日本電信電話株式会社

8 観測されるF0から,生成過程のパラメータを推定したい !!
従来研究:2次系インパルス応答 話声のF0パターン生成モデル:藤崎モデル 歌声のF0パターン生成モデル(齋藤ら) パラメータを手動で調整し,音声合成に利用 フレーズ指令 アクセント指令 フレーズ制御 アクセント制御 臨界制動2次系 インパルス応答 話声のF0 喉頭の生理的・物理的特性に基づいて, 声帯振動制御機構を定量的にモデル化した 旋律成分 2次系インパルス応答 歌声のF0 観測されるF0から,生成過程のパラメータを推定したい !! 2次系インパルス応答を利用したF0動特性の制御 Copyright (c) 2010 日本電信電話株式会社

9 提案アプローチ 統計的信号処理手法に基づくF0動特性のモデリング 旋律成分 大局的変動成分 局所的変動成分 観測F0系列 観測F0系列
インパルス応答 ノート間の 音高差 独立な確率変数 観測F0系列 減衰率 ,固有周波数 (下三角行列) 2次系の出力信号 2次系インパルス応答 局所的変動成分 入力ステップ信号 長さ ( :     の単位行列) Copyright (c) 2010 日本電信電話株式会社

10 提案アプローチの工夫点 1/2 の関数からなる行列 臨界制動( )の場合 従来法(自身の従来モデル):自己回帰モデルで近似 を推定する問題
提案アプローチの工夫点 1/2    の関数からなる行列 臨界制動(     )の場合 インパルス応答: (下三角行列) 複雑な行列となる! 従来法(自身の従来モデル):自己回帰モデルで近似 を推定する問題 パラメータ数が増加して, 自由度が高くなり, パラメータ推定が不安定 Copyright (c) 2010 日本電信電話株式会社

11 提案アプローチの工夫点 2/2 の関数からなる行列 臨界制動( )の場合
提案アプローチの工夫点 2/2    の関数からなる行列 モデルの自由度を効果的に下げる目的で,あらかじめ用意した複数の振動基底の疎(スパース)な線形和で構成する 事前に 個の   を計算し(     を手動で決定),その逆行列の重み付き和で近似する 臨界制動(     )の場合 (下三角行列) インパルス応答: 複雑な行列となる! 減衰振動 臨界制動 指数減衰 の推定 (スパース)の推定 Copyright (c) 2010 日本電信電話株式会社

12 パラメータ最適化アルゴリズム EM法と補助関数法に基づく最適化アルゴリズム 観測F0系列 2次系の出力信号 局所変動成分 完全データ
不完全データ 初期化:        の導出(    を手動で決定)と パラメータ集合                 の初期値決定 E-step: 観測F0系列を出力信号と局所変動成分に分離 条件付期待値: 補助変数: (現在のパラメータ集合を として) M-step: パラメータの更新  に関する連立方程式(Coordinate descent法) の更新式 Copyright (c) 2010 日本電信電話株式会社

13 F0系列の生成方法 ステップ信号 2次系インパルス応答 生成F0系列 推定されたパラメータ 推定されたパラメータ の中で最も値が大きい
推定されたパラメータ          の中で最も値が大きい に対応する ⇒ 推定されたインパルス応答 生成F0系列 の計算 4200 4400 4600 4800 5000 2 4 6 8 時間 [s] 周波数 [cent] 観測F0系列 生成F0系列 セグメントごとにF0を生成した結果 ステップ信号 インパルス応答 Copyright (c) 2010 日本電信電話株式会社

14 生成結果の例 声楽家と素人による,“喜びの歌”の歌唱 ○大局的動的変動成分(立ち上がり,オーバーシュートなど)
×局所的動的変動成分(ビブラート,微細な変動成分) ⇒ ガウシアンプロセス,マルチカーネル学習 声楽家と素人による,“喜びの歌”の歌唱 YINを利用したF0推定(5ms),無声音区間⇒線形補間 声楽家(女性) 6200 周波数 [cent] 5800 5400 観測F0系列 生成F0系列 5000 素人(男性) 5000 周波数 [cent] 4600 4200 観測F0系列 生成F0系列 3800 2 4 6 8 時間 [sec] Copyright (c) 2010 日本電信電話株式会社

15 評価実験 人工的に合成したF0系列に基づく評価 パラメータ の応用性の評価 信号合成 ランダムな 推定された 提案法
パラメータ          の応用性の評価 パラメータ          の中で最も値が大きい に対応する   の の歌唱者ごとの平均値 信号合成 ランダムな 推定された 提案法 比較 局所解問題を解決できているかの評価 0.46 0.50 0.54 0.58 0.62 0.12 0.14 0.16 0.18 0.20 声楽家(女性) 素人(男性) 素人(女性) 声楽家(男性) ポップス歌手 (女性) ポップス歌手(男性)   が小さい ⇒ オーバーシュートしがち   が小さい ⇒ ノートの立ち上りが遅い 歌唱技術・スタイルの違いの分析 Copyright (c) 2010 日本電信電話株式会社

16 研究の根底にある興味 人間が付与する動特性(ダイナミクス)の特徴抽出 ⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 離散的な記号列
き ら き ら ひ か る 離散的な記号列 歌声:楽譜・歌詞 人間 歌唱者 連続的な信号 音高(F0信号) 音韻(MFCC信号) 音高(F0信号) 音韻(MFCC信号) おはようございます, 今日は良い天気ですね。 話声:文章(文字列) 話し手 ダイナミクスと,非言語情報(歌い方や話し方などのスタイル, 平静,怒り,喜び,悲しみなどの感情)との関係性の解明 ⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 Copyright (c) 2010 日本電信電話株式会社

17 まとめ 歌声のF0動特性をノート単位で編集し,合成できる Vocal Dynamics Controllerの提案 今後の課題
エルゴディックなHMMによるViterbiサーチ F0系列の成分分解 2次系を利用したF0動特性の統計的モデリング EM法と補助関数法に基づくパラメータ最適化アルゴリズム パラメータを利用したF0生成 今後の課題 局所的変動成分(ビブラート,微細な変動成分)のモデル化             ⇒ ガウシアンプロセス,マルチカーネル学習 提案モデルの多変量化と声質(MFCCなど)の動特性の制御 Copyright (c) 2010 日本電信電話株式会社


Download ppt "VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース"

Similar presentations


Ads by Google