VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース 大石 康智, 亀岡 弘和,持橋 大地 永野 秀尚,柏野 邦夫 NTTコミュニケーション科学基礎研究所 Copyright (c) 2010 日本電信電話株式会社
デモシステムの紹介 ①観測F0系列 ②入力歌声聴取 ③パラメータに基づく生成F0系列 ④パラメータ説明(ダイナミクスと音高) 減衰率,固有周波数,音高差 ⑤付加機能(ビブラート)説明 ⑥合成説明 ⑦歌声合成音聴取 Copyright (c) 2010 日本電信電話株式会社
歌声音響信号の合成 ① 観測F0系列と生成(修正)F0系列の比率計算 ② 入力歌声音響信号の線形予測分析 ③ Griffin-Limの反復STFT法による位相推定 時間 [s] 比率 0.96 1 1.04 1.08 1.12 周波数 [Hz] 時間 [s] 線形伸縮 合成スペクトログラム 周波数 [Hz] 時間 [s] 入力スペクトログラム 周波数 [Hz] 時間 [s] 包絡構造(音韻) 周波数 [Hz] 時間 [s] 微細構造(音高) 周波数 [Hz] 時間 [s] 修正微細構造 周波数 [Hz] 時間 [s] Copyright (c) 2010 日本電信電話株式会社
それでは 聴いてみましょう! Copyright (c) 2010 日本電信電話株式会社
システムの基礎技術 F0系列のセグメント分割 F0系列の成分分解 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ 旋律成分 4000 4400 4800 5200 5600 6000 F0 [cent] [sec] 2 4 6 8 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ インパルス応答 旋律成分 時間 大局的 動的変動成分 ノート間の 音高差 局所的 動的変動成分 観測F0系列 時間 ⇒ 2次系によるF0動特性の統計的モデリング Copyright (c) 2010 日本電信電話株式会社
F0系列のセグメント分割 隠れマルコフモデル(HMM)によるViterbiサーチ 周波数 [cent] 時間 [s] 無音 Copyright (c) 2010 日本電信電話株式会社
F0系列の成分分解 想定する歌声のF0生成過程の概略図 旋律成分:ステップ信号 大局的変動成分:2次系インパルス応答 系の出力信号 パラメータ:ノート間の音高差 大局的変動成分:2次系インパルス応答 パラメータ:減衰率 ,固有周波数 系の出力信号 局所的変動成分:ガウス性白色雑音 パラメータ:ガウス分布の分散 観測F0系列 旋律成分 大局的変動成分 局所的変動成分 インパルス応答 ノート間の 音高差 減衰振動( ) 臨界制動( ) 指数減衰( ) オーバーシュート ポルタメント Copyright (c) 2010 日本電信電話株式会社
観測されるF0から,生成過程のパラメータを推定したい !! 従来研究:2次系インパルス応答 話声のF0パターン生成モデル:藤崎モデル 歌声のF0パターン生成モデル(齋藤ら) パラメータを手動で調整し,音声合成に利用 フレーズ指令 アクセント指令 フレーズ制御 アクセント制御 臨界制動2次系 インパルス応答 話声のF0 喉頭の生理的・物理的特性に基づいて, 声帯振動制御機構を定量的にモデル化した 旋律成分 2次系インパルス応答 歌声のF0 観測されるF0から,生成過程のパラメータを推定したい !! 2次系インパルス応答を利用したF0動特性の制御 Copyright (c) 2010 日本電信電話株式会社
提案アプローチ 統計的信号処理手法に基づくF0動特性のモデリング 旋律成分 大局的変動成分 局所的変動成分 観測F0系列 観測F0系列 インパルス応答 ノート間の 音高差 独立な確率変数 観測F0系列 減衰率 ,固有周波数 (下三角行列) 2次系の出力信号 ⇒ 2次系インパルス応答 局所的変動成分 ⇒ 入力ステップ信号 長さ ⇒ ( : の単位行列) Copyright (c) 2010 日本電信電話株式会社
提案アプローチの工夫点 1/2 の関数からなる行列 臨界制動( )の場合 従来法(自身の従来モデル):自己回帰モデルで近似 を推定する問題 提案アプローチの工夫点 1/2 の関数からなる行列 臨界制動( )の場合 インパルス応答: (下三角行列) 複雑な行列となる! 従来法(自身の従来モデル):自己回帰モデルで近似 を推定する問題 パラメータ数が増加して, 自由度が高くなり, パラメータ推定が不安定 Copyright (c) 2010 日本電信電話株式会社
提案アプローチの工夫点 2/2 の関数からなる行列 臨界制動( )の場合 提案アプローチの工夫点 2/2 の関数からなる行列 モデルの自由度を効果的に下げる目的で,あらかじめ用意した複数の振動基底の疎(スパース)な線形和で構成する 事前に 個の を計算し( を手動で決定),その逆行列の重み付き和で近似する 臨界制動( )の場合 (下三角行列) インパルス応答: 複雑な行列となる! 減衰振動 臨界制動 指数減衰 の推定 (スパース)の推定 Copyright (c) 2010 日本電信電話株式会社
パラメータ最適化アルゴリズム EM法と補助関数法に基づく最適化アルゴリズム 観測F0系列 2次系の出力信号 局所変動成分 完全データ 不完全データ 初期化: の導出( を手動で決定)と パラメータ集合 の初期値決定 E-step: 観測F0系列を出力信号と局所変動成分に分離 条件付期待値: 補助変数: (現在のパラメータ集合を として) M-step: パラメータの更新 に関する連立方程式(Coordinate descent法) の更新式 Copyright (c) 2010 日本電信電話株式会社
F0系列の生成方法 ステップ信号 2次系インパルス応答 生成F0系列 推定されたパラメータ 推定されたパラメータ の中で最も値が大きい 推定されたパラメータ の中で最も値が大きい に対応する ⇒ 推定されたインパルス応答 生成F0系列 の計算 4200 4400 4600 4800 5000 2 4 6 8 時間 [s] 周波数 [cent] 観測F0系列 生成F0系列 セグメントごとにF0を生成した結果 ステップ信号 インパルス応答 Copyright (c) 2010 日本電信電話株式会社
生成結果の例 声楽家と素人による,“喜びの歌”の歌唱 ○大局的動的変動成分(立ち上がり,オーバーシュートなど) ×局所的動的変動成分(ビブラート,微細な変動成分) ⇒ ガウシアンプロセス,マルチカーネル学習 声楽家と素人による,“喜びの歌”の歌唱 YINを利用したF0推定(5ms),無声音区間⇒線形補間 声楽家(女性) 6200 周波数 [cent] 5800 5400 観測F0系列 生成F0系列 5000 素人(男性) 5000 周波数 [cent] 4600 4200 観測F0系列 生成F0系列 3800 2 4 6 8 時間 [sec] Copyright (c) 2010 日本電信電話株式会社
評価実験 人工的に合成したF0系列に基づく評価 パラメータ の応用性の評価 信号合成 ランダムな 推定された 提案法 パラメータ の応用性の評価 パラメータ の中で最も値が大きい に対応する の の歌唱者ごとの平均値 信号合成 ランダムな 推定された 提案法 比較 局所解問題を解決できているかの評価 0.46 0.50 0.54 0.58 0.62 0.12 0.14 0.16 0.18 0.20 声楽家(女性) 素人(男性) 素人(女性) 声楽家(男性) ポップス歌手 (女性) ポップス歌手(男性) が小さい ⇒ オーバーシュートしがち が小さい ⇒ ノートの立ち上りが遅い 歌唱技術・スタイルの違いの分析 Copyright (c) 2010 日本電信電話株式会社
研究の根底にある興味 人間が付与する動特性(ダイナミクス)の特徴抽出 ⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 離散的な記号列 き ら き ら ひ か る 離散的な記号列 歌声:楽譜・歌詞 人間 歌唱者 連続的な信号 音高(F0信号) 音韻(MFCC信号) 音高(F0信号) 音韻(MFCC信号) おはようございます, 今日は良い天気ですね。 話声:文章(文字列) 話し手 ダイナミクスと,非言語情報(歌い方や話し方などのスタイル, 平静,怒り,喜び,悲しみなどの感情)との関係性の解明 ⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 Copyright (c) 2010 日本電信電話株式会社
まとめ 歌声のF0動特性をノート単位で編集し,合成できる Vocal Dynamics Controllerの提案 今後の課題 エルゴディックなHMMによるViterbiサーチ F0系列の成分分解 2次系を利用したF0動特性の統計的モデリング EM法と補助関数法に基づくパラメータ最適化アルゴリズム パラメータを利用したF0生成 今後の課題 局所的変動成分(ビブラート,微細な変動成分)のモデル化 ⇒ ガウシアンプロセス,マルチカーネル学習 提案モデルの多変量化と声質(MFCCなど)の動特性の制御 Copyright (c) 2010 日本電信電話株式会社