VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース

Slides:



Advertisements
Similar presentations
Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University
Advertisements

多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
発声のしくみ -声道の共鳴と音源の生成-.
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
クロストーク成分の相互相関に 着目した音場再生システム
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
補章 時系列モデル入門 ー 計量経済学 ー.
システムモデルと伝達関数 1. インパルス応答と伝達関数 キーワード : 伝達関数、インパルス応答、 ステップ応答、ランプ応答
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
音高による音色変化に着目した 音源同定手法
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
NTTコミュニケーション科学基礎研究所 村山 立人
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音高による音色変化に着目した音源同定に関する研究
P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
ディジタル信号処理 Digital Signal Processing
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
音声情報とベイジアンネットを 用いた感性情報処理システム
シミュレーションパラメータの設定 一次系の時間応答 二次系の時間応答
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
音声合成.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
回帰分析(Regression Analysis)
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
PI補償器の出力を時変係数とする 定常発振制御系の安定性解析
第 5 章 :周波数応答 5.1 周波数応答と伝達関数 周波数伝達関数,ゲイン,位相 キーワード : 5.2 ベクトル軌跡 ベクトル軌跡
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
ソースフィルタモデル.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
雑音環境下における Sparse Coding声質変換 3-P-49d
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース 大石 康智, 亀岡 弘和,持橋 大地 永野 秀尚,柏野 邦夫 NTTコミュニケーション科学基礎研究所 Copyright (c) 2010 日本電信電話株式会社

デモシステムの紹介 ①観測F0系列 ②入力歌声聴取 ③パラメータに基づく生成F0系列 ④パラメータ説明(ダイナミクスと音高) 減衰率,固有周波数,音高差 ⑤付加機能(ビブラート)説明 ⑥合成説明 ⑦歌声合成音聴取 Copyright (c) 2010 日本電信電話株式会社

歌声音響信号の合成 ① 観測F0系列と生成(修正)F0系列の比率計算 ② 入力歌声音響信号の線形予測分析 ③ Griffin-Limの反復STFT法による位相推定 時間 [s] 比率 0.96 1 1.04 1.08 1.12 周波数 [Hz] 時間 [s] 線形伸縮 合成スペクトログラム 周波数 [Hz] 時間 [s] 入力スペクトログラム 周波数 [Hz] 時間 [s] 包絡構造(音韻) 周波数 [Hz] 時間 [s] 微細構造(音高) 周波数 [Hz] 時間 [s] 修正微細構造 周波数 [Hz] 時間 [s] Copyright (c) 2010 日本電信電話株式会社

それでは 聴いてみましょう! Copyright (c) 2010 日本電信電話株式会社

システムの基礎技術 F0系列のセグメント分割 F0系列の成分分解 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ 旋律成分 4000 4400 4800 5200 5600 6000 F0 [cent] [sec] 2 4 6 8 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ インパルス応答 旋律成分 時間 大局的 動的変動成分 ノート間の 音高差 局所的 動的変動成分 観測F0系列 時間 ⇒ 2次系によるF0動特性の統計的モデリング Copyright (c) 2010 日本電信電話株式会社

F0系列のセグメント分割 隠れマルコフモデル(HMM)によるViterbiサーチ 周波数 [cent] 時間 [s] 無音 Copyright (c) 2010 日本電信電話株式会社

F0系列の成分分解 想定する歌声のF0生成過程の概略図 旋律成分:ステップ信号 大局的変動成分:2次系インパルス応答 系の出力信号 パラメータ:ノート間の音高差 大局的変動成分:2次系インパルス応答 パラメータ:減衰率  ,固有周波数 系の出力信号 局所的変動成分:ガウス性白色雑音 パラメータ:ガウス分布の分散 観測F0系列 旋律成分 大局的変動成分 局所的変動成分 インパルス応答 ノート間の 音高差 減衰振動(        ) 臨界制動(     ) 指数減衰(     ) オーバーシュート ポルタメント Copyright (c) 2010 日本電信電話株式会社

観測されるF0から,生成過程のパラメータを推定したい !! 従来研究:2次系インパルス応答 話声のF0パターン生成モデル:藤崎モデル 歌声のF0パターン生成モデル(齋藤ら) パラメータを手動で調整し,音声合成に利用 フレーズ指令 アクセント指令 フレーズ制御 アクセント制御 臨界制動2次系 インパルス応答 話声のF0 喉頭の生理的・物理的特性に基づいて, 声帯振動制御機構を定量的にモデル化した 旋律成分 2次系インパルス応答 歌声のF0 観測されるF0から,生成過程のパラメータを推定したい !! 2次系インパルス応答を利用したF0動特性の制御 Copyright (c) 2010 日本電信電話株式会社

提案アプローチ 統計的信号処理手法に基づくF0動特性のモデリング 旋律成分 大局的変動成分 局所的変動成分 観測F0系列 観測F0系列 インパルス応答 ノート間の 音高差 独立な確率変数 観測F0系列 減衰率 ,固有周波数 (下三角行列) 2次系の出力信号 ⇒ 2次系インパルス応答 局所的変動成分 ⇒ 入力ステップ信号 長さ ⇒ ( :     の単位行列) Copyright (c) 2010 日本電信電話株式会社

提案アプローチの工夫点 1/2 の関数からなる行列 臨界制動( )の場合 従来法(自身の従来モデル):自己回帰モデルで近似 を推定する問題 提案アプローチの工夫点 1/2    の関数からなる行列 臨界制動(     )の場合 インパルス応答: (下三角行列) 複雑な行列となる! 従来法(自身の従来モデル):自己回帰モデルで近似 を推定する問題 パラメータ数が増加して, 自由度が高くなり, パラメータ推定が不安定 Copyright (c) 2010 日本電信電話株式会社

提案アプローチの工夫点 2/2 の関数からなる行列 臨界制動( )の場合 提案アプローチの工夫点 2/2    の関数からなる行列 モデルの自由度を効果的に下げる目的で,あらかじめ用意した複数の振動基底の疎(スパース)な線形和で構成する 事前に 個の   を計算し(     を手動で決定),その逆行列の重み付き和で近似する 臨界制動(     )の場合 (下三角行列) インパルス応答: 複雑な行列となる! 減衰振動 臨界制動 指数減衰 の推定 (スパース)の推定 Copyright (c) 2010 日本電信電話株式会社

パラメータ最適化アルゴリズム EM法と補助関数法に基づく最適化アルゴリズム 観測F0系列 2次系の出力信号 局所変動成分 完全データ 不完全データ 初期化:        の導出(    を手動で決定)と パラメータ集合                 の初期値決定 E-step: 観測F0系列を出力信号と局所変動成分に分離 条件付期待値: 補助変数: (現在のパラメータ集合を として) M-step: パラメータの更新  に関する連立方程式(Coordinate descent法) の更新式 Copyright (c) 2010 日本電信電話株式会社

F0系列の生成方法 ステップ信号 2次系インパルス応答 生成F0系列 推定されたパラメータ 推定されたパラメータ の中で最も値が大きい 推定されたパラメータ          の中で最も値が大きい に対応する ⇒ 推定されたインパルス応答 生成F0系列 の計算 4200 4400 4600 4800 5000 2 4 6 8 時間 [s] 周波数 [cent] 観測F0系列 生成F0系列 セグメントごとにF0を生成した結果 ステップ信号 インパルス応答 Copyright (c) 2010 日本電信電話株式会社

生成結果の例 声楽家と素人による,“喜びの歌”の歌唱 ○大局的動的変動成分(立ち上がり,オーバーシュートなど) ×局所的動的変動成分(ビブラート,微細な変動成分) ⇒ ガウシアンプロセス,マルチカーネル学習 声楽家と素人による,“喜びの歌”の歌唱 YINを利用したF0推定(5ms),無声音区間⇒線形補間 声楽家(女性) 6200 周波数 [cent] 5800 5400 観測F0系列 生成F0系列 5000 素人(男性) 5000 周波数 [cent] 4600 4200 観測F0系列 生成F0系列 3800 2 4 6 8 時間 [sec] Copyright (c) 2010 日本電信電話株式会社

評価実験 人工的に合成したF0系列に基づく評価 パラメータ の応用性の評価 信号合成 ランダムな 推定された 提案法 パラメータ          の応用性の評価 パラメータ          の中で最も値が大きい に対応する   の の歌唱者ごとの平均値 信号合成 ランダムな 推定された 提案法 比較 局所解問題を解決できているかの評価 0.46 0.50 0.54 0.58 0.62 0.12 0.14 0.16 0.18 0.20 声楽家(女性) 素人(男性) 素人(女性) 声楽家(男性) ポップス歌手 (女性) ポップス歌手(男性)   が小さい ⇒ オーバーシュートしがち   が小さい ⇒ ノートの立ち上りが遅い 歌唱技術・スタイルの違いの分析 Copyright (c) 2010 日本電信電話株式会社

研究の根底にある興味 人間が付与する動特性(ダイナミクス)の特徴抽出 ⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 離散的な記号列 き ら き ら ひ か る 離散的な記号列 歌声:楽譜・歌詞 人間 歌唱者 連続的な信号 音高(F0信号) 音韻(MFCC信号) 音高(F0信号) 音韻(MFCC信号) おはようございます, 今日は良い天気ですね。 話声:文章(文字列) 話し手 ダイナミクスと,非言語情報(歌い方や話し方などのスタイル, 平静,怒り,喜び,悲しみなどの感情)との関係性の解明 ⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 Copyright (c) 2010 日本電信電話株式会社

まとめ 歌声のF0動特性をノート単位で編集し,合成できる Vocal Dynamics Controllerの提案 今後の課題 エルゴディックなHMMによるViterbiサーチ F0系列の成分分解 2次系を利用したF0動特性の統計的モデリング EM法と補助関数法に基づくパラメータ最適化アルゴリズム パラメータを利用したF0生成 今後の課題 局所的変動成分(ビブラート,微細な変動成分)のモデル化             ⇒ ガウシアンプロセス,マルチカーネル学習 提案モデルの多変量化と声質(MFCCなど)の動特性の制御 Copyright (c) 2010 日本電信電話株式会社