VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し，合成できるインタフェース

Slides:

Advertisements

Similar presentations

Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University

Advertisements

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

補章時系列モデル入門ｰ計量経済学ｰ.

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

発声のしくみ－声道の共鳴と音源の生成－.

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

時空間データからのオブジェクトベース知識発見

クロストーク成分の相互相関に着目した音場再生システム

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

PSOLA法を用いた極低ビットレート音声符号化に関する検討

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

補章時系列モデル入門ｰ計量経済学ｰ.

システムモデルと伝達関数 1. インパルス応答と伝達関数キーワード：伝達関数、インパルス応答、ステップ応答、ランプ応答

パターン認識とニューラルネットワーク栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.

音高による音色変化に着目した音源同定手法

音信号表現音声波形のデジタル化（ＰＣＭ）サンプリング、標本化定理、量子化ソースフィルタモデル

PCAからICAへ？狩野裕＋清水昌平（大阪大学人間科学部）日本行動計量学会：東京大学　平成12年10月.

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

NTTコミュニケーション科学基礎研究所村山立人

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

音高による音色変化に着目した音源同定に関する研究

P3-12 教師が真の教師のまわりをまわる場合のオンライン学習三好誠司(P)（神戸高専）岡田真人（東大，理研，さきがけ）

あらましアンサンブル学習の大きな特徴として，多数決などで生徒を組み合わせることにより，単一の生徒では表現できない入出力関係を実現できることがあげられる．その意味で，教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い．そこで本研究では，教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する．メトロポリス法により汎化誤差を計算した結果，ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること，パーセプトロン学習では

第14章　モデルの結合修士２年山川佳洋.

雑音環境下における非負値行列因子分解を用いた声質変換

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

独立成分分析５　アルゴリズムの安定性と効率２００７/１０/２４　　　名雪　勲.

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

ディジタル信号処理 Digital Signal Processing

Basis vectors generation

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るかー調音音声学 2.3 声の正体とはー音響音声学 2.4 どうやって声を聴き取るかー聴覚音声学.

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

音声情報とベイジアンネットを用いた感性情報処理システム

シミュレーションパラメータの設定一次系の時間応答二次系の時間応答

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

楽器音を対象とした音源同定：音高による音色変化を考慮する識別手法の検討

第3章　線形回帰モデル修士1年山田　孝太郎.

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

回帰分析（Regression Analysis)

HMM音声合成における変分ベイズ法に基づく線形回帰

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

人工知能特論II　第8回二宮　崇.

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

PI補償器の出力を時変係数とする定常発振制御系の安定性解析

第 5 章：周波数応答 5.1 周波数応答と伝達関数周波数伝達関数，ゲイン，位相キーワード： 5.2 ベクトル軌跡ベクトル軌跡

制約付き非負行列因子分解を用いた音声特徴抽出の検討

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

ソースフィルタモデル.

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

雑音環境下における Sparse Coding声質変換 3-P-49d

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し，合成できるインタフェース大石康智, 亀岡弘和，持橋大地永野秀尚，柏野邦夫 NTTコミュニケーション科学基礎研究所 Copyright (c) 2010　日本電信電話株式会社

デモシステムの紹介 ①観測F0系列 ②入力歌声聴取 ③パラメータに基づく生成F0系列 ④パラメータ説明（ダイナミクスと音高）減衰率，固有周波数，音高差 ⑤付加機能（ビブラート）説明 ⑥合成説明 ⑦歌声合成音聴取 Copyright (c) 2010　日本電信電話株式会社

歌声音響信号の合成 ① 観測F0系列と生成（修正）F0系列の比率計算 ② 入力歌声音響信号の線形予測分析 ③ Griffin-Limの反復STFT法による位相推定時間 [s] 比率 0.96 1 1.04 1.08 1.12 周波数 [Hz] 時間 [s] 線形伸縮合成スペクトログラム周波数 [Hz] 時間 [s] 入力スペクトログラム周波数 [Hz] 時間 [s] 包絡構造（音韻）周波数 [Hz] 時間 [s] 微細構造（音高）周波数 [Hz] 時間 [s] 修正微細構造周波数 [Hz] 時間 [s] Copyright (c) 2010　日本電信電話株式会社

それでは聴いてみましょう！ Copyright (c) 2010　日本電信電話株式会社

システムの基礎技術 F0系列のセグメント分割 F0系列の成分分解 ⇒ 隠れマルコフモデル（HMM）によるViterbiサーチ旋律成分 4000 4400 4800 5200 5600 6000 F0 [cent] [sec] 2 4 6 8 ⇒ 隠れマルコフモデル（HMM）によるViterbiサーチインパルス応答旋律成分時間大局的動的変動成分ノート間の音高差局所的動的変動成分観測F0系列時間 ⇒ 2次系によるF0動特性の統計的モデリング Copyright (c) 2010　日本電信電話株式会社

F0系列のセグメント分割隠れマルコフモデル（HMM）によるViterbiサーチ周波数 [cent] 時間 [s] 無音 Copyright (c) 2010　日本電信電話株式会社

F0系列の成分分解想定する歌声のF0生成過程の概略図旋律成分：ステップ信号大局的変動成分：2次系インパルス応答系の出力信号パラメータ：ノート間の音高差大局的変動成分：2次系インパルス応答パラメータ：減衰率　，固有周波数系の出力信号局所的変動成分：ガウス性白色雑音パラメータ：ガウス分布の分散観測F0系列旋律成分大局的変動成分局所的変動成分インパルス応答ノート間の音高差減衰振動（　　　　　　　）臨界制動（　　　　　）指数減衰（　　　　　）オーバーシュートポルタメント Copyright (c) 2010　日本電信電話株式会社

観測されるF0から，生成過程のパラメータを推定したい !! 従来研究：2次系インパルス応答話声のF0パターン生成モデル：藤崎モデル歌声のF0パターン生成モデル（齋藤ら）パラメータを手動で調整し，音声合成に利用フレーズ指令アクセント指令フレーズ制御アクセント制御臨界制動2次系インパルス応答話声のF0 喉頭の生理的・物理的特性に基づいて，声帯振動制御機構を定量的にモデル化した旋律成分 2次系インパルス応答歌声のF0 観測されるF0から，生成過程のパラメータを推定したい !! 2次系インパルス応答を利用したF0動特性の制御 Copyright (c) 2010　日本電信電話株式会社

提案アプローチ統計的信号処理手法に基づくF0動特性のモデリング旋律成分大局的変動成分局所的変動成分観測F0系列観測F0系列インパルス応答ノート間の音高差独立な確率変数観測F0系列減衰率，固有周波数（下三角行列） 2次系の出力信号 ⇒ 2次系インパルス応答局所的変動成分 ⇒ 入力ステップ信号長さ ⇒ （：　　　　の単位行列） Copyright (c) 2010　日本電信電話株式会社

提案アプローチの工夫点 1/2 の関数からなる行列臨界制動（）の場合従来法（自身の従来モデル）：自己回帰モデルで近似を推定する問題提案アプローチの工夫点　1/2 　　　の関数からなる行列臨界制動（　　　　）の場合インパルス応答：（下三角行列）複雑な行列となる！従来法（自身の従来モデル）：自己回帰モデルで近似を推定する問題パラメータ数が増加して，自由度が高くなり，パラメータ推定が不安定 Copyright (c) 2010　日本電信電話株式会社

提案アプローチの工夫点 2/2 の関数からなる行列臨界制動（）の場合提案アプローチの工夫点　2/2 　　　の関数からなる行列モデルの自由度を効果的に下げる目的で，あらかじめ用意した複数の振動基底の疎（スパース）な線形和で構成する事前に個の　を計算し（　　　　を手動で決定），その逆行列の重み付き和で近似する臨界制動（　　　　）の場合（下三角行列）インパルス応答：複雑な行列となる！減衰振動臨界制動指数減衰の推定（スパース）の推定 Copyright (c) 2010　日本電信電話株式会社

パラメータ最適化アルゴリズム EM法と補助関数法に基づく最適化アルゴリズム観測F0系列 2次系の出力信号局所変動成分完全データ不完全データ初期化：　　　　　　の導出（　　　を手動で決定）とパラメータ集合　　　　　　　　　　　　　　　　　の初期値決定 E-step：観測F0系列を出力信号と局所変動成分に分離条件付期待値：補助変数：（現在のパラメータ集合をとして） M-step：パラメータの更新　に関する連立方程式（Coordinate descent法）の更新式 Copyright (c) 2010　日本電信電話株式会社

F0系列の生成方法ステップ信号 2次系インパルス応答生成F0系列推定されたパラメータ推定されたパラメータの中で最も値が大きい推定されたパラメータ　　　　　　　　　の中で最も値が大きいに対応する ⇒ 推定されたインパルス応答生成F0系列の計算 4200 4400 4600 4800 5000 2 4 6 8 時間 [s] 周波数 [cent] 観測F0系列生成F0系列セグメントごとにF0を生成した結果ステップ信号インパルス応答 Copyright (c) 2010　日本電信電話株式会社

生成結果の例声楽家と素人による，“喜びの歌”の歌唱 ○大局的動的変動成分（立ち上がり，オーバーシュートなど） ×局所的動的変動成分（ビブラート，微細な変動成分） ⇒ ガウシアンプロセス，マルチカーネル学習声楽家と素人による，“喜びの歌”の歌唱 YINを利用したF0推定（5ms），無声音区間⇒線形補間声楽家（女性） 6200 周波数 [cent] 5800 5400 観測F0系列生成F0系列 5000 素人（男性） 5000 周波数 [cent] 4600 4200 観測F0系列生成F0系列 3800 2 4 6 8 時間 [sec] Copyright (c) 2010　日本電信電話株式会社

評価実験人工的に合成したF0系列に基づく評価パラメータの応用性の評価信号合成ランダムな推定された提案法パラメータ　　　　　　　　　の応用性の評価パラメータ　　　　　　　　　の中で最も値が大きいに対応する　　　のの歌唱者ごとの平均値信号合成ランダムな推定された提案法比較局所解問題を解決できているかの評価 0.46 0.50 0.54 0.58 0.62 0.12 0.14 0.16 0.18 0.20 声楽家（女性）素人（男性）素人（女性）声楽家（男性）ポップス歌手（女性）ポップス歌手（男性）　　が小さい ⇒ オーバーシュートしがち　　が小さい ⇒ ノートの立ち上りが遅い歌唱技術・スタイルの違いの分析 Copyright (c) 2010　日本電信電話株式会社

研究の根底にある興味人間が付与する動特性（ダイナミクス）の特徴抽出 ⇒ “D特徴量に代わる” ，ダイナミクスのモデル化離散的な記号列き　ら　き　ら　ひ　か　る離散的な記号列歌声：楽譜・歌詞人間歌唱者連続的な信号音高（F0信号）音韻（MFCC信号）音高（F0信号）音韻（MFCC信号）おはようございます，今日は良い天気ですね。話声：文章（文字列）話し手ダイナミクスと，非言語情報（歌い方や話し方などのスタイル，平静，怒り，喜び，悲しみなどの感情）との関係性の解明 ⇒ “D特徴量に代わる” ，ダイナミクスのモデル化 Copyright (c) 2010　日本電信電話株式会社

まとめ歌声のF0動特性をノート単位で編集し，合成できる Vocal Dynamics Controllerの提案今後の課題エルゴディックなHMMによるViterbiサーチ F0系列の成分分解 2次系を利用したF0動特性の統計的モデリング EM法と補助関数法に基づくパラメータ最適化アルゴリズムパラメータを利用したF0生成今後の課題局所的変動成分（ビブラート，微細な変動成分）のモデル化　　　　　　　　　　　　⇒ ガウシアンプロセス，マルチカーネル学習提案モデルの多変量化と声質（MFCCなど）の動特性の制御 Copyright (c) 2010　日本電信電話株式会社