Basis vectors generation

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Building text features for object image classification
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
クロストーク成分の相互相関に 着目した音場再生システム
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
第6章 カーネル法 修士2年 藤井 敬士.
非負値行列因子分解による 構音障害者の声質変換
サポートベクターマシン によるパターン認識
音高による音色変化に着目した 音源同定手法
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
訓練データとテストデータが 異なる分布に従う場合の学習
音色空間の音高依存性を考慮した 楽器音の音源同定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
独立成分分析 (ICA:Independent Component Analysis )
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
ブースティングとキーワードフィルタリング によるシステム要求検出
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
音色空間の音高依存性を考慮した 楽器音の音源同定
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Basis vectors generation 基底の反復生成と教師ありNMFを用いた信号解析 第12回音声言語シンポジウム 34 ○中鹿亘,滝口哲也,有木康雄 (神戸大) [1] P. Smaragdis, 2003 非負値行列因子分解(NMF)による楽音解析[1] 現在最も主流になっている楽音解析手法 音楽音響信号のスペクトログラムをNMFによって分解 はじめに 研究背景 音楽信号処理の高い関心 自動採譜技術の期待 近年,音楽コンテンツが爆発的に増加している NMF…非負行列Xを,2つの非負行列W,Hの積に分解するアルゴリズム 音楽アプリケーションなど,様々なアプリケーションへ応用可能 X W H 楽音解析 ≒自動採譜 音響信号(wav)から楽譜信号(midi)への変換 複数の音が混ざり合う信号から,個別の音を推定する逆問題 ・この行列が未知  ⇒教師なしNMF ・この行列が既知  ⇒教師ありNMF この分解アルゴリズムを音楽信号に適用 観測スペクトル 基底行列 アクティビティ行列 発音時刻などの情報を含む 録音物(wavデータ)から楽譜(midiデータ)へ,自動的に変換する 基本周波数の情報を含む 従来手法の問題点 提案手法 教師なしNMFによる楽音解析の問題点 研究の動機 教師なしNMFの問題点:意図しない基底が現れてしまう 教師ありNMFの問題点:全ての基底を用意するのは非現実的 ⇒ 確率的な生成モデルから,カテゴリ内の基底を全て生成できないか? 楽器や音素など ある音高の 微小に変動するスペクトル あらゆる音高の スペクトル PSE スペクトルが倍音成分のみ ⇒音高が求まる 分散と平均で表されるスペクトル包絡 ⇒ 本研究では確率スペクトル包絡 (PSE) と呼ぶ 意図しない基底が現れてしまう 教師なしNMFでは、機械的に分解しているので スペクトルが混在している ⇒音高が求まらない 提案手法の流れ 学習ステージと解析ステージに分かれる 教師ありNMFによる楽音解析の問題点 確率スペクトル包絡からランダムにスペクトルを生成 予め基底を学習させる Learning signals Test signals 観測スペクトル 基底行列 アクティビティ行列 STFT STFT 楽器ごとの学習用スペクトルを求める unsupervised NMF Basis vectors generation supervised NMF 教師ありNMFによって曲を解析 既知 確率スペクトル包絡の学習 Gaussian Process Distance Calculation 観測スペクトログラムとの距離を計算 Iteration データの数が膨大 全ての楽器,全ての音高について基底を用意すると 比較的精度は高いが, 全ての基底を用意するのは 現実的ではない PSEs Separated sources 学習ステージ 解析ステージ [2] E. Snelson and Z. Ghahramani, 2006 学習ステージ 3.確率スペクトル包絡の学習 通常のGPとSPGP+HSの違い データベース ガウシアンプロセス(GP)で  確率的なスペクトル包絡を近似 1.教師なしNMFにより基底行列を計算 学習信号のスペクトログラムを教師なしNMFで分解 ガウス分布に従った確率過程 任意の関数曲線を分散込みで近似できる GP カテゴリごとに学習信号を用意する 学習信号は単旋律 K(x,x’)は RBFカーネル 学習データ 基底行列 アクティビティ行列 スペクトログラム カテゴリ c us-NMF 任意の周波数  における予測値  は スペクトルピークの集合Dを用いて計算される ピーク抽出 求めたいもの SPGP +HS 平均曲線 分散曲線 GP スペクトルピーク集合 2.基底行列からスペクトルピークを抽出 倍音とその強度のペア(f,y)を全て抽出 本研究では,分散曲線を精度よく近似するため ガウシアンプロセスを拡張したSPGP (sparse pseudo-input Gaussian process) +HS [2] を用いる 2010 Toru Nakashika, Ariki Laboratory, Kobe University.

解析ステージ 評価実験 2.調波フィルタを掛けてスペクトルを生成 3.テストデータに対し教師ありNMFを実行 調波フィルタはスペクトルの基本周波数を決める 音高の異なる複数の調波フィルタを掛ける 3.テストデータに対し教師ありNMFを実行 テストデータのスペクトログラムをNMFの入力とする 擬似逆行列より,アクティビティ行列を直接求める 確率スペクトル包絡から生成された基底行列を使用 1.確率スペクトル包絡から   ランダムにスペクトル包絡を生成 ガウシアンプロセスの予測値     を用いる カテゴリごとに確率スペクトル包絡が存在 非負擬似正規分布に基づいてランダム生成 調波フィルタは,任意の音高  について, 混合ガウシアンコンポーネントで計算される 1. 擬似逆行列を計算 2. 非負空間へ射影 3. 正規化 擬似逆行列を用いた教師ありNMFによる アクティビティ行列を算出するまでの流れ テストデータ 調波フィルタ 正規分布を基準軸で折り返した確率密度関数 スペクトログラム ピッチ付与 H(p) アクティビティ行列 カテゴリC1 ランダム生成 s-NMF H … ランダム基底行列 確率スペクトル包絡 生成されたスペクトル包絡 生成された基底スペクトル 非負擬似正規分布は,非負値をとるスペクトルの生成に相応しい 1.~3.へ データベース 解析結果 4.選択的アルゴリズムによる最適解探索 観測スペクトログラムと,WHの距離を計算 1.~3.を繰り返し, 距離が最も最小となる(W,H)を解析結果とする カテゴリC2 確率スペクトル包絡 生成されたスペクトル包絡 生成された基底スペクトル 解析結果 ①piano1で演奏した解析結果の例 実験結果 各手法による自動採譜の正解率 Note Number Time 評価実験 正解データ 提案手法 2 4 6 8 10 12 40 45 50 55 60 65 70 75 80 実験1:未学習データへの予測精度をみる実験 提案手法により,12秒程度の曲を解析 学習,テスト共にMIDIデータを演奏し,録音 単一楽器(piano1)のみを用いてPSEを学習 様々な環境下で録音された曲を解析し, 提案手法の頑健性をみる 比較手法 :全音符数 :挿入誤り数 :削除誤り数 2 4 6 8 10 12 40 45 50 55 60 65 70 75 80 2 4 6 8 10 12 40 45 50 55 60 65 70 75 80 ①piano1で演奏 ④残響レベル40で演奏 ②piano2で演奏 ⑤残響レベル100で演奏 ③piano3で演奏    ①教師ありNMF1(piano1のみ学習)    ②教師なしNMF (参考)教師ありNMF2(それぞれの環境で録音した基底を学習) 教師なしNMF 教師ありNMF 提案手法では,他の手法に比べて頑健性があることが分かる 提案手法では,教師ありNMFとほぼ同じ結果が得られた 実験2:複数の楽器を含む音楽信号を解析する実験 ピアノとヴァイオリンの2種類の楽器を用いて曲を解析 比較手法 確率スペクトル包絡の学習結果 ピアノ ヴァイオリン …教師ありNMF(ピアノとヴァイオリンを予め学習) カテゴリによって確率スペクトルが異なっている ⇒楽器カテゴリの特徴を確率スペクトル包絡によって捉えることが可能 使用したデータ:RWCデータベースより RWC-MDB-C-2001 No. 43: Sicilienne op.78 / Faure, Gabriel 正解データのピアノロール 確率スペクトル包絡から生成されたスペクトルの例 解析結果 2 4 6 8 10 12 40 50 60 70 80 90 100 提案手法 教師ありNMF バイオリン ピアノ Note Number Time 教師ありNMFと近い結果が得られた 生成された スペクトル オリジナル ピアノ(C4) ヴァイオリン(E4) オリジナルと似たスペクトルを生成できている ⇒教師ありNMFと同程度以上の性能を持つ 2010 Toru Nakashika, Ariki Laboratory, Kobe University.