NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

音声特徴比較システムの開発 Development of Voice Feature Comparison System.
顔表情クラスタリングによる 映像コンテンツへのタギング
電子透かしにおける マスキング効果の主観評価
小学校におけるICTを使った 音楽科教材開発
音響モデルを利用したシングルチャネルに よる音源方向推定
動機 目的 音声特徴比較システムの開発 結果を考察 サンプルデータ の収集及び統計 班員全員が音楽好き 歌の上手さを科学的に理解
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
サポートベクターマシン によるパターン認識
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
音高による音色変化に着目した 音源同定手法
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定
Online Decoding of Markov Models under Latency Constraints
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
Broad Institute GenePattern
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
フルート運指の最適化 動機 管楽器:各音に対し複数の運指がある. 速い部分で滑らかに指を動かすため どの運指を用いるべきか?
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法 日本音響学会2010年秋季研究発表会 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) [1] P. Smaragdis, 2003 概要 非負値行列因子分解(NMF)による楽音解析[1] 現在最も主流になっている楽音解析手法 音楽音響信号のスペクトログラムをNMFによって分解 研究背景 音楽信号処理の高い関心 自動採譜技術の期待 近年,音楽コンテンツが爆発的に増加している NMF…非負行列Xを,2つの非負行列W,Hの積に分解するアルゴリズム 音楽アプリケーションなど,様々なアプリケーションへ応用可能 X W H 楽音解析 ≒自動採譜 音響信号(wav)から楽譜信号(midi)への変換 複数の音が混ざり合う信号から,個別の音を推定する逆問題 音楽信号のスペクトログラムをNMFで分解 観測スペクトル 基底行列 アクティビティ行列 発音時刻などの情報を含む 録音物(wavデータ)から楽譜(midiデータ)へ,自動的に変換する 基本周波数の情報を含む 従来手法の問題点 提案手法 ピアノ ドとミ だな 研究の動機 人間は楽器の特徴を知っている 問題点 ① ポリフォニー音楽を解析できないときがある 問題点 スペクトルが混在している スペクトルが周期的 (倍音成分のみ) ⇒音高が求まる 音高を正しく求められない ⇒音を聞き分けやすい そこで,基底行列が 既知であると過程 基底行列を予め学習しておく 提案手法の定式化 観測スペクトル 基底行列 アクティビティ行列 既知 更新ルール 提案手法による問題解決 提案手法の流れ 問題点 ② 基底の数を適切に選ぶ必要がある 問題 ポリフォニーを正しく解析できない 規定数=3 (正) 規定数=2 (誤) 500 1000 1500 2000 2500 3000 3500 4000 4500 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.5 1 1.5 2 2.5 3 3.5 4 5 STFT NMF 楽器情報DB 楽器情報を用いたNMF 事後処理 楽器情報の学習 楽音情報の推定 ⇒対応する基底ベクトルだけに反応させる ドの基底に対応するアクティビティ レ ミ ファ ソ ラ 解決 問題 正しい基底の数を与えるのは困難 ⇒解析時に用いる基底行列は既知   (基底の数を考慮する必要がない) 解決 既知基底 曲1 曲2 曲3 問題点 意図しない基底が表れる 評価実験 実験結果 客観評価による比較 主観評価による比較 推定結果の例 (1曲目) 従来手法1 (採譜の達人) 従来手法2 (HTC) 提案手法 1曲目 Under 0 % 78.6 % 95.6 % 2曲目 61.0 % 84.0 % Note number Time オリジナル 推定結果 実験手順 MIDIデータを録音 提案手法により音響信号を解析 元のMIDIデータと比較 正解率 = 1 - (不正解ノート数/全ノート数) (音長が異なっても正解とみなす) 実験データ Sicilienne op. 78 (0:14) Crescent Serenade (0:24) (RWCデータベース) 提案手法 採譜の達人 HTC 1曲目 2曲目 強度 一定値 強度推定値 まとめ 従来のNMFによる手法の問題点を解決 解析精度が高い 非常に高速(1秒程度で解析) 実験条件 解析範囲…4 oct. (C2-B5) 基底…ピアノの楽器構造を予め学習 2010 Autumn Meeting of ASJ. (C) CS17, Kobe University.