音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
「わかりやすいパターン認識」 第1章:パターン認識とは
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
クロストーク成分の相互相関に 着目した音場再生システム
東京工業大学 機械制御システム専攻 山北 昌毅
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
音響的特徴に基づく 楽器の階層表現の獲得と それに基づくカテゴリーレベルの 楽器音認識の検討
†京都大学大学院情報学研究科知能情報学専攻
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
音高による音色変化に着目した 音源同定手法
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
音色空間の音高依存性を考慮した 楽器音の音源同定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
主成分分析 Principal Component Analysis PCA
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
Data Clustering: A Review
部分的最小二乗回帰 Partial Least Squares Regression PLS
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
不完全な定点観測から 真の不正ホストの分布が分かるか?
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
音色空間の音高依存性を考慮した 楽器音の音源同定
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ベイズ音声合成における 事前分布とモデル構造の話者間共有
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
CSP係数の識別に基づく話者の 頭部方向の推定
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定 北原 鉄朗* 後藤 真孝** 奥乃 博* *京都大学大学院情報学研究科 **産業技術総合研究所

自動採譜・音楽アーカイブ構築 などにおいて重要な課題 1.研究の背景・目的 楽器音の音源同定 (音からの楽器名の同定) ∥ 自動採譜・音楽アーカイブ構築 などにおいて重要な課題 Feature Extraction (e.g. Decay speed, Spectral centroid) p(X|wflute) p(X|wpiano) w = argmax p(w|X) = argmax p(X|w) p(w) <inst>piano</inst> 関連研究: 音楽認識関連の多くは,音高推定を指向(音源同定は少数) 現状の性能は, 単独音:70-80% / 10-30クラス 混合音:60-70% / 3-5クラス 本研究では, 音高による音色変化の問題 未知楽器の問題 に着目して研究を遂行

音高による音色変化=音源同定を難しくする要因のひとつ 2.音高による音色変化を考慮する音源同定 2.1 はじめに 音高による音色変化=音源同定を難しくする要因のひとつ e.g. Piano 1 2 3 -0.5 0.5 (a) Pitch = C2 (65.5Hz) time [s] Slow decay 1 2 3 -0.5 0.5 (b) Pitch = C6 (1048Hz) time [s] Fast decay 本研究では,音高による音色変化を関数近似で表現するモデル (F0依存多次元正規分布)とそれを用いた音源同定手法を提案

2.2 F0依存多次元正規分布 多次元正規分布を以下のように拡張 代表値関数:各特徴量の音高依存性を基本周波数の関数で近似. 音高によって変化する分布の平均を表す. F0正規化共分散行列:代表値関数からのちらばりの程度を表す. 特徴量を代表値関数で正規化してから通常の共分散算出式を適用. 代表値関数 F0正規化共分散行列 左はピアノの第4軸,右はチェロの第1軸(いずれも次元圧縮後)

2.3 F0依存多次元正規分布を用いた音源同定手法 1st step: 特徴抽出 先行研究・楽器音響学の知見に基づいて定めた 129個の特徴量を抽出 e.g. 周波数重心 パワー包絡線の近似直線の傾き 2nd step: 次元圧縮 ① 主成分分析 (累積寄与率=99%) 129次元a79次元 ② 線形判別分析 79次元a18次元 (∵19楽器対象) 3rd step: パラメータ推定 F0依存多次元正規分布の パラメータ: - 代表値関数 - F0正規化共分散行列 を18次元空間上で推定 Final step: ベイズ決定規則 次式を満たす楽器wを出力: w = argmax [log p(X|w; f) + log p(w; f)] Flute Piano Piano Flute decayed not decayed

2.4 評価実験 2.4.1 実験条件 2.4.2 実験結果 使用データベース: RWC-MDB-I-2001のサブセット (詳細は右表) 楽器数 オーケストラでよく用いられる19種類 (打楽器は含まない) 楽器個体 2~3種類/楽器 音の強さ 強・中・弱の3種類ずつ 奏法 通常の奏法のみ データ数 1楽器153~696個(総数:6,247個) 2.4.1 実験条件 使用データベース: RWC-MDB-I-2001のサブセット (詳細は右表) 10-fold cross validation 音高は既知 2.4.2 実験結果 認識率 [%] 79.73%の認識率実現 音高による音色変化を考慮しない場合に比べ4.00%認識率向上 19楽器中6楽器で, 認識率が7%以上向上 認識率が7%以上向上した楽器 Piano Trumpet Trom-bone Sop. Sax Bari. Sax Faggoto

3.未知楽器を考慮する音源同定 3.1 はじめに 未知楽器の問題とは 学習データに含まれない楽器(未知楽器)をどう扱うかという問題 未知楽器の問題が重要な理由 ① 世の中には,オーケストラ楽器から民族楽器まで 無数の楽器が存在 ② 近年のディジタルオーディオ技術の発展により, 多種多様な楽音を自由自在に作れるようになった 未知楽器の問題は,これまで扱われてこなかった 本研究の解決策=カテゴリーレベルで同定する. たとえば,バイオリンとビオラをシンセサイザー上で合成して作った音に対して,「楽器名はわからないが,弦楽器系の音」と判断

3.2 未知楽器のカテゴリー同定に適した楽器カテゴリー 未知楽器のカテゴリー同定  に適した楽器カテゴリー ∥ 楽器の音響的類似性を  反映した楽器カテゴリー 楽器の発音機構に基づく カテゴリー(右図)は, 上記の条件を満たさない. また,物理的発音機構を 持たない電子楽器音には 適用できない 楽器の音響的類似性を 反映した楽器カテゴリーを 自動作成 楽器の発音機構に基づく楽器カテゴリー 大分類 中分類 小分類 属する楽器 弦楽器 ── 打弦楽器 PF 撥弦楽器 CG, UK, AG 擦弦楽器 VN, VL, VC 管楽器 木管楽器 無簧楽器 PC, FL, RC 単簧楽器 SS, AS, TS, BS, CL 複簧楽器 OB, FG 金管楽器 TR, TB 打楽器 (省略) 具体的には, 特徴空間上で各楽器間の距離を求め,階層的クラスタリング*を行う *距離の短いペアを順に1つのクラスタにまとめ上げる処理

3.2.1 音響的類似性を反映した楽器カテゴリー作成の課題と解決策 課題1 どの特徴空間を使用するか ⇒音源同定で用いるものと同じ 特徴空間を使用 課題2 特徴空間上の各楽器間の 距離をどのように測るか ⇒各楽器多数の音響信号から 多次元正規分布をつくり, 分布間の距離をマハラノビス 汎距離で求める. クラスタリング結果 提案手法により得られた楽器カテゴリー 大分類 中分類 小分類 属する楽器 減衰系楽器 ── ウクレレ以外 PF, CG, AG ウクレレ UK 持続系楽器 弦楽器 VN, VL, VC 管楽器 サックス SS, AS, TS クラリネット CL リコーダー RC 低音系+α TR, TB, BS, FG 高音系 OB, PC, FL 3.2.2 カテゴリー作成例 使用データ:上記と同じ 特徴空間:上記と同じ 結果は,部分的に慣習的なものと異なる(右表)

学習データ:自然楽器音 (RWC-MDB-I-2001から抜粋した19楽器6,247音のうち,ランダムに半分を選択) 3.3 未知楽器のカテゴリーレベルの音源同定 3.3.1 処理の流れ 3.3.2 使用データ 学習データ:自然楽器音 (RWC-MDB-I-2001から抜粋した19楽器6,247音のうち,ランダムに半分を選択) 既知楽器の評価データ:自然楽器音 (上記の残り半分) 未知楽器の評価データ:電子楽器音 (ヤマハ製MU2000に収録されている - エレクトリックピアノ(ElecPf), - シンセストリングス(SynStr), - シンセブラス(SynBrs). ※各々2バリエーションずつ使用) 楽器名レベルで同定 1.の結果wと入力信号xとの距離D(x,w)を計算 D(x,w)がしきい値以下ならwを出力 D(x,w)がしきい値以上ならカテゴリーレベルで再同定 3.3.3 実験結果 約77%の未知楽器音を正確に同定

4.ま と め 音源同定=自動採譜・音楽アーカイブ構築において重要な課題 音源同定における問題①「音高による音色変化」 4.ま  と  め 音源同定=自動採譜・音楽アーカイブ構築において重要な課題 音源同定における問題①「音高による音色変化」 音高による音色変化を表現するモデル 「F0依存多次元正規分布」を提案 19楽器6,247音の楽器音データベースを用いて,79.73%の認識率を実現 (音高による音色変化を考慮しない場合に比べ4.00%向上) 音源同定における問題②「未知楽器」 学習データに含まれない楽器(未知楽器)を適切に扱うことの重要性を指摘 未知楽器をカテゴリーレベルで同定することを提案 「楽器名まではわからないけど,弦楽器系の音」という理解 自然楽器音のみの学習で,約77%の電子楽器音を正しく同定