音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定 北原 鉄朗* 後藤 真孝** 奥乃 博* *京都大学大学院情報学研究科 **産業技術総合研究所
自動採譜・音楽アーカイブ構築 などにおいて重要な課題 1.研究の背景・目的 楽器音の音源同定 (音からの楽器名の同定) ∥ 自動採譜・音楽アーカイブ構築 などにおいて重要な課題 Feature Extraction (e.g. Decay speed, Spectral centroid) p(X|wflute) p(X|wpiano) w = argmax p(w|X) = argmax p(X|w) p(w) <inst>piano</inst> 関連研究: 音楽認識関連の多くは,音高推定を指向(音源同定は少数) 現状の性能は, 単独音:70-80% / 10-30クラス 混合音:60-70% / 3-5クラス 本研究では, 音高による音色変化の問題 未知楽器の問題 に着目して研究を遂行
音高による音色変化=音源同定を難しくする要因のひとつ 2.音高による音色変化を考慮する音源同定 2.1 はじめに 音高による音色変化=音源同定を難しくする要因のひとつ e.g. Piano 1 2 3 -0.5 0.5 (a) Pitch = C2 (65.5Hz) time [s] Slow decay 1 2 3 -0.5 0.5 (b) Pitch = C6 (1048Hz) time [s] Fast decay 本研究では,音高による音色変化を関数近似で表現するモデル (F0依存多次元正規分布)とそれを用いた音源同定手法を提案
2.2 F0依存多次元正規分布 多次元正規分布を以下のように拡張 代表値関数:各特徴量の音高依存性を基本周波数の関数で近似. 音高によって変化する分布の平均を表す. F0正規化共分散行列:代表値関数からのちらばりの程度を表す. 特徴量を代表値関数で正規化してから通常の共分散算出式を適用. 代表値関数 F0正規化共分散行列 左はピアノの第4軸,右はチェロの第1軸(いずれも次元圧縮後)
2.3 F0依存多次元正規分布を用いた音源同定手法 1st step: 特徴抽出 先行研究・楽器音響学の知見に基づいて定めた 129個の特徴量を抽出 e.g. 周波数重心 パワー包絡線の近似直線の傾き 2nd step: 次元圧縮 ① 主成分分析 (累積寄与率=99%) 129次元a79次元 ② 線形判別分析 79次元a18次元 (∵19楽器対象) 3rd step: パラメータ推定 F0依存多次元正規分布の パラメータ: - 代表値関数 - F0正規化共分散行列 を18次元空間上で推定 Final step: ベイズ決定規則 次式を満たす楽器wを出力: w = argmax [log p(X|w; f) + log p(w; f)] Flute Piano Piano Flute decayed not decayed
2.4 評価実験 2.4.1 実験条件 2.4.2 実験結果 使用データベース: RWC-MDB-I-2001のサブセット (詳細は右表) 楽器数 オーケストラでよく用いられる19種類 (打楽器は含まない) 楽器個体 2~3種類/楽器 音の強さ 強・中・弱の3種類ずつ 奏法 通常の奏法のみ データ数 1楽器153~696個(総数:6,247個) 2.4.1 実験条件 使用データベース: RWC-MDB-I-2001のサブセット (詳細は右表) 10-fold cross validation 音高は既知 2.4.2 実験結果 認識率 [%] 79.73%の認識率実現 音高による音色変化を考慮しない場合に比べ4.00%認識率向上 19楽器中6楽器で, 認識率が7%以上向上 認識率が7%以上向上した楽器 Piano Trumpet Trom-bone Sop. Sax Bari. Sax Faggoto
3.未知楽器を考慮する音源同定 3.1 はじめに 未知楽器の問題とは 学習データに含まれない楽器(未知楽器)をどう扱うかという問題 未知楽器の問題が重要な理由 ① 世の中には,オーケストラ楽器から民族楽器まで 無数の楽器が存在 ② 近年のディジタルオーディオ技術の発展により, 多種多様な楽音を自由自在に作れるようになった 未知楽器の問題は,これまで扱われてこなかった 本研究の解決策=カテゴリーレベルで同定する. たとえば,バイオリンとビオラをシンセサイザー上で合成して作った音に対して,「楽器名はわからないが,弦楽器系の音」と判断
3.2 未知楽器のカテゴリー同定に適した楽器カテゴリー 未知楽器のカテゴリー同定 に適した楽器カテゴリー ∥ 楽器の音響的類似性を 反映した楽器カテゴリー 楽器の発音機構に基づく カテゴリー(右図)は, 上記の条件を満たさない. また,物理的発音機構を 持たない電子楽器音には 適用できない 楽器の音響的類似性を 反映した楽器カテゴリーを 自動作成 楽器の発音機構に基づく楽器カテゴリー 大分類 中分類 小分類 属する楽器 弦楽器 ── 打弦楽器 PF 撥弦楽器 CG, UK, AG 擦弦楽器 VN, VL, VC 管楽器 木管楽器 無簧楽器 PC, FL, RC 単簧楽器 SS, AS, TS, BS, CL 複簧楽器 OB, FG 金管楽器 TR, TB 打楽器 (省略) 具体的には, 特徴空間上で各楽器間の距離を求め,階層的クラスタリング*を行う *距離の短いペアを順に1つのクラスタにまとめ上げる処理
3.2.1 音響的類似性を反映した楽器カテゴリー作成の課題と解決策 課題1 どの特徴空間を使用するか ⇒音源同定で用いるものと同じ 特徴空間を使用 課題2 特徴空間上の各楽器間の 距離をどのように測るか ⇒各楽器多数の音響信号から 多次元正規分布をつくり, 分布間の距離をマハラノビス 汎距離で求める. クラスタリング結果 提案手法により得られた楽器カテゴリー 大分類 中分類 小分類 属する楽器 減衰系楽器 ── ウクレレ以外 PF, CG, AG ウクレレ UK 持続系楽器 弦楽器 VN, VL, VC 管楽器 サックス SS, AS, TS クラリネット CL リコーダー RC 低音系+α TR, TB, BS, FG 高音系 OB, PC, FL 3.2.2 カテゴリー作成例 使用データ:上記と同じ 特徴空間:上記と同じ 結果は,部分的に慣習的なものと異なる(右表)
学習データ:自然楽器音 (RWC-MDB-I-2001から抜粋した19楽器6,247音のうち,ランダムに半分を選択) 3.3 未知楽器のカテゴリーレベルの音源同定 3.3.1 処理の流れ 3.3.2 使用データ 学習データ:自然楽器音 (RWC-MDB-I-2001から抜粋した19楽器6,247音のうち,ランダムに半分を選択) 既知楽器の評価データ:自然楽器音 (上記の残り半分) 未知楽器の評価データ:電子楽器音 (ヤマハ製MU2000に収録されている - エレクトリックピアノ(ElecPf), - シンセストリングス(SynStr), - シンセブラス(SynBrs). ※各々2バリエーションずつ使用) 楽器名レベルで同定 1.の結果wと入力信号xとの距離D(x,w)を計算 D(x,w)がしきい値以下ならwを出力 D(x,w)がしきい値以上ならカテゴリーレベルで再同定 3.3.3 実験結果 約77%の未知楽器音を正確に同定
4.ま と め 音源同定=自動採譜・音楽アーカイブ構築において重要な課題 音源同定における問題①「音高による音色変化」 4.ま と め 音源同定=自動採譜・音楽アーカイブ構築において重要な課題 音源同定における問題①「音高による音色変化」 音高による音色変化を表現するモデル 「F0依存多次元正規分布」を提案 19楽器6,247音の楽器音データベースを用いて,79.73%の認識率を実現 (音高による音色変化を考慮しない場合に比べ4.00%向上) 音源同定における問題②「未知楽器」 学習データに含まれない楽器(未知楽器)を適切に扱うことの重要性を指摘 未知楽器をカテゴリーレベルで同定することを提案 「楽器名まではわからないけど,弦楽器系の音」という理解 自然楽器音のみの学習で,約77%の電子楽器音を正しく同定