音響的特徴に基づく 楽器の階層表現の獲得と それに基づくカテゴリーレベルの 楽器音認識の検討

Slides:



Advertisements
Similar presentations
地図の重ね合わせに伴う 位相関係の矛盾訂正手法 萬上 裕 † 阿部光敏* 高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部 * 京都大学情報学研究科 ‡
Advertisements

嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
Building text features for object image classification
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
「わかりやすいパターン認識」 第1章:パターン認識とは
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
マイクロシミュレーションにおける 可変属性セル問題と解法
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
†京都大学大学院情報学研究科知能情報学専攻
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
プログラム実行履歴を用いたトランザクションファンクション抽出手法
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
音高による音色変化に着目した 音源同定手法
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
音素部分空間の統合による音声特徴量抽出の検討
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
音色空間の音高依存性を考慮した 楽器音の音源同定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
Basis vectors generation
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
Data Clustering: A Review
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
線形判別分析 Linear Discriminant Analysis LDA
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
自己組織化マップ Self-Organizing Map SOM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
ブースティングとキーワードフィルタリング によるシステム要求検出
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
音色空間の音高依存性を考慮した 楽器音の音源同定
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
エアリード楽器および音響機器における大規模音響流体解析
「図書系職員のための アプリケーション開発講習会」
Presentation transcript:

音響的特徴に基づく 楽器の階層表現の獲得と それに基づくカテゴリーレベルの 楽器音認識の検討 北原 鉄朗† 後藤 真孝†† 奥乃 博† †京都大学大学院情報学研究科知能情報学専攻 ††科技団さきがけ21/産業技術総合研究所 4-5 Aug. 2003

1.研究の背景 音楽情報検索の重要性 ⇒ディジタル音楽配信の普及などにより, 個人が入手できる音楽音響信号が急増

1.研究の背景 音楽情報検索の重要性 ⇒ディジタル音楽配信の普及などにより, 個人が入手できる音楽音響信号が急増 音楽音響信号に対するタグ付けの重要性 ⇒検索の時間短縮 自動・半自動・手動で付与したタグを 組み合わせることで,より複雑な検索 タグとは... 音楽などのマルチメディアデータに対して,その内容を記述したデータ.音楽の場合,使用楽器,ジャンル,サビの出現箇所(時刻)など.

2.研究の目的 音楽音響信号に対する楽器タグの付与 <inst begin=00:00:00 end=02:10:00>piano</inst> <inst begin=00:03:50 end=02:10:00>violin</inst> <inst begin=01:40:00 end=01:56:00>flute</inst> …… 特にクラシック音楽では,使用楽器は楽曲を特徴 づける重要なファクターである e.g. 「ピアノソナタ」「弦楽四重奏」 ⇒「ピアノソナタの曲を検索」のようなタスクで有用 楽器名をキーとした頭出しに有用 e.g. 「フルートが弾き始めるところから聴きたい」 聴取者の好みや感性に依存しない

2.研究の目的 楽器タグの付与を自動化したい ⇒音からの楽器名の同定(音源同定)が必要

2.研究の目的 楽器タグの付与を自動化したい ⇒音からの楽器名の同定(音源同定)が必要 音源同定の典型的なアプローチ =あらかじめ用意された各楽器の音響信号と比較して,特徴空間上で最も近い楽器を選ぶ 学習データ Feature Extraction (e.g. Decay speed, Spectral centroid) p(X|wflute) p(X|wpiano) w = argmax p(w|X) = argmax p(X|w) p(w) <inst>piano</inst>

学習データにない楽器が出てきたら どうするの? 2.研究の目的 楽器タグの付与を自動化したい ⇒音からの楽器名の同定(音源同定)が必要 音源同定の典型的なアプローチ =あらかじめ用意された各楽器の音響信号と比較して,特徴空間上で最も近い楽器を選ぶ 学習データ 学習データにない楽器が出てきたら どうするの? Feature Extraction (e.g. Decay speed, Spectral centroid) p(X|wflute) p(X|wpiano) w = argmax p(w|X) = argmax p(X|w) p(w) <inst>piano</inst>

3.未知楽器の問題 学習データにない楽器(未知楽器)が入力されたときに,それをどう扱うかという問題 実際のタグ付けでは不可避な問題 先行研究では指摘されてこなかった 実際の音楽では,オーケストラ用楽器,民族楽器,シンセサイザーによる合成音など多種多様な楽音が使用され,これらの学習データを網羅的に収集するのは困難

3.未知楽器の問題 人間ならどうするか (奥義!内観の術!) たとえば,バイオリンとビオラの音をシンセサイザー上で合成して作った音を初めて聴いたとき,人はその音をどう理解するか

3.未知楽器の問題 人間ならどうするか 我々の予測: 「楽器名はわからないけど,弦楽器系」 ⇒一段抽象度の高いレベルで音をとらえる (奥義!内観の術!) たとえば,バイオリンとビオラの音をシンセサイザー上で合成して作った音を初めて聴いたとき,人はその音をどう理解するか 今回の目的=これを計算機上で実現する

3.未知楽器の問題 本研究における解決策: 既知楽器⇒楽器名レベルで認識 未知楽器⇒カテゴリーレベルで認識 具体的には・・・ (1) 楽器名レベルで認識 (2) (1)の結果が本当に正しいかどうか判定 (「既知」か「未知」かの判定に相当) (3) (2)でFalse(=未知)と判定されたら, カテゴリーレベルで再認識

4.楽器カテゴリーの設計 音源同定に適した楽器カテゴリーとは? ⇒楽器の音響的類似性を総合的にとらえた 楽器カテゴリー 従来からある楽器の発音機構に基づく階層表現が 使えるのでは?

4.楽器カテゴリーの設計 楽器の発音機構に基づく階層表現 大分類 中分類 小分類 属する楽器 弦楽器 ── 打弦楽器 PF 撥弦楽器 CG, UK, AG 擦弦楽器 VN, VL, VC 管楽器 木管楽器 無簧楽器 PC, FL, RC 単簧楽器 SS, AS, TS, BS, CL 複簧楽器 OB, FG 金管楽器 TR, TB 打楽器 (省略)

4.楽器カテゴリーの設計 音源同定に適した楽器カテゴリーとは? ⇒楽器の音響的類似性を総合的にとらえた 楽器カテゴリー 従来からある楽器の発音機構に基づく階層表現が 使えるのでは?

No! 4.楽器カテゴリーの設計 音源同定に適した楽器カテゴリーとは? ⇒楽器の音響的類似性を総合的にとらえた 楽器カテゴリー 従来からある楽器の発音機構に基づく階層表現が 使えるのでは? 楽器の発音機構に基づく階層表現は, 必ずしも音響的類似性をとらえていない. e.g. バイオリンとギターはともに弦楽器だが 音響的には大きく異なる No!

4.楽器カテゴリーの設計 音源同定に適した楽器カテゴリーとは? ⇒楽器の音響的類似性を総合的にとらえた 楽器カテゴリー ⇒楽器の音響的類似性に基づく階層表現を自動獲得し,そこから楽器カテゴリーを作成 従来からある楽器の発音機構に基づく階層表現が 使えるのでは? 楽器の発音機構に基づく階層表現は, 必ずしも音響的類似性をとらえていない. e.g. バイオリンとギターはともに弦楽器だが 音響的には大きく異なる No!

4.楽器カテゴリーの設計 楽器階層の獲得における課題と解決策 課題1 使用する特徴空間によって結果が変化 課題2 音高などにより特徴空間上の位置が変化

4.楽器カテゴリーの設計 楽器階層の獲得における課題と解決策 課題1 使用する特徴空間によって結果が変化 音源同定で用いるものと同じ特徴空間を使用 ⇒任意の音源同定システムに対して, 適切な階層表現を自動的に獲得 課題2 音高などにより特徴空間上の位置が変化 各楽器多数の音響信号を用意し,各楽器の 分布に対して階層的クラスタリング ⇒各楽器1音のみに比べ,各楽器の 特徴空間上の位置関係を適切に把握可能

音源同定に用いるものと同じ特徴空間を使用 ⇒[北原,音情研2002]で用いたものを使用 4.楽器カテゴリーの設計 使用する特徴空間 音源同定に用いるものと同じ特徴空間を使用 ⇒[北原,音情研2002]で用いたものを使用 「周波数重心」,「パワー包絡線の近似直線の傾き」など,129個の特徴量を抽出 主成分分析で79次元(累積寄与率:99%)に圧縮し, さらに線形判別分析で18次元に圧縮 Piano 周波数重心 周波数重心 Flute

音源同定に用いるものと同じ特徴空間を使用 ⇒[北原,音情研2002]で用いたものを使用 4.楽器カテゴリーの設計 使用する特徴空間 音源同定に用いるものと同じ特徴空間を使用 ⇒[北原,音情研2002]で用いたものを使用 「周波数重心」,「パワー包絡線の近似直線の傾き」など,129個の特徴量を抽出 主成分分析で79次元(累積寄与率:99%)に圧縮し, さらに線形判別分析で18次元に圧縮 Flute Piano 非減衰 減衰 近似直線 パワー包絡線 パワー包絡線 近似直線

4.楽器カテゴリーの設計 使用する楽器音の音響信号 1楽器あたり130~700個,計6,247個を使用 19種類のオーケストラ楽器の実楽器音データを 「RWC-MDB-I-2001」から抜粋 半音ごとに全音域収録 各楽器,3楽器個体,3種類の音の強さ 通常の奏法のみ使用 以上のデータから得られる各楽器の特徴空間上の分布を多次元正規分布で近似し,各楽器間の マハラノビス汎距離を使って階層的クラスタリング

4.楽器カテゴリーの設計 楽器カテゴリー設計結果 大分類 中分類 小分類 属する楽器 減衰系楽器 ── ウクレレ以外 PF, CG, AG ウクレレ UK 持続系楽器 弦楽器 VN, VL, VC 管楽器 サックス SS, AS, TS クラリネット CL リコーダー RC 低音系+α TR, TB, BS, FG 高音系 OB, PC, FL

5.処理の流れ (1) 楽器名レベルで認識 (2) (1)の結果が本当に正しいか判定 (Falseなら「未知楽器である」とみなす) 認識対象音から学習データ(分布)までのマハラノビス距離がしきい値以内ならTrue (3) (2)の結果がFalseならカテゴリーレベルで再認識 p(X|wflute) p(X|wpiano) このマハラノビス距離を しきい値処理

6.評価実験 既知楽器なら楽器名レベルで, 未知楽器ならカテゴリーレベルで認識 学習データ,評価用データともに 単音を1つ1つ個別に収録したものを使用 認識(楽器名・カテゴリーともに)では, 129次元の特徴空間をPCAで79次元に, LDAでさらに18次元に圧縮したものを使用 既知/未知の判定では,129次元の特徴空間をPCAで23次元に圧縮したものを使用 既知/未知の判定で用いるしきい値は40

学習データ:自然楽器音 (RWC-MDB-I-2001から抜粋した 19楽器6,247音のうち,ランダムに半分を選択) 6.評価実験 使用データベースの詳細 学習データ:自然楽器音 (RWC-MDB-I-2001から抜粋した 19楽器6,247音のうち,ランダムに半分を選択) 既知楽器の評価データ:自然楽器音 (上記の残り半分) 未知楽器の評価データ:電子楽器音 (ヤマハ製MU2000に収録されている - エレクトリックピアノ(ElecPf), - シンセストリングス(SynStr), - シンセブラス(SynBrs). ※各々2バリエーションずつ使用)

誤り率は,既知楽器で約20%,未知楽器で約23%. 6.評価実験 実験結果 誤り率は,既知楽器で約20%,未知楽器で約23%. このような楽器音理解は,情報統合においても有用 e.g. 音から「楽器名はわからないが弦楽器」と同定 画像から「ある民族楽器」 ⇒弦楽器に属する新たな楽器として再学習

6.評価実験 未知楽器のカテゴリーレベルの認識 提案手法によって得られた楽器カテゴリーを用いることで,未知楽器を精度良く認識 楽器の発音機構に基づく分類は,(機械的発音機構の持たない) 電子楽器には有効でないことを示唆

6.評価実験 楽器音の「既知」か「未知」かの判定 Threshold: PCA+LDA (18dim.) Feat. Space: PCA (23dim.) PCA (18dim.) PCA (23dim) において,約85%の正解率

6.評価実験 楽器音の「既知」か「未知」かの判定 Threshold: PCA+LDA (18dim.) Feat. Space: PCA (23dim.) PCA (18dim.) 「既知を正しく既知」と「未知を正しく未知」はトレードオフ ⇒応用に応じた適切なしきい値設定の必要性

6.評価実験 楽器音の「既知」か「未知」かの判定 Threshold: PCA+LDA (18dim.) Feat. Space: PCA (23dim.) PCA (18dim.) PCA+LDAは精度低 ∵LDAは学習データの分離を良くする次元圧縮法

7.ま と め 音源同定における新たな問題を提起 「未知楽器の問題」 (学習データにない楽器をどう扱うか) 7.ま と め 音源同定における新たな問題を提起 「未知楽器の問題」 (学習データにない楽器をどう扱うか) 解決策:未知楽器をカテゴリーレベルで認識 ⇒人間が初めて聴いた音に感じるような「楽器名は分からないが弦楽器系」という認識を実現 このような認識で用いるカテゴリー設計のため, 音響的類似性に基づく楽器の階層表現を 自動獲得する手法を提案