†京都大学大学院情報学研究科知能情報学専攻

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
Building text features for object image classification
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
インターネットにおける オーケストラ演奏同期機構の 設計と実装
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
クロストーク成分の相互相関に 着目した音場再生システム
回帰分析.
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
音響的特徴に基づく 楽器の階層表現の獲得と それに基づくカテゴリーレベルの 楽器音認識の検討
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
果物識別 マハラノビス距離を求める.
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
音高による音色変化に着目した 音源同定手法
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
音色空間の音高依存性を考慮した 楽器音の音源同定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
独立成分分析 (ICA:Independent Component Analysis )
Basis vectors generation
予測に用いる数学 2004/05/07 ide.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
Data Clustering: A Review
Number of random matrices
不完全な定点観測から 真の不正ホストの分布が分かるか?
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
ブースティングとキーワードフィルタリング によるシステム要求検出
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
音色空間の音高依存性を考慮した 楽器音の音源同定
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
臨界温度比推定のために熱音響エンジンを 定常発振させる時変ゲインを用いた 定エネルギー制御系の安定性解析
Presentation transcript:

†京都大学大学院情報学研究科知能情報学専攻 未知の楽器を考慮する 楽器音の音源同定 北原 鉄朗† 後藤 真孝†† 奥乃 博† †京都大学大学院情報学研究科知能情報学専攻 ††産業技術総合研究所 9-11 Mar. 2004

研究の背景 ディジタル音楽配信が普及し ユーザ個人が所有する音楽音響信号が増大 計算機で音楽を検索する技術が不十分 ⇒ 音楽音響信号に適切なタグを付与 MPEG-7: マルチメディアコンテンツに対する タグづけの枠組みを提供 最低限の事項のみ規定 ⇒ タグの内容と自動付与法について要検討

研究の目的 音楽音響信号に対する楽器タグの付与 本発表では,そのための第1段階として, 単音を対象とした楽器音の音源同定を扱う 特にクラシック音楽では,使用楽器は楽曲を特徴 づける重要なファクターである e.g. 「ピアノソナタ」「弦楽四重奏」 ⇒「ピアノソナタの曲を検索」のようなタスクで有用 楽器名をキーとした頭出しに有用 e.g. 「フルートが弾き始めるところから聴きたい」 聴取者の好みや感性に依存しない 本発表では,そのための第1段階として, 単音を対象とした楽器音の音源同定を扱う →楽器名の同定

何が問題なのか=未知楽器= 未知楽器の問題 楽器音の種類が膨大・多様 e.g. オーケストラ向け楽器, 民族楽器 シンセサイザーで合成した音,etc. ⇒ すべての音をあらかじめ学習することは 事実上不可能 ⇒ 未学習の楽器を適切に扱える仕組みが必要 未知楽器の問題 (本研究にて初めて提起)

未知楽器の問題 人間は未知の楽器を どう理解するか 予測:「楽器名はわからない けど,弦楽器系」 ⇒一段抽象度の高いレベルで音をとらえる バイオリン ビオラ 両者をシンセで 合成した音 予測:「楽器名はわからない けど,弦楽器系」 ⇒一段抽象度の高いレベルで音をとらえる 既知楽器⇒楽器名レベルで認識 未知楽器⇒カテゴリーレベルで認識

発表の流れ 使用する音源同定手法 楽器カテゴリーの自動作成 未知楽器のカテゴリー同定実験

①使用する音源同定手法 特徴抽出(129個) 主成分分析で79次元に次元圧縮 線形判別分析で18次元にさらに次元圧縮 各楽器の分布の平均と共分散を推定 ベイズ決定規則に基づいて楽器名を同定 (事後確率が最大になる楽器名を見つける) ※事後確率=入力音が当該楽器である確率

①使用する音源同定手法 特徴抽出(129個) 例:周波数重心 ピアノ フルート

①使用する音源同定手法 特徴抽出(129個) 例:パワー包絡線の最小二乗法による近似直線の傾き ピアノ フルート time [ms]

①使用する音源同定手法 特徴抽出(129個) 主成分分析で79次元に次元圧縮 線形判別分析で18次元にさらに次元圧縮 各楽器の分布の平均と共分散を推定 ベイズ決定規則に基づいて楽器名を同定 (事後確率が最大になる楽器名を見つける) ※事後確率=入力音が当該楽器である確率

②楽器カテゴリーの自動作成 課題: 同定に適した(=音響的特徴を反映した)楽器カテゴリーをどのように得るか. 解決策: 音源同定システムの特徴空間上で 階層的クラスタリングにより,自動作成 階層的クラスタリングにおける課題: 音高などにより各楽器の特徴空間上が変化 ⇒分布に対してクラスタリング (分布を100[個/楽器]以上のデータで求める)

②楽器カテゴリーの自動作成 大分類 中分類 小分類 属する楽器 減衰系楽器 ── ウクレレ以外 PF, CG, AG ウクレレ UK 持続系楽器 弦楽器 VN, VL, VC 管楽器 サックス SS, AS, TS クラリネット CL リコーダー RC ブラス系+α TR, TB, BS, FG リード系 OB, PC, FL

③未知楽器のカテゴリー同定 (1) 楽器名レベルで同定 (2) 認識対象音から(1)の結果の学習データ(分布)までのマハラノビス距離を算出 (3) (2)がしきい値未満なら,(1)の結果を出力 しきい値以上なら,カテゴリーレベルで再同定 p(X|wflute) p(X|wpiano) このマハラノビス距離を しきい値処理

③未知楽器のカテゴリー同定 学習データ:自然楽器音 既知楽器の評価データ:自然楽器音 未知楽器の評価データ:電子楽器音 RWC-MDB-I-2001から抜粋した 19楽器6,247音からランダムに半分を選択 既知楽器の評価データ:自然楽器音 上記の残り 未知楽器の評価データ:電子楽器音 ヤマハ製MU2000に収録されている - エレクトリックピアノ(ElecPf), - シンセストリングス(SynStr), - シンセブラス(SynBrs).

実験結果 既知楽器で約20%,未知楽器で約23%の誤り率. 既知・未知判定=約85% カテゴリー同定=約92% 従来の発音機構ベースのカテゴリーでは約43% ∵従来のカテゴリーは電子楽器を考慮せず

楽器ごとの実験結果 ElecPf A: 低精度 ∵既知・未知判定の  精度が低い ⇒既知楽器に近い  未知楽器の扱い  要検討

ま と め 音源同定における新たな問題を提起 「未知楽器の問題」 (未学習の楽器をどう扱うか) ま と め 音源同定における新たな問題を提起 「未知楽器の問題」 (未学習の楽器をどう扱うか) 解決策:カテゴリーレベルで同定 ⇒「楽器名は分からないが弦楽器系」という human-likeな楽器音理解 上記のカテゴリー同定に適した 楽器カテゴリーを自動作成する手法を提案 [今後の課題] 混合音・楽曲への適用

質疑用スライド

楽器名 ピアノ,クラシックギター, ウクレレ,アコースティックギター, バイオリン,ビオラ,チェロ, トランペット,トロンボーン, ソプラノサックス,アルトサックス, テナーサックス,バリトンサックス, オーボエ,ファゴット, クラリネット,ピッコロ, フルート,リコーダ 楽器個体 3種類(TR, OBのみ2種類) 音の強さ 1楽器,強・中・弱の3種類ずつ 奏法 通常の奏法のみ データ数 1楽器153~696個(総数:6,247個)

ピアノ ピアノ(PF) ギター クラシックギター(CG) ウクレレ(UK) アコースティック ギター(AG) 弦楽器 バイオリン(VN) ビオラ(VL) チェロ(VC) 金管楽器 トランペット(TR) トロンボーン(TB) サックス ソプラノサックス(SS) アルトサックス(AS) テナーサックス(TS) バリトンサックス(BS) 複簧楽器 オーボエ(OB) ファゴット(FG) クラリネット クラリネット(CL) 無簧楽器 ピッコロ(PC) フルート(FL) リコーダー(RC)

本研究で用いた特徴量について 129個の特徴量の概要 (1) スペクトルに関する定常的特徴(40個) 周波数重心,etc (2) パワーの時間変化に関する特徴(35個) パワー包絡線の線形最小二乗法による 近似直線の傾き,etc (3) 各種変調の振幅/振動数(32個) 振幅変調,周波数変調, 周波数重心の時間変化,MFCCの時間変化 (4) 発音開始直後のピーク尖度に関する特徴(22個)

各周波数成分(11次倍音まで)を取り出し, 各ピークの尖度(とんがり度)を算出 →非調波成分の豊富さを表す 発音開始直後のピーク尖度に関する特徴 各周波数成分(11次倍音まで)を取り出し, 各ピークの尖度(とんがり度)を算出 →非調波成分の豊富さを表す

楽器の発音機構に基づく階層表現 大分類 中分類 小分類 属する楽器 弦楽器 ── 打弦楽器 PF 撥弦楽器 CG, UK, AG 擦弦楽器 VN, VL, VC 管楽器 木管楽器 無簧楽器 PC, FL, RC 単簧楽器 SS, AS, TS, BS, CL 複簧楽器 OB, FG 金管楽器 TR, TB 打楽器 (省略)

未知楽器同定に用いた電子楽器音 ヤマハ製MU2000に収録されている - エレクトリックピアノ(ElecPf), - シンセストリングス(SynStr), - シンセブラス(SynBrs). 以下の観点から選択 - さまざまな音楽で用いられている, - 自然楽器のどれかに似ているが異なる音, - 「小分類」レベルで,あいまいなく正解設定可.

未知楽器のカテゴリーレベルの認識 提案手法によって得られた楽器カテゴリーを用いることで,未知楽器を精度良く認識 楽器の発音機構に基づく分類は,(機械的発音機構の持たない) 電子楽器には有効でないことを示唆

楽器音の「既知」か「未知」かの判定 PCA (23dim) において,約85%の正解率 Threshold: PCA+LDA (18dim.) Feat. Space: PCA (23dim.) PCA (18dim.) PCA (23dim) において,約85%の正解率

楽器音の「既知」か「未知」かの判定 「既知を正しく既知」と「未知を正しく未知」はトレードオフ ⇒応用に応じた適切なしきい値設定の必要性 Threshold: PCA+LDA (18dim.) Feat. Space: PCA (23dim.) PCA (18dim.) 「既知を正しく既知」と「未知を正しく未知」はトレードオフ ⇒応用に応じた適切なしきい値設定の必要性

楽器音の「既知」か「未知」かの判定 PCA+LDAは精度低 ∵LDAは学習データの分離を良くする次元圧縮法 Threshold: PCA+LDA (18dim.) Feat. Space: PCA (23dim.) PCA (18dim.) PCA+LDAは精度低 ∵LDAは学習データの分離を良くする次元圧縮法

多様な奏法を扱う場合の課題 奏法による音響的違いを考慮したシンボル化 ⇒ 特徴ベクトルの分布を奏法別に作って 本研究のカテゴリー作成法を適用 (音響的違いの顕著な奏法は別カテゴリー) イメージ図 Piano (Normal) Violin (Pizz.) Violin (Normal) Violin (Vibrato) …

カテゴリー同定の利用法 ピアノ曲の検索では… 再現率重視なら「ピアノに似た楽器」を含める 適合率重視なら「ピアノに似た楽器」を含めない 「ピアノ」と「ピアノに似た楽器」をともに含む曲で両者を区別しながら採譜できる 音楽演奏の映像に対するタグ付けでは… 音から「楽器名はわからないが弦楽器」 映像から「楽器名○○」 ⇒弦楽器に属する新たな楽器として再学習