音色空間の音高依存性を考慮した 楽器音の音源同定

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
「わかりやすいパターン認識」 第1章:パターン認識とは
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
回帰分析.
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第12章 連続潜在変数 修士 1年 村下 昇平.
音響的特徴に基づく 楽器の階層表現の獲得と それに基づくカテゴリーレベルの 楽器音認識の検討
†京都大学大学院情報学研究科知能情報学専攻
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
ー 第3日目 ー ねじれ型振動子のブラウン運動の測定
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
音高による音色変化に着目した 音源同定手法
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
独立成分分析 (ICA:Independent Component Analysis )
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
ー 第3日目 ー ねじれ型振動子のブラウン運動の測定
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
第3章 線形回帰モデル 修士1年 山田 孝太郎.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
音色空間の音高依存性を考慮した 楽器音の音源同定
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
ソースフィルタモデル.
CSP係数の識別に基づく話者の 頭部方向の推定
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音色空間の音高依存性を考慮した 楽器音の音源同定 北原 鉄朗 京都大学大学院情報学研究科知能情報学専攻 27 July 2002

1.音源同定とは 楽器音の同定(入力された音は,piano? flute? …) パターン認識の一分野 自動採譜・メディア検索などで有用 研究対象として,広く扱われるようになったのは最近(1990年代に入ってから) x1:パワー包絡線の傾きの中央値 x2:周波数重心        など 特徴抽出 piano flute piano flute 特徴変動 実際には

楽器音における特徴変動の要因: 音高・音の強さ・楽器の個体差・奏法など これらの特徴変動をどのように扱うかは, あまり議論されていない  たとえば,楽器の個体差に着目した  「適応型混合テンプレート法」(柏野他,信学論,’98) 上記の特徴変動の要因のうち, 音高は物理量(基本周波数)として抽出可能 特徴の音高依存性を基本周波数の関数として表現

2.音色空間の音高依存性を考慮する 音源同定手法 音色空間の音高依存性をどう扱うか. 「音高ごとに学習すればよいのでは?」  たとえば,入力信号の音高がC4なら  C4のデータだけを用いて学習する この方法では,より多くの学習データが必要  88鍵のピアノであれば,  学習データが1/88に減ったのと同じ すべてのデータで学習するため,以下を仮定 平 均:音高によって連続的に変化 共分散:音高に非依存

・代表値関数(音高によって変化する分布の平均) ⇒ 3次関数で近似

・ベイズ決定規則により識別 (事後確率が最大になる楽器名をみつける) ・F0正規化共分散行列  代表値関数からのちらばりの程度を表す ⇒音高以外の要因による音色変化を表す 音色空間を代表値関数で正規化してから, 共分散行列を求める ・ベイズ決定規則により識別 (事後確率が最大になる楽器名をみつける) 音高による音色変化を除去

3.処理の流れ 特徴抽出(129個) 主成分分析で次元圧縮 (累積寄与率99%で79次元に圧縮) 線形判別分析でさらに次元圧縮 (19楽器なので18次元に圧縮) F0依存多次元正規分布のパラメータ推定 ベイズ決定規則に基づいて楽器名を同定

特徴抽出: (1) スペクトルに関する定常的特徴(40個). 周波数重心,etc (2) パワーの時間変化に関する特徴(35個) 特徴抽出: (1) スペクトルに関する定常的特徴(40個) 周波数重心,etc (2) パワーの時間変化に関する特徴(35個) パワー包絡線の線形最小二乗法による 近似直線の傾き,etc (3) 各種変調の振幅/振動数(32個) 振幅変調,周波数変調, 周波数重心の時間変化,MFCCの時間変化 (4) 発音開始直後のピーク尖度に関する特徴(22個)

パワー包絡線の線形最小二乗法による近似直線 ピアノ フルート 発音開始直後のピーク尖度に関する特徴 各周波数成分のピークの 尖度(とんがり度)を 4次モーメントから算出 ⇒非調波成分が多いと   ピーク尖度低

4.実 験 方 法 使用データベース:RWC-MDB-I-2001 上記のデータを無作為に10等分し, クロスバリデーション. 4.実 験 方 法 使用データベース:RWC-MDB-I-2001 実楽器の単独発音を半音ごとに収録 今回は19種類の楽器を使用 各楽器に,3楽器個体,3種類の音の強さ 今回は,通常の奏法のみ使用 使用したデータ総数: 6247個 上記のデータを無作為に10等分し, クロスバリデーション. カテゴリーレベルの認識率も算出

楽器名 ピアノ(PF),クラシックギター(CG), ウクレレ(UK),アコースティックギター(AG),バイオリン(VN),ビオラ(VL),チェロ(VC),トランペット(TR),トロンボーン(TB), ソプラノサックス(SS),アルトサックス(AS),テナーサックス(TS),バリトンサックス(BS),オーボエ(OB),ファゴット(FG), クラリネット(CL),ピッコロ(PC), フルート(FL),リコーダ(RC) 楽器個体 3種類(TR, OBのみ2種類) 音の強さ 1楽器,強・中・弱の3種類ずつ 奏法 通常の奏法のみ データ数 1楽器153~696個(総数:6,247個)

ピアノ ピアノ(PF) ギター クラシックギター(CG) ウクレレ(UK) アコースティック ギター(AG) 弦楽器 バイオリン(VN) ビオラ(VL) チェロ(VC) 金管楽器 トランペット(TR) トロンボーン(TB) サックス ソプラノサックス(SS) アルトサックス(AS) テナーサックス(TS) バリトンサックス(BS) 複簧楽器 オーボエ(OB) ファゴット(FG) クラリネット クラリネット(CL) 無簧楽器 ピッコロ(PC) フルート(FL) リコーダー(RC)

5.実 験 結 果 個々の楽器レベルで約80%, カテゴリーレベルで約90%の 認識率を実現 5.実 験 結 果 個々の楽器レベルで約80%, カテゴリーレベルで約90%の 認識率を実現 音高非依存に比べて, 個々の楽器レベルで4.00%, カテゴリーレベルで2.45%, 認識率向上 誤り削減率は, 個々の楽器レベルで16.48%, カテゴリーレベルで20.67% 個々の楽器レベル (19クラス) カテゴリーレベル (8クラス)

(個々の楽器レベル) 認識率 7%以上向上 ピアノ(PF) トランペット(TR) トロンボーン(TB) ファゴット(FG) ソプラノサックス(SS) バリトンサックス(BS) ファゴット(FG) 認識率 3%以上向上 バイオリン(VN) チェロ(VC) アルトサックス(AS) ピッコロ(PC) フルート(FL) 認識率向上 アコースティックギター(AG)ビオラ(VL) テナーサックス(TS) オーボエ(OB) クラリネット(CL) 変化なし クラシックギター(CG) ウクレレ(UK) 認識率低下 リコーダー(RC)

・ピアノ:最も性能改善 認識率が7%以上改善された楽器(個々の楽器レベル) (認識率9.06%改善,誤り削減35.13%) ∵ 音域が広く,音高による音色変化が顕著 ・PF, TR, TBで約33~35%の認識誤りを削減 ・SS, BS, FGでも20%以上の認識誤りを削減

カテゴリーレベルの認識率 ・すべてのカテゴリーで認識率改善 ・ギター,弦楽器の認識率(提案手法):96.7% 誤り削減 35% 8% 23% 33% 20% 13% 15% 8% ・すべてのカテゴリーで認識率改善 ・ギター,弦楽器の認識率(提案手法):96.7% ・最も低いカテゴリーでも72%の認識率(提案手法)

k-NN法との比較 ・提案手法が最も認識率が高い ・79次元のベイズ決定規則が最も認識率が低い ∵ データ数に対して次元が高すぎる ベイズ(LDA併用) ベイズ(PCAで18次元) ベイズ(PCAで79次元) k-NN(LDA併用) k-NN(PCAで18次元) k-NN(PCAで79次元) ・提案手法が最も認識率が高い ・79次元のベイズ決定規則が最も認識率が低い ∵ データ数に対して次元が高すぎる ・LDA(線形判別分析)併用により認識率向上 ∵ LDAはクラス間分離を考慮した次元圧縮法

6.ま と め 音高による音色変化を考慮するため, F0に依存する多次元正規分布を提案 6.ま と め 音高による音色変化を考慮するため, F0に依存する多次元正規分布を提案 F0に依存する多次元正規分布のための 識別関数をベイズ決定規則から定式化 ⇒音源同定の性能向上に貢献 (個々の楽器で16.48%,  カテゴリーレベルで20.67%認識誤りを削減) 今後の課題 ベイズ決定規則以外への応用 より大規模な実験,混合音への適用など 参考文献 北原 他:“楽器音を対象とした音源同定:音高による音色変化を 考慮する識別関数の検討”,情処研報,2002-MUS-46, pp.1-8, 2002.