音高による音色変化に着目した 音源同定手法

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
Building text features for object image classification
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
「わかりやすいパターン認識」 第1章:パターン認識とは
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
クロストーク成分の相互相関に 着目した音場再生システム
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
マイクロシミュレーションにおける 可変属性セル問題と解法
音響的特徴に基づく 楽器の階層表現の獲得と それに基づくカテゴリーレベルの 楽器音認識の検討
†京都大学大学院情報学研究科知能情報学専攻
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
プログラム実行履歴を用いたトランザクションファンクション抽出手法
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
音色空間の音高依存性を考慮した 楽器音の音源同定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
主成分分析 Principal Component Analysis PCA
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
ブースティングとキーワードフィルタリング によるシステム要求検出
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
音色空間の音高依存性を考慮した 楽器音の音源同定
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
ソースフィルタモデル.
CSP係数の識別に基づく話者の 頭部方向の推定
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
転移学習 Transfer learning
Presentation transcript:

音高による音色変化に着目した 音源同定手法 北原 鉄朗† 後藤 真孝†† 奥乃 博††† †東京理科大学理工学部情報科学科 ††科技団さきがけ21/産業技術総合研究所 †††京都大学大学院情報学研究科知能情報学専攻 23 May 2001

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

音源同定は,人間にとって 基本的な聴覚的情景分析の能力である. 自動採譜などにおいて,有用である. 1.導 入 音源同定の重要性 音源同定は,人間にとって 基本的な聴覚的情景分析の能力である. 自動採譜などにおいて,有用である. 従来の研究事例は多くない. 本研究では,音源同定を扱う. 将来は,音全般に対象を拡張.

1.導 入 楽器音オントロジー構築にむけた アプローチ 1.導 入 楽器音オントロジー構築にむけた アプローチ 楽器音オントロジー ・・・ 楽器音を一般的に表す枠組み 楽器音の理解は階層的なものである. 音源同定で扱う特徴量は, 特徴量によってさまざまな傾向を示す. (音高との相関性など)

1.導 入 楽器音オントロジー構築にむけた アプローチ 1.導 入 楽器音オントロジー構築にむけた アプローチ 楽器音オントロジー ・・・ 楽器音を一般的に表す枠組み 楽器音の理解は階層的なものである. → 階層的な知識表現 音源同定で扱う特徴量は, 特徴量によってさまざまな傾向を示す. (音高との相関性など) → 明示的に記述し,それに応じた処理.

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ 音色変化の問題 未知楽器の問題

同一楽器であっても,音高・音の強さ・ 楽器の個体差・演奏方法によって音色が変化することをどう扱うか. 2.音源同定における問題点 音色変化の問題 同一楽器であっても,音高・音の強さ・ 楽器の個体差・演奏方法によって音色が変化することをどう扱うか. この問題を扱った従来研究は少ない. たとえば, 楽器の個体差に着目 →「適応型混合テンプレート法」(柏野ら, ’98)など. 音高による音色変化を扱ったものはない.

同一楽器であっても,音高・音の強さ・ 楽器の個体差・演奏方法によって音色が変化することをどう扱うか. 2.音源同定における問題点 音色変化の問題 同一楽器であっても,音高・音の強さ・ 楽器の個体差・演奏方法によって音色が変化することをどう扱うか. 音高による音色変化に着目 音色が音高によってどう変化するかを調べ, 変化の様子を基本周波数の関数として表現.

未知の楽器(学習データに含まれていない楽器)をどう扱うか. 2.音源同定における問題点 未知楽器の問題 未知の楽器(学習データに含まれていない楽器)をどう扱うか. 従来の一般的な音源同定システムは, 既知の楽器(学習データに含まれる楽器)のどれかにむりやり同定. 本音源同定システムでは, 楽器の階層的な分類に基づいて 一定の階層まで同定. 例 classical guitar → 「減衰系楽器」

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

3.本音源同定システムの概要 減衰系楽器の 学習データ 持続系楽器の 学習データ 特徴空間

3.本音源同定システムの概要 減衰系楽器の 学習データ 持続系楽器の 学習データ 入力データ 特徴空間

3.本音源同定システムの概要 こちらの方が近い (類似度が高い) 入力データは 減衰系楽器 減衰系楽器の 学習データ 持続系楽器の 学習データ こちらの方が近い (類似度が高い) 入力データ 特徴空間 入力データは 減衰系楽器

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

4.階層的な音源同定 楽器の階層的分類 今回は,音の長さが長いもののみを扱う.

4.階層的な音源同定 楽器の階層的分類 階層ごとに 特徴空間を作成 今回は,音の長さが長いもののみを扱う.

4.階層的な音源同定 減衰系楽器---持続系楽器 定常状態 減衰 パワー包絡線 減衰系楽器は,立ち上がり後すぐに減衰.

4.階層的な音源同定 減衰系楽器---持続系楽器 パワー包絡線 パワー包絡線の近似直線の傾き. 最初から800msまでのパワー包絡線の 微分係数の中央値. 最大パワー値と800msのときのパワー値との差.

4.階層的な音源同定 減衰系楽器---持続系楽器 パワー包絡線 パワー包絡線の近似直線の傾き. 最初から800msまでのパワー包絡線の 微分係数の中央値. 最大パワー値と800msのときのパワー値との差.

4.階層的な音源同定 減衰系楽器---持続系楽器 ← 800ms ← 800ms パワー包絡線 パワー包絡線の近似直線の傾き. 最初から800msまでのパワー包絡線の 微分係数の中央値. 最大パワー値と800msのときのパワー値との差.

4.階層的な音源同定 減衰系楽器---持続系楽器 ← 800ms ← 800ms パワー包絡線 パワー包絡線の近似直線の傾き. 最初から800msまでのパワー包絡線の 微分係数の中央値. 最大パワー値と800msのときのパワー値との差.

(2) 各高調波成分のパワーの変動が激しい. 4.階層的な音源同定 弦楽器---管楽器 弦楽器 管楽器 各高調波成分のパワー包絡線 弦楽器は, (1) 高調波成分が豊富. (2) 各高調波成分のパワーの変動が激しい.

全持続時間の70%以上鳴り続けている 高調波成分の個数. 周波数重心. 4.階層的な音源同定 弦楽器---管楽器 弦楽器 管楽器 各高調波成分のパワー包絡線 全持続時間の70%以上鳴り続けている 高調波成分の個数. 周波数重心. 各高調波成分のパワー値の時間変化の標準偏差を 全高調波成分にわたって平均した値.

全持続時間の70%以上鳴り続けている 高調波成分の個数. 周波数重心. 4.階層的な音源同定 弦楽器---管楽器 弦楽器 管楽器 各高調波成分のパワー包絡線 全持続時間の70%以上鳴り続けている 高調波成分の個数. 周波数重心. 各高調波成分のパワー値の時間変化の標準偏差を 全高調波成分にわたって平均した値. 弦楽器のほうが多い.

全持続時間の70%以上鳴り続けている 高調波成分の個数. 周波数重心. 4.階層的な音源同定 弦楽器---管楽器 弦楽器 管楽器 各高調波成分のパワー包絡線 全持続時間の70%以上鳴り続けている 高調波成分の個数. 周波数重心. 各高調波成分のパワー値の時間変化の標準偏差を 全高調波成分にわたって平均した値. 弦楽器のほうが高い.

パワー変動の程度を表す. 弦楽器の方が大きい. 4.階層的な音源同定 弦楽器---管楽器 弦楽器 管楽器 各高調波成分のパワー包絡線 全持続時間の70%以上鳴り続けている 高調波成分の個数. 周波数重心. 各高調波成分のパワー値の時間変化の標準偏差を 全高調波成分にわたって平均した値. パワー変動の程度を表す. 弦楽器の方が大きい.

2つのカテゴリー間の音色が似ているため, 効果的な特徴量を直接抽出するのは難しい. 4.階層的な音源同定 弦楽器---管楽器 2つのカテゴリー間の音色が似ているため, 効果的な特徴量を直接抽出するのは難しい. → 17個の特徴量を抽出し,PCAで次元を圧縮. 寄与率80% → 6次元. 各主成分は, 「高調波成分の豊富さ」「周波数の変動の幅」 「ビブラート・トレモロ」などを総合的に表す.

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

5.音高による音色変化に 着目した音源同定 本手法では,特徴量テンプレート中の 学習データとの類似度に基づいて同定する. 学習データは音高に依存 特徴量テンプレート 多量の音響信号から抽出された 特徴量からなるデータベース 学習データ 特徴量テンプレート中の個々のデータ

5.音高による音色変化に 着目した音源同定 本手法では,特徴量テンプレート中の 学習データとの類似度に基づいて同定する. 学習データは音高に依存 あらゆる音高に対して学習データを 用意するのは困難. 有限の学習データから様々な音高に 対応できる手法が必要.

5.音高による音色変化に着目した音源同定 課 題 5.音高による音色変化に着目した音源同定 課 題 課題1 特徴量によって音高による変化の仕方が異なることをどのように考慮するか. 課題2 有限の学習データから,さまざまな 音高の特徴量をどのように推定するか.

5.音高による音色変化に着目した音源同定 課 題 5.音高による音色変化に着目した音源同定 課 題 課題1 特徴量によって音高による変化の仕方が 異なることをどのように考慮するか. 音高による変化の仕方で特徴量を3つに分類. 課題2 有限の学習データから,さまざまな 音高の特徴量をどのように推定するか.

5.音高による音色変化に着目した音源同定 特徴量の3つの分類 無相関型特徴量 連続変化型特徴量 離散変化型特徴量

5.音高による音色変化に着目した音源同定 課 題 5.音高による音色変化に着目した音源同定 課 題 課題1 特徴量によって音高による変化の仕方が 異なることをどのように考慮するか. 音高による変化の仕方で特徴量を3つに分類. 課題2 有限の学習データから,さまざまな 音高の特徴量をどのように推定するか. 代表値関数と変動値関数を導入. (特徴量の分布を表現する基本周波数の関数)

5.音高による音色変化に着目した音源同定 代表値関数 各基本周波数で特徴量を代表する関数. (従来の平均値に相当) (i) 無相関型特徴量の場合 各学習データの特徴量の中央値. (ii) 連続変化型特徴量の場合 各学習データの特徴量の近似直線. (iii) 離散変化型特徴量の場合 境界周波数で区切られた区間ごとの 各学習データの中央値.

5.音高による音色変化に着目した音源同定 特徴量の3つの分類 無相関型特徴量 連続変化型特徴量 離散変化型特徴量

5.音高による音色変化に着目した音源同定 変動値関数 各基本周波数での 代表値関数からの散らばりの様子を表す関数. (従来の標準偏差に相当) 各学習データの特徴量と代表値関数との 差の重み付き二乗平均の平方根.

5.音高による音色変化に着目した音源同定 変動値関数 各基本周波数での 代表値関数からの散らばりの様子を表す関数. (従来の標準偏差に相当) 変動値関数: 重み: xik : 特徴量 Fk : 学習データの基本周波数 i : 特徴量番号 μis(f) : 代表値関数 f : 入力データの基本周波数 s : カテゴリー k : 学習データ番号

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

入力は単音の音響信号 入力信号に対応する楽器名を出力. 6.処理の流れ 概 要 入力は単音の音響信号 入力信号に対応する楽器名を出力. 最も抽象度の高い階層からより低い階層へ反復的に処理. 1回の反復処理で 同一レベルのカテゴリーを同定.

6.処理の流れ STFTを用いて 周波数・パワーの 時間変化を推定 調波構造を推定する

特徴量を抽出・分類し, 代表値関数・変動値関数を算出する 6.処理の流れ 特徴量を抽出・分類し, 代表値関数・変動値関数を算出する

6.処理の流れ 重み値・類似度を代表値関数・ 変動値関数から算出 重み値を計算する 類似度を計算する

6.処理の流れ 重み値・類似度も 基本周波数に関する関数 重み値を計算する 類似度を計算する

6.処理の流れ 類似度の高いカテゴリーに進む

6.処理の流れ カテゴリー を出力 最下層か? 楽器名を出力

発表の流れ 評価実験1 (提案手法の有効性の検証) 1) 実楽器データ 2) MIDI音源 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

7.評価実験1-1 実楽器の単音データベース NTTMSA-P1 実楽器の単独発音を半音ごとに収録 各楽器に対して2種類の楽器個体 3種類の音の強さ 通常の奏法の他にビブラート奏法 (piano, trumpetを除く) データ総数: 967個

Piano, violin, flute, trumpet のデータを使用. 7.評価実験1-1 実 験 方 法 Piano, violin, flute, trumpet のデータを使用. ランダムに2割のデータを学習データに 残りを入力データに割り当てる. 実験は比較実験とする. ・ 音高による変化を考慮しない場合(音高非依存) ・ 提案手法 実験を20回繰り返す. ・ 学習データにどれを割り当てるかが毎回変化.

7.評価実験1-1 実 験 結 果

7.評価実験1-1 実 験 結 果 すべての楽器で 提案手法によって 認識率が改善. 音高による変化の 分類と関数表現が 有効.

7.評価実験1-1 実 験 結 果 Flute, trumpet では,60%程度.

7.評価実験1-1 実 験 結 果 第2階層までは, 80%程度. flute trumpet

7.評価実験1-2 MIDI音源から作成した 単音データベース ヤマハ「MU2000」の単独発音を 半音ごとに収録 各楽器に対して2種類の楽器個体 3種類の音の強さ 通常の奏法のみ データ総数: 637個

Piano, violin, flute, trumpet のデータを使用. 7.評価実験1-2 実 験 方 法 Piano, violin, flute, trumpet のデータを使用. ランダムに2割のデータを学習データに 残りを入力データに割り当てる. 実験は比較実験とする. ・ 音高による変化を考慮しない場合(音高非依存) ・ 提案手法 実験を20回繰り返す. ・ 学習データにどれを割り当てるかが毎回変化.

7.評価実験1-2 実 験 結 果

7.評価実験1-2 実 験 結 果 Piano以外の すべての楽器で 提案手法によって 認識率が改善. 音高による変化の 分類と関数表現が 有効.

7.評価実験2---未知楽器の問題に対する実験--- 実 験 方 法 7.評価実験2---未知楽器の問題に対する実験--- 実 験 方 法 学習データには,MIDI音源から作成した 単音データベースを使用. 同音源中の classical guitar(減衰系), viola (持続系|弦楽器), piccolo (持続系|管楽器|木管楽器), clarinet(持続系|管楽器|木管楽器) の音を入力. 比較実験を行う. ・ 音高による変化を考慮しない場合(音高非依存) ・ 提案手法

7.評価実験2---未知楽器の問題に対する実験--- 実 験 結 果 7.評価実験2---未知楽器の問題に対する実験--- 実 験 結 果 classical guitar viola

7.評価実験2---未知楽器の問題に対する実験--- 実 験 結 果 7.評価実験2---未知楽器の問題に対する実験--- 実 験 結 果 piccolo clarinet

発表の流れ 導入 音源同定における問題点 本音源同定システムの概要 階層的な音源同定 音高による音色変化に着目した音源同定 処理の流れ 評価実験 まとめ

8.ま と め 各特徴量を音高による変化の仕方で 3つに分類. 各特徴量の分布を表現する 基本周波数に関する関数を導入. 8.ま と め 各特徴量を音高による変化の仕方で 3つに分類. 各特徴量の分布を表現する 基本周波数に関する関数を導入. → 性能の向上に貢献 階層的に処理することで 未知の楽器でも一定の階層まで 同定可能であることを確認.

より多くの楽器・奏法への対応 ・短い音(打楽器音を含む)への対応 ・階層の詳細化 など 8.ま と め 今度の課題 3つの分類の自動化 より多くの楽器・奏法への対応 ・短い音(打楽器音を含む)への対応 ・階層の詳細化 など 混合音への適用