亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
第12回情報論的学習理論ワークショップ(IBIS2009) IBIS2009 企画セッション「音声・音響処理と機械学習」スパース表現による音響信号処理亀岡弘和　　日本電信電話株式会社　　NTTコミュニケーション科学基礎研究所

スパース表現低ランクモデル基底のスパース正則化学習データをの形のモデルで表現がスパース (少数を除きほとんどが0)
Dictionary 基底関数基底関数データ　　を　　　　　　の形のモデルで表現　　がスパース (少数を除きほとんどが0) 低ランクモデル複雑なデータセットを少ない基底で表現基底のスパース正則化学習データに混在する独立な情報を抽出データ数基底数

スパース表現による音響信号処理実世界音響信号処理メッセージ伝達媒体としての音音源の仮定とモデル化 ... ...
観測信号から現象を説明することが目的いかに実世界音響信号の構成音をうまくモデル化できるかメッセージ伝達媒体としての音離散的なシンボル情報を波形で表現し伝達音声  音素単位 (/a/, /i/, /u/, ... ) 音楽  音階単位 (ド,レ,ミ,ファ, ...) 各シンボルがどういう波形で表現されるかは音源に固有（すなわち未知）音源の仮定とモデル化実世界音響信号 ... 音源A 音源B ... 要素A 要素B (仮定) 音源信号は限られた種類のシンボル単位に相当する未知の独立成分から成る少ない基底関数のスパースな重畳

音源モデル化の基本方針：少ない基底関数のスパースな重ね合わせ
発表のアウトライン音源モデル化の基本方針：少ない基底関数のスパースな重ね合わせ 1. 複素NMF 少数の振幅スペクトルの基底関数によって構成される音響信号モデルモノラル信号分離への適用例の紹介 2. 複合自己回帰系音声生成モデル(“ソースフィルタモデル”)におけるソースとフィルタがそれぞれ少数の基底関数により構成される音声信号の統計モデル残響環境下のブラインド音源分離への適用例の紹介

振幅スペクトログラムの分解表現音響信号規則性が！：時刻に周波数の成分がどれほど含まれているか非負値行列因子分解 (NMF)
短時間フーリエ変換（時間周波数分解）周波数→ 規則性が！絶対値をとる：時刻　に周波数　の成分が　どれほど含まれているか時刻→ 各基底のアクティビティスパース(疎) になる! 非負値行列因子分解 (NMF) 振幅スペクトル基底低ランクスペクトログラム　　　基底数10 周波数→ 基底数30 繰り返し生起する振幅スペクトルパターンが表出時刻→

「複素NMF」の提案？音響信号複素NMFモデル：時刻に周波数の成分がどれほど含まれているか複素スペクトログラムをモデル化
（波形同士は加法的）短時間フーリエ変換（時間周波数分解）・・・線形な変換（もちろん加法的）絶対値をとる・・・非線形な変換：時刻　に周波数　の成分が　どれほど含まれているか（振幅スペクトル同士は非加法的） NMFモデル複素NMFモデル複素スペクトログラム　　　　　　　をモデル化？振幅スペクトル行列積の形にならない！（新しいクラスのスパース表現モデル）

複素NMFアルゴリズム定義最適化問題複素スペクトログラム振幅スペクトル基底位相スペクトログラムゲイン音響信号モデル
スパース正則化項

複素NMFアルゴリズム補助関数法は増加しない！必ず正値必ず正値 subject to を満たす任意の定数
回目の反復計算後のパラメータ値: Step 1) 必ず正値 Step 2) 必ず正値は増加しない！

NMFと等価となる条件複素NMFはNMFを包含 Step 1) [条件1] をに初期設定する Step 2)
　　　を　　　　　　　に初期設定する Step 2) 　　　　　　　　　　　は Step1, Step2に対して不動点になっている！ [条件2] を満たす任意の定数 Step 3) を実行 Lee & Seungが導出したNMFアルゴリズム [Lee & Seung, Nature’99]と等価!

モノラル信号分離デモンストレーション

「ソ」以外は音量オフ

「ソ」だけ音量オフ

一部の基底関数に対してのみスペクトル伸縮変形を施し、混合信号を再構成（スペクトル伸縮はピッチトランスポーズに相当。例えばトランスポーズ「－１」は、半音下げという意味。）

音源モデル化の基本方針：少ない基底関数のスパースな重ね合わせ
発表のアウトライン音源モデル化の基本方針：少ない基底関数のスパースな重ね合わせ 1. 複素NMF 少数の振幅スペクトルの基底関数によって構成される音響信号モデルモノラル信号分離への適用例の紹介 2. 複合自己回帰系音声生成モデル(“ソースフィルタモデル”)におけるソースとフィルタがそれぞれ少数の基底関数により構成される音声信号の統計モデル残響環境下のブラインド音源分離への適用例の紹介

目的: ブラインド音声強調のための音声モデリング
音源分離/残響除去・・・室内伝達系と音声信号が未知 音声信号らしさの規準(モデル)をうまく仮定することが重要 (例) 非ガウス性  独立成分分析に基づくブラインド音源分離観測モデルの例 (マイクロホン数: M, 音源数: M) 統計モデル　　　　　　の定義  尤度関数仮定:　　　と　　　　　　　　　　　　　　　　は独立 [吉岡,中谷,三好音講論(秋)’08] 観測信号の時間周波数成分残響除去フィルタ ( : 周波数, : 時刻) 瞬時混合信号分離行列音源成分音源分離&残響除去: 　　　　　　　　　の最尤/MAP推定

目的: ブラインド音声強調のための音声モデリング
音源分離/残響除去・・・室内伝達系と音声信号が未知 音声信号らしさの規準(モデル)をうまく仮定することが重要 (例) 非ガウス性  独立成分分析に基づくブラインド音源分離観測モデルの例 (マイクロホン数: M, 音源数: M) 統計モデル　　　　　　の定義  尤度関数仮定:　　　と　　　　　　　　　　　　　　　　は独立音声の統計モデル “複合自己回帰系” の提案 [吉岡,中谷,三好音講論(秋)’08] 観測信号のSTFT 残響除去フィルタ ( : 周波数, : 時刻) 瞬時混合信号分離行列音源成分音源分離&残響除去: 　　　　　　　　　の最尤/MAP推定

全フレームで高々J種類の全極モデルを仮定全フレームで高々I種類のパワースペクトル密度
音声生成モデル（ソースフィルタモデル）自己回帰系による短時間フレーム　内の信号モデル声道特性(音素)に対応次の全極型モデル声帯による駆動源に対応定常Gauss過程白色性音声では... 音素の種類は限られている！ framewise自己回帰系複合自己回帰系フィルタ入力フレームごとに別個の全極モデル全フレームで高々J種類の全極モデルを仮定音声では... ピッチの範囲は限られている！パワースペクトル密度自体がパラメータ白色性を仮定 (パワースペクトル密度が平坦) 全フレームで高々I種類のパワースペクトル密度パワースペクトル密度(PSD) 実際は違う！

複合自己回帰系による音声信号　　　のモデル化駆動源信号全極型フィルタアクティベーション個の要素信号 Gauss 雑音スパース化 20

要素信号スペクトルの確率密度関数・駆動信号スペクトル : ・声道フィルタ通過後 : ・アクティベート後 : とするとここで，，
全極型フィルタ要素信号駆動源特性 PSD PSD PSD Gauss雑音・駆動信号スペクトル : ・声道フィルタ通過後 : ・アクティベート後 : とするとここで，，

音声信号スペクトルの確率密度関数要素信号の和を音声信号と考えるとはのとき独立する音声信号の統計モデル
通常のスパース表現モデル要素信号　　の和を音声信号　　　と考える　　　と　　　は　　　　　　　のとき独立する logをとって少し式操作すると　　　　と　　　　　　　　　の板倉斎藤距離になる音声信号の統計モデル但し，アクティベーションのスパースネスを保障する事前確率（逆ガンマ分布）

EMアルゴリズムによる最適化 M番目の話者の音声パワースペクトル密度推定値 (Step 1: 音源分離) を固定

Step 3の詳細 Q関数 M-step E-step [駆動源特性] [ゲイン] [自己回帰係数]

残響環境下ブラインド音源分離実験実験条件パラメータの推定更新回数： 300回
信号： 2種類の日本語発話音声 Src#1：女性話者(8s)，Src#2：女性話者(8s) マイクロホン4本収音環境：残響時間0.5ms 信号の混合条件 (Signal-to-Interference Ratio) Src#1 Src#2 Mic#1 Mic#2 Mic#3 Mic#4 －0.59 ＋0.59 －0.32 ＋0.32 －0.14 ＋0.14 －0.57 ＋0.57 単位: [dB]

残響環境下ブラインド音源分離実験実験結果・混合条件－0.59 －0.32 －0.14 ＋0.57 ＋0.59 ＋0.32 ＋0.14
Mic#1 Mic#2 Mic#3 Mic#4 Src#1 －0.59 －0.32 －0.14 ＋0.57 Src#2 ＋0.59 ＋0.32 ＋0.14 －0.57 単位: [dB] ・Src#1の分離性能 : SIR (Signal-to-Interference ratio) 提案法従来法 SIR ＋18.6 dB ＋17.2 dB ・Src#2の残響除去性能: DRR (Direct-to-Reverberate ratio) 提案法従来法 DRR ＋13.5 dB ＋12.6 dB

まとめ (1/2) 実世界音響信号処理へのアプローチ ... ...
実世界音響信号が何個かの統計的に独立な音源信号によって構成されると仮定するのと同様に，各音源信号もまた何らかの離散的なシンボル情報に対応した何個かの独立成分によって構成される，と仮定実世界音響信号を階層的に独立な成分に分解したモデルで簡潔に記述し，現象をモデルパラメータ最適化の視点から推論実世界音響信号 ... 音源A 音源B ... 要素A 要素B

まとめ (2/2) スパース表現の考え方をヒントにした新しい音響信号モデルを提案 1. 複素NMF 2. 複合自己回帰系
音声のソースフィルタモデルをバックボーンとした音声版のスパース表現モデル低ランク表現通常のスパース表現モデル：複素スペクトログラムパワースペクトログラム

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

Similar presentations

Presentation on theme: "亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

Similar presentations

Presentation on theme: "亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所"— Presentation transcript:

Similar presentations

About project

フィードバック

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

Presentation on theme: "亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所"— Presentation transcript: