Presentation is loading. Please wait.

Presentation is loading. Please wait.

アレー信号処理を用いた ブラインド音源分離の基礎

Similar presentations


Presentation on theme: "アレー信号処理を用いた ブラインド音源分離の基礎"— Presentation transcript:

1 アレー信号処理を用いた ブラインド音源分離の基礎
奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 最初 Thank you, chairman. I‘m Satoshi Kurita, Nagoya University. The title of my talk today is “Blind Signal Separation Using Directivity Pattern”.

2 本日の内容 マイクロホンアレー処理の概説 ブラインド音源分離研究の背景・解説 独立成分分析とビームフォーミングの統合 今後の展開
独立成分分析とブラインド音源分離 独立成分分析における問題点 独立成分分析とビームフォーミングの統合 反復学習内・学習後ダイバーシチ 音声認識への応用例 今後の展開 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

3 マイクロホンアレー研究の背景 マイクロホンアレーとその応用 古典的アプローチ: ビームフォーミング さらに自由度の大きい技術の開発が必要
遅延和型: 低サイドローブの実現が困難 適応型:目的音の方位・無音区間情報が必要 高性能な hands-free 通信 雑音にロバストな音声認識 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. さらに自由度の大きい技術の開発が必要

4 マイクロホンアレーの問題点 θ θ 遅延和型:素子係数により指向特性を制御 適応型:雑音の到来方向に指向特性を適応 目的音
雑音も同時に拾ってしまう θ 目的音を指定 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 雑音のみを観測する時間が必要 θ 死角

5 ブラインド音源分離の登場 Blind Source Separation (BSS) 独立成分分析(ICA)に基づくBSS
複数の音源信号が混合されて観測された場合、観測信号のみから音源信号を推定する技術 目的音の方位・無音区間情報が不要 独立成分分析(ICA)に基づくBSS J. Cardoso, 1989 C. Jutten, (高次無相関化) P. Common, 1994 (ICAという言葉を定義) A. Bell et al., 1995 (infomaxによる定式化) Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

6 ICAに基づくBSS とは? 既知 互いに独立 音源信号を推定 おはよう こんにちは Human 1 Source 1
Microphone 1 Observed signal 1 では,BSSの説明をします. 簡単のために2音源2マイクロホンの場合について説明します. 今,2人の話者が話した言葉を2つのマイクロホンで観測したとします. ここで,BSSとは,音源が互いに独立であるということ, また観測信号が既知であるという,2つの情報から音源を推定しようという技術です. Microphone 2 Observed signal 2 こんにちは Source 2 音源信号を推定 Human 2

7 ICAに基づくBSSの定式化 線形混合過程 混合行列 音源信号 観測信号 分離過程 分離信号 分離行列 コスト関数 独立? 最適化
Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 独立? 最適化

8 ICAにおける様々なコスト関数 無相関化 非線形関数1 非線形関数2 分離信号ベクトル: 信号間相関を最小化 高次相関をも最小化
分離信号ベクトル:  無相関化 信号間相関を最小化 非線形関数1 高次相関をも最小化 非線形関数2 源信号確率密度関数を仮定 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. シグモイド関数等

9 ICAに基づくBSSの問題点 ICAは本質的に非線形最適化問題を含む そもそも音声ってどのくらい独立なのか? → 局所最適解への落ち込み
→ 収束性能の悪化 そもそも音声ってどのくらい独立なのか? → 周波数帯域によって独立な場合とそうでな  い場合があるのではないか? → ICAで分離できる性能の限界はどの程度か So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.

10 ICAとビームフォーミングの統合 指向特性を介してICA-based BSSと古典的ビームフォーミングを統合化
非独立な帯域における分離性能を向上 情報幾何学と音響信号処理とを 融合した高精度なBSS So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.

11 本アプローチの概念図 両者間の対応付け・繰り返し処理を用いることにより、より高精度な分離音を取得する 独立成分分析 ビームフォーミング
統一感のある情報源 を脳の内部で分類化 音源のある方位に 聞き耳を立てる Aさんの声 So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.  両者間の対応付け・繰り返し処理を用いることにより、より高精度な分離音を取得する

12 具体的な手法例 ICAとビームフォーマの切り替えを反復学習処理の最後に行う(反復学習後ダイバーシチ)
  (反復学習内周期的ダイバーシチ) ICAとビームフォーマの切り替えを反復学習過程中において適宜行う   (反復学習内ダイバーシチ) So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.

13 反復学習後ダイバーシチ (1)帯域分割型ICAによるBSS → 形成される指向特性より音源方位を陽に推定
(2)音源方位を利用して死角制御型ビームフォーミング (3)アルゴリズムダイバーシチによる(1),(2)の統合

14 (1)帯域分割型ICAによる音源分離 周波数変換   時間遅れを含む混合問題を単純化

15 (1)学習アルゴリズム Iterative off-line learning algorithm : where

16 (2)死角制御型ビームフォーマ 1. ICAで推定されたWより指向特性を算出し、音源方位を求める。
に目的方位 に死角 逆混合行列 による指向特性: l 番目の音源の DOA : Source 1 Source 2 指向特性・・・空間に対してアレーが形成する利得の分布 に目的方位 に死角 1. ICAで推定されたWより指向特性を算出し、音源方位を求める。 2.推定された音源方位より死角制御型ビームフォーマを構成する。

17 (3)アルゴリズムダイバーシチによる統合 帯域毎に以下のルールでICAとビームフォーマを切り替える
周波数  での音源方位推定値が    である場合、 の偏差 閾値パラメータ 収束性が悪い・独立性が低い帯域での分離性能を向上

18 実験条件 素子間隔 4 cm の 2 素子アレー 音源 : 音響条件 : 逆混合行列の学習 : 評価基準 : 比較対象:
方位 -30°, 方位 40°の 2 音源(36通り) 音響条件 : 残響時間 RT= 0, 0.15, sec 逆混合行列の学習 : 1, 3, 5 秒間の観測信号を利用 評価基準 : Noise reduction rate (NRR) = 出力SNR [dB] – 入力SNR [dB] 比較対象: Murata法(in ICA’99; 狭帯域波形包絡間の類似性利用)

19 実験結果:ダイバーシチの効果 RT=0.15 sec の場合 学習区間 ビームフォーマ, ICA-based BSSよりもSNR向上

20 実験結果:音声認識による評価 学習区間=5 sec すべての場合において提案法により認識率改善

21 分離音声デモ 無残響実験 残響付与実験 (残響時間 300 ms) 混合音 分離音 (女性,村田・池田の手法) 分離音 (女性, 提案手法)
分離音 (男性, 提案手法) 残響付与実験 (残響時間 300 ms) (逆混合行列の学習には 3 秒間の観測信号を利用)

22 反復学習内周期的ダイバーシチ に目的方位 に死角 Init ICA BF else if final
Direction of Arrival Estimation Ordering & Scaling

23 反復学習における 指向特性のアニメーション - 従来のICAの場合 -

24 反復学習における 指向特性のアニメーション - 提案法の場合 -

25 無残響下での実験結果

26 RT=150msecの場合の実験結果

27 考察 無残響下ではNRR値の大幅な向上が見られた 残響下においてもNRR値の向上が見られた
ICAとビームフォーミング間の射影反復は有効に機能 残響下においてもNRR値の向上が見られた 残響下でのビームフォーミングは必ずしも性能をあげる保証はないが適切な反復回数で切り替えることは収束を高める上で有効である 問題点:全帯域を同時にBFに切り替える必要があるのか       BFに切り替えるタイミングはいつが最適か

28 改善法:反復学習内ダイバーシチ 逆混合行列 による指向特性: l 番目の音源の DOA : Source 1 Source 2
ONE TIME ICA 逆混合行列 による指向特性: l 番目の音源の DOA : Source 1 Source 2 指向特性・・・空間に対してアレーが形成する利得の分布 に目的方位 に死角 BF Direction of Arrival Estimation Diversity with Cost Function else if final 指向特性は空間に対するアレーの利得分布を意味します。 具体的にはこのような図なのですが。 横軸は方位を示し、縦軸はゲインを示す。 つまり、あるビームフォーミングにおいて方位による出力ゲインを意味する。 ゲインが低いほど、その方位を抑圧することを意味する。

29 コスト関数(2出力間Cosine距離) が小さい 2出力が無相関(≒独立)

30 コスト関数(Cont’d) が より大きいときは 死角制御型ビームフォーミングを選択 が 以下のときは ICAを選択
収束の遅い帯域の学習を加速する 以下のときは ICAを選択 反射成分や残響成分を考慮して独立に分離する

31 残響時間 150 msec の場合の分離性能

32 ビームフォーミングの選択状況例(残響時間 150 msec)
ICAの収束が遅い反復初期は ビームフォーミングによって 最適解近傍へ早く近づくことが可能 ビームフォーミングを選択 ある程度学習の進んだ反復後期では反射成分や残響成分も考慮して独立に分離するICAが選択される ICAでは収束しない帯域は全反復においてビームフォーミングが選択される

33 残響時間 300 msec の場合の分離性能

34 考察 提案法による分離性能は従来法を上回る(RT150 msec : 4.6 dB, RT 300 msec : 1.5 dB)
演算量を考慮しても提案法は収束が速い 反復学習内において 反復初期では学習の遅いICAよりも死角制御型   ビームフォーミングが選ばれて学習が加速される 学習の進んだ反復後期ではICA が選択されて   反射成分や残響成分も考慮して分離が行われる ICAでは収束しない帯域では反復全般において   死角制御型ビームフォーミングが選ばれる

35 分離音声の一例 残響時間 150 msec 残響時間 300 msec 混合音声(男性、女性) 従来法による分離音声(女性)
提案法による分離音声(女性) 残響時間 300 msec

36 今後の展開 ICAによるBSSはどこへ行くのか? 独立成分分析とビームフォーミングを融合した高性能BSSシステムに関しては
数理解析上での進展はほぼ飽和ぎみ 実際の音環境を取り扱えるには未だに至っていない 共通の音源分離用データベースによる相互比較 独立成分分析とビームフォーミングを融合した高性能BSSシステムに関しては 2素子以上のシステムへの拡張 オンライン学習化(動く音源の分離) 現在: 解ける問題のみ机上で解いていた 今後: 実環境においていかにしてICAの実力を発揮させるか

37 今後の展開2 時間-周波数領域ICAに関する限界 周波数領域ICAにこだわらない より残響に強い手法の提案が望まれる
周波数分割数を増加 ⇒ 残響には対応可能                   しかし分離性能は劣化 分割数増加により狭帯域信号間の独立性評価が困難に Permutationの影響? (荒木,西川 他,2001) 周波数領域ICAにこだわらない より残響に強い手法の提案が望まれる

38 帯域分割数 vs. 分離精度 分離性能劣化! こちらが残響がある場合で,水色が残響時間0.15秒,ピンクが残響時間0.3秒の場合であり,
こちらの残響がない場合と同様,帯域分割数を増やすことにより,分離性能が低下してるじゃありませんか!

39 実験結果:従来BSS法との比較1 学習区間=5 sec

40 実験結果:従来BSS法との比較2 学習区間=3 sec 5及び3秒で学習した場合どの残響下でも提案法が有効

41 実験結果:従来BSS法との比較3 学習区間が短い場合Murata法では劣化大 提案法では指向特性のみを使用するため劣化小
学習区間=1 sec 学習区間が短い場合Murata法では劣化大 提案法では指向特性のみを使用するため劣化小


Download ppt "アレー信号処理を用いた ブラインド音源分離の基礎"

Similar presentations


Ads by Google