アレー信号処理を用いた ブラインド音源分離の基礎

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
音響モデルを利用したシングルチャネルに よる音源方向推定
音響信号処理特論 音声信号処理の基礎(その2)
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ランダムプロジェクションを用いた 音声特徴量変換
640 GHz 帯 SIS 受信機の 利得線形性の測定 菊池、瀬田、稲谷、SMILES ミッションチーム 概要:
ワイヤレス通信におけるMIMO伝送技術.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
大気レーダーのアダプティブクラッタ 抑圧法の開発
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
東京海洋大産学官連携研究員/技術コンサルタント 高須 知二 Tomoji TAKASU
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
音素部分空間の統合による音声特徴量抽出の検討
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
部分的最小二乗回帰 Partial Least Squares Regression PLS
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
Core Technology Center
Number of random matrices
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
国際情報通信研究科 山崎研究室 修士2年 荻野 晃史
確率的画像処理アルゴリズム入門 東北大学 大学院情報科学研究科 田中 和之
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
ガウシアングラフィカルモデルにおける一般化された確率伝搬法
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
Presentation transcript:

アレー信号処理を用いた ブラインド音源分離の基礎 奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 最初 Thank you, chairman. I‘m Satoshi Kurita, Nagoya University. The title of my talk today is “Blind Signal Separation Using Directivity Pattern”.

本日の内容 マイクロホンアレー処理の概説 ブラインド音源分離研究の背景・解説 独立成分分析とビームフォーミングの統合 今後の展開 独立成分分析とブラインド音源分離 独立成分分析における問題点 独立成分分析とビームフォーミングの統合 反復学習内・学習後ダイバーシチ 音声認識への応用例 今後の展開 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

マイクロホンアレー研究の背景 マイクロホンアレーとその応用 古典的アプローチ: ビームフォーミング さらに自由度の大きい技術の開発が必要 遅延和型: 低サイドローブの実現が困難 適応型:目的音の方位・無音区間情報が必要 高性能な hands-free 通信 雑音にロバストな音声認識 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. さらに自由度の大きい技術の開発が必要

マイクロホンアレーの問題点 θ θ 遅延和型:素子係数により指向特性を制御 適応型:雑音の到来方向に指向特性を適応 目的音 雑音も同時に拾ってしまう θ 目的音を指定 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 雑音のみを観測する時間が必要 θ 死角

ブラインド音源分離の登場 Blind Source Separation (BSS) 独立成分分析(ICA)に基づくBSS 複数の音源信号が混合されて観測された場合、観測信号のみから音源信号を推定する技術 目的音の方位・無音区間情報が不要 独立成分分析(ICA)に基づくBSS J. Cardoso, 1989 C. Jutten, 1990 (高次無相関化) P. Common, 1994 (ICAという言葉を定義) A. Bell et al., 1995 (infomaxによる定式化) Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

ICAに基づくBSS とは? 既知 互いに独立 音源信号を推定 おはよう こんにちは Human 1 Source 1 Microphone 1 Observed signal 1 では,BSSの説明をします. 簡単のために2音源2マイクロホンの場合について説明します. 今,2人の話者が話した言葉を2つのマイクロホンで観測したとします. ここで,BSSとは,音源が互いに独立であるということ, また観測信号が既知であるという,2つの情報から音源を推定しようという技術です. Microphone 2 Observed signal 2 こんにちは Source 2 音源信号を推定 Human 2

ICAに基づくBSSの定式化 線形混合過程 混合行列 音源信号 観測信号 分離過程 分離信号 分離行列 コスト関数 独立? 最適化 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 独立? 最適化

ICAにおける様々なコスト関数 無相関化 非線形関数1 非線形関数2 分離信号ベクトル: 信号間相関を最小化 高次相関をも最小化 分離信号ベクトル:  無相関化 信号間相関を最小化 非線形関数1 高次相関をも最小化 非線形関数2 源信号確率密度関数を仮定 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. シグモイド関数等

ICAに基づくBSSの問題点 ICAは本質的に非線形最適化問題を含む そもそも音声ってどのくらい独立なのか? → 局所最適解への落ち込み → 収束性能の悪化 そもそも音声ってどのくらい独立なのか? → 周波数帯域によって独立な場合とそうでな  い場合があるのではないか? → ICAで分離できる性能の限界はどの程度か So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.

ICAとビームフォーミングの統合 指向特性を介してICA-based BSSと古典的ビームフォーミングを統合化 非独立な帯域における分離性能を向上 情報幾何学と音響信号処理とを 融合した高精度なBSS So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.

本アプローチの概念図 両者間の対応付け・繰り返し処理を用いることにより、より高精度な分離音を取得する 独立成分分析 ビームフォーミング 統一感のある情報源 を脳の内部で分類化 音源のある方位に 聞き耳を立てる Aさんの声 So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.  両者間の対応付け・繰り返し処理を用いることにより、より高精度な分離音を取得する

具体的な手法例 ICAとビームフォーマの切り替えを反復学習処理の最後に行う(反復学習後ダイバーシチ)   (反復学習内周期的ダイバーシチ) ICAとビームフォーマの切り替えを反復学習過程中において適宜行う   (反復学習内ダイバーシチ) So, we propose the new BSS method using the directivity patterns. In our method, the directivity patterns of the microphone array system are explicitly used to estimate the each direction of the sound sources. Using this method, we can resolve both permutation and arbitrariness problems simultaneously without the assumption for the source signals’ waveforms. Also, we perform the evaluation of our method under the reverberant conditions. I will show the results later.

反復学習後ダイバーシチ (1)帯域分割型ICAによるBSS → 形成される指向特性より音源方位を陽に推定 (2)音源方位を利用して死角制御型ビームフォーミング (3)アルゴリズムダイバーシチによる(1),(2)の統合

(1)帯域分割型ICAによる音源分離 周波数変換   時間遅れを含む混合問題を単純化

(1)学習アルゴリズム Iterative off-line learning algorithm : where

(2)死角制御型ビームフォーマ 1. ICAで推定されたWより指向特性を算出し、音源方位を求める。 に目的方位 に死角 逆混合行列 による指向特性: l 番目の音源の DOA : Source 1 Source 2 指向特性・・・空間に対してアレーが形成する利得の分布 に目的方位 に死角 1. ICAで推定されたWより指向特性を算出し、音源方位を求める。 2.推定された音源方位より死角制御型ビームフォーマを構成する。

(3)アルゴリズムダイバーシチによる統合 帯域毎に以下のルールでICAとビームフォーマを切り替える 周波数  での音源方位推定値が    である場合、 の偏差 閾値パラメータ 収束性が悪い・独立性が低い帯域での分離性能を向上

実験条件 素子間隔 4 cm の 2 素子アレー 音源 : 音響条件 : 逆混合行列の学習 : 評価基準 : 比較対象: 方位 -30°, 方位 40°の 2 音源(36通り) 音響条件 : 残響時間 RT= 0, 0.15, 0.30 sec 逆混合行列の学習 : 1, 3, 5 秒間の観測信号を利用 評価基準 : Noise reduction rate (NRR) = 出力SNR [dB] – 入力SNR [dB] 比較対象: Murata法(in ICA’99; 狭帯域波形包絡間の類似性利用)

実験結果:ダイバーシチの効果 RT=0.15 sec の場合 学習区間 ビームフォーマ, ICA-based BSSよりもSNR向上

実験結果:音声認識による評価 学習区間=5 sec すべての場合において提案法により認識率改善

分離音声デモ 無残響実験 残響付与実験 (残響時間 300 ms) 混合音 分離音 (女性,村田・池田の手法) 分離音 (女性, 提案手法) 分離音 (男性, 提案手法) 残響付与実験 (残響時間 300 ms) (逆混合行列の学習には 3 秒間の観測信号を利用)

反復学習内周期的ダイバーシチ に目的方位 に死角 Init ICA BF else if final Direction of Arrival Estimation Ordering & Scaling

反復学習における 指向特性のアニメーション - 従来のICAの場合 -

反復学習における 指向特性のアニメーション - 提案法の場合 -

無残響下での実験結果

RT=150msecの場合の実験結果

考察 無残響下ではNRR値の大幅な向上が見られた 残響下においてもNRR値の向上が見られた ICAとビームフォーミング間の射影反復は有効に機能 残響下においてもNRR値の向上が見られた 残響下でのビームフォーミングは必ずしも性能をあげる保証はないが適切な反復回数で切り替えることは収束を高める上で有効である 問題点:全帯域を同時にBFに切り替える必要があるのか       BFに切り替えるタイミングはいつが最適か

改善法:反復学習内ダイバーシチ 逆混合行列 による指向特性: l 番目の音源の DOA : Source 1 Source 2 ONE TIME ICA 逆混合行列 による指向特性: l 番目の音源の DOA : Source 1 Source 2 指向特性・・・空間に対してアレーが形成する利得の分布 に目的方位 に死角 BF Direction of Arrival Estimation Diversity with Cost Function else if final 指向特性は空間に対するアレーの利得分布を意味します。 具体的にはこのような図なのですが。 横軸は方位を示し、縦軸はゲインを示す。 つまり、あるビームフォーミングにおいて方位による出力ゲインを意味する。 ゲインが低いほど、その方位を抑圧することを意味する。

コスト関数(2出力間Cosine距離) が小さい 2出力が無相関(≒独立)

コスト関数(Cont’d) が より大きいときは 死角制御型ビームフォーミングを選択 が 以下のときは ICAを選択 収束の遅い帯域の学習を加速する が 以下のときは ICAを選択 反射成分や残響成分を考慮して独立に分離する

残響時間 150 msec の場合の分離性能

ビームフォーミングの選択状況例(残響時間 150 msec) ICAの収束が遅い反復初期は ビームフォーミングによって 最適解近傍へ早く近づくことが可能 ビームフォーミングを選択 ある程度学習の進んだ反復後期では反射成分や残響成分も考慮して独立に分離するICAが選択される ICAでは収束しない帯域は全反復においてビームフォーミングが選択される

残響時間 300 msec の場合の分離性能

考察 提案法による分離性能は従来法を上回る(RT150 msec : 4.6 dB, RT 300 msec : 1.5 dB) 演算量を考慮しても提案法は収束が速い 反復学習内において 反復初期では学習の遅いICAよりも死角制御型   ビームフォーミングが選ばれて学習が加速される 学習の進んだ反復後期ではICA が選択されて   反射成分や残響成分も考慮して分離が行われる ICAでは収束しない帯域では反復全般において   死角制御型ビームフォーミングが選ばれる

分離音声の一例 残響時間 150 msec 残響時間 300 msec 混合音声(男性、女性) 従来法による分離音声(女性) 提案法による分離音声(女性) 残響時間 300 msec

今後の展開 ICAによるBSSはどこへ行くのか? 独立成分分析とビームフォーミングを融合した高性能BSSシステムに関しては 数理解析上での進展はほぼ飽和ぎみ 実際の音環境を取り扱えるには未だに至っていない 共通の音源分離用データベースによる相互比較 独立成分分析とビームフォーミングを融合した高性能BSSシステムに関しては 2素子以上のシステムへの拡張 オンライン学習化(動く音源の分離) 現在: 解ける問題のみ机上で解いていた 今後: 実環境においていかにしてICAの実力を発揮させるか

今後の展開2 時間-周波数領域ICAに関する限界 周波数領域ICAにこだわらない より残響に強い手法の提案が望まれる 周波数分割数を増加 ⇒ 残響には対応可能                   しかし分離性能は劣化 分割数増加により狭帯域信号間の独立性評価が困難に Permutationの影響? (荒木,西川 他,2001) 周波数領域ICAにこだわらない より残響に強い手法の提案が望まれる

帯域分割数 vs. 分離精度 分離性能劣化! こちらが残響がある場合で,水色が残響時間0.15秒,ピンクが残響時間0.3秒の場合であり, こちらの残響がない場合と同様,帯域分割数を増やすことにより,分離性能が低下してるじゃありませんか!

実験結果:従来BSS法との比較1 学習区間=5 sec

実験結果:従来BSS法との比較2 学習区間=3 sec 5及び3秒で学習した場合どの残響下でも提案法が有効

実験結果:従来BSS法との比較3 学習区間が短い場合Murata法では劣化大 提案法では指向特性のみを使用するため劣化小 学習区間=1 sec 学習区間が短い場合Murata法では劣化大 提案法では指向特性のみを使用するため劣化小