音響モデルを利用したシングルチャネルによる音源方向推定

音響モデルを利用したシングルチャネルによる音源方向推定
06/12/15　電子情報通信学会　応用音響研究会住田雄司，滝口哲也，有木康雄（神戸大）～と題しまして，神戸大学の住田が発表させていただきます．

発表の流れ研究背景従来手法提案手法評価実験まとめ，今後の課題音源方向推定の目的マイクロホンアレーによる音源方向推定
従来手法の問題点提案手法単一マイクロホンによる音源方向推定評価実験提案手法による評価実験と考察まとめ，今後の課題今回の発表のアウトラインはこのようになっております．まず研究背景としまして，音源方向推定の目的について説明いたします．その後に，従来手法としまして，マイクロホンアレーを用いた音源方向推定手法とその問題点について述べたいと思います．そして，単一マイクロホンによる提案手法を紹介させていただき，この手法を用いた評価実験の結果と考察を述べたいと思います．そして最後にまとめと今後の課題について述べたいと思います．

さまざまな状況において，音源方向推定の技術が必要とされている！
研究背景音源方向推定の目的指向性マイクロホンを用いた目的音の強調発話者方向にマイクロホンの指向性を形成ノイズ方向にマイクロホンの死角を形成話者方向の推定ロボットの対話会議システム環境の認識音源の探査移動物体の検出ではまず，研究背景について説明いたします．音源方向推定の目的としまして，まず指向性マイクロホンを用いることによる目的音の強調が挙げられるかと思います．発話者の方向が推定できますと，その方向からやってくる音のみを強調することができるようになります．一方，それとは逆にノイズ方向が推定できますと，ノイズを打ち消すような死角を形成することにより，結果として目的音を強調することができるようになります．続いて話者方向の推定ですが，自然に対話をするときには，話者の方向がわかっていることが必要不可欠だと思います．そのため，対話ロボットには話者方向推定技術が必要になってくると思います．また，会議システムなどにおいても誰がどの方向から話しているのかという情報は大変重要であると思います．環境の認識としましては，例えば災害時などに，どのような音がどの方向から聞こえてくるのか，どの方向からどの方向へ移動しているのかという情報を取得することが現場を認識するために必要となってきます．このように，さまざまな状況において音源方向推定の技術は必要であるという風に言うことができると思います．さまざまな状況において，音源方向推定の技術が必要とされている！

従来手法（1）時間差の情報を用いた音源方向推定例；2つのマイクロホンを用いて，θ方向からの信号を受信
従来手法としまして，時間差の情報を用いた音源方向推定手法について説明いたします．相関関数を最大にする時間差τとマイク間距離 d から，信号の到来方向θを求める．

従来手法（2）強度差の情報を用いた音源方向推定例；2つのマイクロホンを用いて，θ方向からの信号を受信
[1] 強度差の情報を用いた音源方向推定例；2つのマイクロホンを用いて，θ方向からの信号を受信 deg. 5dB/div. 例；カージオイド指向性指向性マイクロホンを用いて，方向別の強度差から，信号の到来方向θを求める． [1]羽入敏樹他, “複数の指向性マイクロホンの方向別感度差を利用した音源探査,” 音講論, 3-9-3, pp ,

従来手法の問題点複数のマイクロホンを用いてアレーを形成．これにより生じる到来信号の時間差・強度差の情報により方向を推定していた．
複数のマイクロホンが必要不可欠！単一マイクロホンで方向推定ができれば… コスト削減マイクロホンの設置は容易信号の同期を取らなくてもよいetc. 本研究では，単一マイクロホンによる音源方向の推定を目指す！ウェアラブルなどの超小型の世界，産業におけるコスト重視の世界では，とりわけ単一マイクロホンであることが重要といえる．

提案手法の概要どのようにして単一マイクロホンで音源方向を推定するのか？
到来信号の時間差・強度差といった情報は使えない！予め，方向ごとの音響伝達特性モデルを作成しておく．入力音声があれば，そこから音響伝達特性を推定し，各モデルと比較を行う．最も尤度が大きかった方向を到来方向として出力する． θ方向より到来する音声から，どのようにして音響伝達特性を推定するのか？クリーン音声モデル（e.g. Gaussian Mixture Model）　→　予め学習しておくことが可能 EMアルゴリズム（Expectation Maximization）　を用いて，θ方向からの音響伝達特性を推定．

音響伝達特性の推定（1） S H O Acoustical transfer function Clean speech
Observed speech S H O 対象とする環境のモデル OとSが分かれば，Hは推定可能実際の場面では，クリーンな音声信号を観測することはできない！ Sの代わりに，予め準備可能なクリーン音声モデルを用いて，ケプストラム領域において尤度最大基準に基づきOからHを分離する．

音響伝達特性の推定（2） [2] 音響伝達特性の時系列データを，観測信号に対して，そのモデルの尤度が最大となるようにして求める．
こちらの（2ページ前のEMアルゴリズムの資料）Q関数に照らし合わせて，音響伝達特性Hに関する項にのみ注目すると，このようにQ関数を書くことができます． Q関数を最大にするHは，この式を偏微分して解くことにより，求めることができます． [2]A.Sankar and C-H.Lee, “A maximum-likelihood approach to stochastic matching for robust speech recognition,” IEEE Trans. Speech and Audio Processing，vol.4, no.3, pp , 1996.

提案手法のフローチャート Train Test 各方向からの音声入力（数単語）ある方向から音声が到来クリーン音声GMMを用いて，
尤度最大基準により音響伝達特性を推定各方向における音響伝達特性GMMを構築・入力の音響伝達特性と，各方向における音響伝達特性GMMを比較．・最も尤度が大きかった方向　　を出力．

評価実験実験環境パラメータ音声データと音響モデルドライソースにインパルス応答を畳み込んで実環境をシミュレーション
30deg.，90deg.，130deg. 3方向のうちの1方向より音声が到来する．予め各方向のモデルを作成しておき，到来方向の判別を行う．パラメータ音声データと音響モデル話者特定話者（男性1名）クリーン音声の音響モデル GMM（64混合）音響伝達特性の音響モデル GMM（1，2，4混合）クリーン音声の学習データ 2620単語音響伝達特性の学習データ 10単語テストデータ 1000単語サンプリング周波数 12 [kHz] 窓関数 Hamming 窓の長さ 32 [ms] フレームシフト 8 [ms] 特徴量 MFCC（16次元）

実験室 * 音源とマイクロホンの距離： 2 [m] 残響時間： 300 [ms]
*

実験結果（1）方向別，混合数別の正解率 [%] 1 Mixture 2 Mixtures 4 Mixtures 30deg. 89.5
91.9 88.1 90deg. 18.0 58.9 67.0 130deg. 96.1 95.2 94.2 2方向（30deg.，90deg.）に限定した場合 1 Mixture 2 Mixtures 4 Mixtures 30deg. 100 90deg. 62.9 89.5 93.5

実験結果（2） 2方向における音響伝達特性の時間変化（音声:aisatsu）発話区間は0.35 ～ 1.05 [sec] MFCC-2

実験結果（3）それぞれの方向，混合数における識別率の比較 90deg.より音声が到来した場合に，130deg.と誤識別されることが多い！

誤識別の原因の考察（1）音響伝達特性モデルの比較単一正規分布における，方向毎の平均と分散の比較・低次元では90deg.の分散が大きく，
大きい．　→　90deg.における正解率の低さ， 130deg.への誤識別の多さの原因？・90deg.の平均値は他の2方向と比較して，特に異なっている．・ある次元においては，3方向の平均値がほぼ等しく，別の次元では全く違うといった状況が見受けられる．

誤識別の原因の考察（2）音響伝達特性モデルの比較単一正規分布における，方向毎の平均と分散の比較残響なし
・残響がない場合には，方向毎の平均と分散の違いがほとんど見受けられない．　→　残響・反射といった要素が，方向毎の音響伝達特性を特徴付けている？

まとめ様々な状況において，音源方向推定技術は必要とされている．
到来信号の時間差，強度差などを用いた従来の推定方法では，複数のマイクロホンという条件が必要不可欠だった．単一マイクロホンによる音源方向推定法を提案クリーン音声GMMとEMアルゴリズムを用いて，観測された音声から音響伝達特性を推定各方向の音響伝達特性モデルを作成入力音声から音響伝達特性を推定し，これらのモデルと比較して，最も尤度が大きかった方向を到来方向として出力する．評価実験より，単一マイクロホンによる音源方向推定の可能性を提示

今後の課題方向数の増加，角度幅の縮小文章による学習・テスト指向性マイクロホンの導入識別方法の工夫
現在はまだ3方向，角度の幅も40deg.，60deg.と開いている文章による学習・テスト単語単位では短すぎて安定しないのではないか？　→　モデルの分散増加指向性マイクロホンの導入無指向性マイクロホンと識別率を比較識別方法の工夫 LDA，SVM，AdaBoostの導入etc. 正解率の向上

Thank you very much for your attention!!

補足資料

実験結果：補足（1）各方向におけるインパルス応答の比較残響時間 300 [ms] の場合 30deg. 90deg. 130deg.

実験結果：補足（2）各方向におけるインパルス応答の比較残響時間が無しの場合 30deg. 90deg. 130deg.

マイクロホンアレー * 今回の実験では，20番のマイクロホンのインパルス応答を使用
*

実験機材の詳細 * *

無響室 * *

インパルス応答の畳み込みドライソース（本来発声した原音）にある部屋で測定したインパルス応答を畳み込むと，その部屋で発生したかのように再現することができる．このままだと計算量が膨大なので…

MFCC（Mel Frequency Cepstrum Coefficient）
音の高さに対する人間の感覚尺度　→　メル尺度（Mel Scale）周波数の対数におおよそ対応人間の周波数に対する音の高さの感覚低周波数　→　細かい高周波数　→　粗いレベル・・・・・・メル周波数各帯域フィルタの出力　　と，離散コサイン変換（DCT）を用いて，MFCC係数が計算される．

EMアルゴリズム観測データをxとすると，HMMにおける状態遷移のような直接観測できないデータyが存在する場合に，xの尤度を最大にするようなモデルパラメータθを求めるときなどに用いる．実際には観測不可能なyが関係しているため，上式は容易には解けない．そこで，式で解けるように以下のようなQ関数を定義する． EMアルゴリズムのステップパラメータ　　の初期値を設定　　　　　　関数の最大にするような　　を選択　　を　　で更新収束条件を満たしていれば終了．そうでなければ2に戻る．

Template template

音響モデルを利用したシングルチャネルによる音源方向推定

Similar presentations

Presentation on theme: "音響モデルを利用したシングルチャネルによる音源方向推定"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

音響モデルを利用したシングルチャネルに よる音源方向推定

Similar presentations

Presentation on theme: "音響モデルを利用したシングルチャネルに よる音源方向推定"— Presentation transcript:

Similar presentations

About project

フィードバック

音響モデルを利用したシングルチャネルによる音源方向推定

Presentation on theme: "音響モデルを利用したシングルチャネルによる音源方向推定"— Presentation transcript: