Download presentation
Presentation is loading. Please wait.
1
音響モデルを利用したシングルチャネルに よる音源方向推定
06/12/15 電子情報通信学会 応用音響研究会 住田 雄司,滝口哲也,有木康雄(神戸大) ~と題しまして,神戸大学の住田が発表させていただきます.
2
発表の流れ 研究背景 従来手法 提案手法 評価実験 まとめ,今後の課題 音源方向推定の目的 マイクロホンアレーによる音源方向推定
従来手法の問題点 提案手法 単一マイクロホンによる音源方向推定 評価実験 提案手法による評価実験と考察 まとめ,今後の課題 今回の発表のアウトラインはこのようになっております. まず研究背景としまして,音源方向推定の目的について説明いたします. その後に,従来手法としまして,マイクロホンアレーを用いた音源方向推定手法とその問題点について述べたいと思います. そして,単一マイクロホンによる提案手法を紹介させていただき,この手法を用いた評価実験の結果と考察を述べたいと思います. そして最後にまとめと今後の課題について述べたいと思います.
3
さまざまな状況において,音源方向推定の技術が必要とされている!
研究背景 音源方向推定の目的 指向性マイクロホンを用いた目的音の強調 発話者方向にマイクロホンの指向性を形成 ノイズ方向にマイクロホンの死角を形成 話者方向の推定 ロボットの対話 会議システム 環境の認識 音源の探査 移動物体の検出 ではまず,研究背景について説明いたします. 音源方向推定の目的としまして,まず指向性マイクロホンを用いることによる目的音の強調が挙げられるかと思います. 発話者の方向が推定できますと,その方向からやってくる音のみを強調することができるようになります. 一方,それとは逆にノイズ方向が推定できますと,ノイズを打ち消すような死角を形成することにより,結果として目的音を強調することができるようになります. 続いて話者方向の推定ですが, 自然に対話をするときには,話者の方向がわかっていることが必要不可欠だと思います. そのため,対話ロボットには話者方向推定技術が必要になってくると思います. また,会議システムなどにおいても誰がどの方向から話しているのかという情報は大変重要であると思います. 環境の認識としましては,例えば災害時などに,どのような音がどの方向から聞こえてくるのか,どの方向からどの方向へ移動しているのかという情報を取得することが現場を認識するために必要となってきます. このように,さまざまな状況において音源方向推定の技術は必要であるという風に言うことができると思います. さまざまな状況において,音源方向推定の技術が必要とされている!
4
従来手法(1) 時間差の情報を用いた音源方向推定 例;2つのマイクロホンを用いて,θ方向からの信号を受信
従来手法としまして,時間差の情報を用いた音源方向推定手法について説明いたします. 相関関数を最大にする時間差τとマイク間距離 d から,信号の到来方向θを求める.
5
従来手法(2) 強度差の情報を用いた音源方向推定 例;2つのマイクロホンを用いて,θ方向からの信号を受信
[1] 強度差の情報を用いた音源方向推定 例;2つのマイクロホンを用いて,θ方向からの信号を受信 deg. 5dB/div. 例;カージオイド指向性 指向性マイクロホンを用いて,方向別の強度差から,信号の到来方向θを求める. [1]羽入敏樹他, “複数の指向性マイクロホンの方向別感度差を利用した音源探査,” 音講論, 3-9-3, pp ,
6
従来手法の問題点 複数のマイクロホンを用いてアレーを形成.これにより生じる到来信号の 時間差・強度差の情報により方向を推定していた.
複数のマイクロホンが 必要不可欠! 単一マイクロホンで方向推定ができれば… コスト削減 マイクロホンの設置は容易 信号の同期を取らなくてもよいetc. 本研究では,単一マイクロホンに よる音源方向の推定を目指す! ウェアラブルなどの超小型の世界,産業におけるコスト重視の 世界では,とりわけ単一マイクロホンであることが重要といえる.
7
提案手法の概要 どのようにして単一マイクロホンで音源方向を推定するのか?
到来信号の時間差・強度差といった情報は使えない! 予め,方向ごとの音響伝達特性モデルを 作成しておく.入力音声があれば,そこから音響伝達特性を推定し,各モデルと比較を行う.最も尤度が大きかった方向を到来方向として出力する. θ方向より到来する音声から,どのようにして音響伝達特性を推定するのか? クリーン音声モデル(e.g. Gaussian Mixture Model) → 予め学習しておくことが可能 EMアルゴリズム(Expectation Maximization) を用いて,θ方向からの音響伝達特性を推定.
8
音響伝達特性の推定(1) S H O Acoustical transfer function Clean speech
Observed speech S H O 対象とする環境のモデル OとSが分かれば,Hは推定可能 実際の場面では,クリーンな音声信号を観測することはできない! Sの代わりに,予め準備可能なクリーン音声モデルを用いて,ケプストラム領域において尤度最大基準に基づきOからHを分離する.
9
音響伝達特性の推定(2) [2] 音響伝達特性の時系列データを,観測信号に対して,そのモデルの尤度が最大となるようにして求める.
こちらの(2ページ前のEMアルゴリズムの資料)Q関数に照らし合わせて, 音響伝達特性Hに関する項にのみ注目すると,このようにQ関数を書くことができます. Q関数を最大にするHは,この式を偏微分して解くことにより,求めることができます. [2]A.Sankar and C-H.Lee, “A maximum-likelihood approach to stochastic matching for robust speech recognition,” IEEE Trans. Speech and Audio Processing,vol.4, no.3, pp , 1996.
10
提案手法のフローチャート Train Test 各方向からの音声入力(数単語) ある方向から音声が到来 クリーン音声GMMを用いて,
尤度最大基準により音響伝達特性を推定 各方向における音響伝達特性GMMを構築 ・入力の音響伝達特性と,各方向における音響伝達特性GMMを比較. ・最も尤度が大きかった方向 を出力.
11
評価実験 実験環境 パラメータ 音声データと音響モデル ドライソースにインパルス応答を畳み込んで実環境をシミュレーション
30deg.,90deg.,130deg. 3方向のうちの1方向より音声が到来する. 予め各方向のモデルを作成しておき,到来方向の判別を行う. パラメータ 音声データと音響モデル 話者 特定話者(男性1名) クリーン音声の音響モデル GMM(64混合) 音響伝達特性の音響モデル GMM(1,2,4混合) クリーン音声の学習データ 2620単語 音響伝達特性の学習データ 10単語 テストデータ 1000単語 サンプリング周波数 12 [kHz] 窓関数 Hamming 窓の長さ 32 [ms] フレームシフト 8 [ms] 特徴量 MFCC(16次元)
12
実験室 * 音源とマイクロホンの 距離: 2 [m] 残響時間: 300 [ms]
*
13
実験結果(1) 方向別,混合数別の正解率 [%] 1 Mixture 2 Mixtures 4 Mixtures 30deg. 89.5
91.9 88.1 90deg. 18.0 58.9 67.0 130deg. 96.1 95.2 94.2 2方向(30deg.,90deg.)に限定した場合 1 Mixture 2 Mixtures 4 Mixtures 30deg. 100 90deg. 62.9 89.5 93.5
14
実験結果(2) 2方向における音響伝達特性の時間変化(音声:aisatsu) 発話区間は0.35 ~ 1.05 [sec] MFCC-2
15
実験結果(3) それぞれの方向,混合数における識別率の比較 90deg.より音声が到来した場合に,130deg.と誤識別されることが多い!
16
誤識別の原因の考察(1) 音響伝達特性モデルの比較 単一正規分布における,方向毎の平均と分散の比較 ・低次元では90deg.の分散が大きく,
大きい. → 90deg.における正解率の低さ, 130deg.への誤識別の多さの原因? ・90deg.の平均値は他の2方向と 比較して,特に異なっている. ・ある次元においては,3方向の 平均値がほぼ等しく,別の次元では 全く違うといった状況が見受けられる.
17
誤識別の原因の考察(2) 音響伝達特性モデルの比較 単一正規分布における,方向毎の平均と分散の比較 残響なし
・残響がない場合には,方向毎の平均と分散の違いが ほとんど見受けられない. → 残響・反射といった要素が,方向毎の音響伝達特性を 特徴付けている?
18
まとめ 様々な状況において,音源方向推定技術は必要とされている.
到来信号の時間差,強度差などを用いた従来の推定方法では, 複数のマイクロホンという条件が必要不可欠だった. 単一マイクロホンによる音源方向推定法を提案 クリーン音声GMMとEMアルゴリズムを用いて,観測された音声から 音響伝達特性を推定 各方向の音響伝達特性モデルを作成 入力音声から音響伝達特性を推定し,これらのモデルと比較して, 最も尤度が大きかった方向を到来方向として出力する. 評価実験より,単一マイクロホンによる音源方向推定の可能性を提示
19
今後の課題 方向数の増加,角度幅の縮小 文章による学習・テスト 指向性マイクロホンの導入 識別方法の工夫
現在はまだ3方向,角度の幅も40deg.,60deg.と開いている 文章による学習・テスト 単語単位では短すぎて安定しないのではないか? → モデルの分散増加 指向性マイクロホンの導入 無指向性マイクロホンと識別率を比較 識別方法の工夫 LDA,SVM,AdaBoostの導入etc. 正解率の向上
20
Thank you very much for your attention!!
23
補足資料
24
実験結果:補足(1) 各方向におけるインパルス応答の比較 残響時間 300 [ms] の場合 30deg. 90deg. 130deg.
25
実験結果:補足(2) 各方向におけるインパルス応答の比較 残響時間が無しの場合 30deg. 90deg. 130deg.
26
マイクロホンアレー * 今回の実験では,20番のマイクロホンのインパルス応答を使用
*
27
実験機材の詳細 * *
28
無響室 * *
29
インパルス応答の畳み込み ドライソース(本来発声した原音)にある部屋で測定したインパルス応答を畳み込むと, その部屋で発生したかのように再現することができる. このままだと計算量が膨大なので…
30
MFCC(Mel Frequency Cepstrum Coefficient)
音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale) 周波数の対数におおよそ対応 人間の周波数に対する音の高さの感覚 低周波数 → 細かい 高周波数 → 粗い レベル ・・・ ・・・ メル周波数 各帯域フィルタの出力 と, 離散コサイン変換(DCT)を用いて,MFCC係数が計算される.
31
EMアルゴリズム 観測データをxとすると,HMMにおける状態遷移のような直接観測できないデータyが存在する場合に,xの尤度を最大にするようなモデルパラメータθを求めるときなどに用いる. 実際には観測不可能なyが関係しているため,上式は容易には解けない. そこで,式で解けるように以下のようなQ関数を定義する. EMアルゴリズムのステップ パラメータ の初期値を設定 関数の最大にするような を選択 を で更新 収束条件を満たしていれば終了.そうでなければ2に戻る.
33
Template template
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.