音響モデルを利用したシングルチャネルに よる音源方向推定

Slides:



Advertisements
Similar presentations
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
Advertisements

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
大気レーダーのアダプティブクラッタ 抑圧法の開発
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
音声合成.
各会話シーン毎に、発話(音源)方向を推定
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
国際情報通信研究科 山崎研究室 修士2年 荻野 晃史
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音響モデルを利用したシングルチャネルに よる音源方向推定 06/12/15 電子情報通信学会 応用音響研究会 住田 雄司,滝口哲也,有木康雄(神戸大) ~と題しまして,神戸大学の住田が発表させていただきます.

発表の流れ 研究背景 従来手法 提案手法 評価実験 まとめ,今後の課題 音源方向推定の目的 マイクロホンアレーによる音源方向推定 従来手法の問題点 提案手法 単一マイクロホンによる音源方向推定 評価実験 提案手法による評価実験と考察 まとめ,今後の課題 今回の発表のアウトラインはこのようになっております. まず研究背景としまして,音源方向推定の目的について説明いたします. その後に,従来手法としまして,マイクロホンアレーを用いた音源方向推定手法とその問題点について述べたいと思います. そして,単一マイクロホンによる提案手法を紹介させていただき,この手法を用いた評価実験の結果と考察を述べたいと思います. そして最後にまとめと今後の課題について述べたいと思います.

さまざまな状況において,音源方向推定の技術が必要とされている! 研究背景 音源方向推定の目的 指向性マイクロホンを用いた目的音の強調 発話者方向にマイクロホンの指向性を形成 ノイズ方向にマイクロホンの死角を形成 話者方向の推定 ロボットの対話 会議システム 環境の認識 音源の探査 移動物体の検出 ではまず,研究背景について説明いたします. 音源方向推定の目的としまして,まず指向性マイクロホンを用いることによる目的音の強調が挙げられるかと思います. 発話者の方向が推定できますと,その方向からやってくる音のみを強調することができるようになります. 一方,それとは逆にノイズ方向が推定できますと,ノイズを打ち消すような死角を形成することにより,結果として目的音を強調することができるようになります. 続いて話者方向の推定ですが, 自然に対話をするときには,話者の方向がわかっていることが必要不可欠だと思います. そのため,対話ロボットには話者方向推定技術が必要になってくると思います. また,会議システムなどにおいても誰がどの方向から話しているのかという情報は大変重要であると思います. 環境の認識としましては,例えば災害時などに,どのような音がどの方向から聞こえてくるのか,どの方向からどの方向へ移動しているのかという情報を取得することが現場を認識するために必要となってきます. このように,さまざまな状況において音源方向推定の技術は必要であるという風に言うことができると思います. さまざまな状況において,音源方向推定の技術が必要とされている!

従来手法(1) 時間差の情報を用いた音源方向推定 例;2つのマイクロホンを用いて,θ方向からの信号を受信 従来手法としまして,時間差の情報を用いた音源方向推定手法について説明いたします. 相関関数を最大にする時間差τとマイク間距離 d から,信号の到来方向θを求める.

従来手法(2) 強度差の情報を用いた音源方向推定 例;2つのマイクロホンを用いて,θ方向からの信号を受信 [1] 強度差の情報を用いた音源方向推定 例;2つのマイクロホンを用いて,θ方向からの信号を受信 deg. 5dB/div. 例;カージオイド指向性 指向性マイクロホンを用いて,方向別の強度差から,信号の到来方向θを求める. [1]羽入敏樹他, “複数の指向性マイクロホンの方向別感度差を利用した音源探査,” 音講論, 3-9-3, pp.781-782, 2006-3

従来手法の問題点 複数のマイクロホンを用いてアレーを形成.これにより生じる到来信号の 時間差・強度差の情報により方向を推定していた. 複数のマイクロホンが 必要不可欠! 単一マイクロホンで方向推定ができれば… コスト削減 マイクロホンの設置は容易 信号の同期を取らなくてもよいetc. 本研究では,単一マイクロホンに よる音源方向の推定を目指す! ウェアラブルなどの超小型の世界,産業におけるコスト重視の 世界では,とりわけ単一マイクロホンであることが重要といえる.

提案手法の概要 どのようにして単一マイクロホンで音源方向を推定するのか? 到来信号の時間差・強度差といった情報は使えない! 予め,方向ごとの音響伝達特性モデルを 作成しておく.入力音声があれば,そこから音響伝達特性を推定し,各モデルと比較を行う.最も尤度が大きかった方向を到来方向として出力する. θ方向より到来する音声から,どのようにして音響伝達特性を推定するのか? クリーン音声モデル(e.g. Gaussian Mixture Model) → 予め学習しておくことが可能 EMアルゴリズム(Expectation Maximization)  を用いて,θ方向からの音響伝達特性を推定.

音響伝達特性の推定(1) S H O Acoustical transfer function Clean speech Observed speech S H O 対象とする環境のモデル OとSが分かれば,Hは推定可能 実際の場面では,クリーンな音声信号を観測することはできない! Sの代わりに,予め準備可能なクリーン音声モデルを用いて,ケプストラム領域において尤度最大基準に基づきOからHを分離する.

音響伝達特性の推定(2) [2] 音響伝達特性の時系列データを,観測信号に対して,そのモデルの尤度が最大となるようにして求める. こちらの(2ページ前のEMアルゴリズムの資料)Q関数に照らし合わせて, 音響伝達特性Hに関する項にのみ注目すると,このようにQ関数を書くことができます. Q関数を最大にするHは,この式を偏微分して解くことにより,求めることができます. [2]A.Sankar and C-H.Lee, “A maximum-likelihood approach to stochastic matching for robust speech recognition,” IEEE Trans. Speech and Audio Processing,vol.4, no.3, pp.190-202, 1996.

提案手法のフローチャート Train Test 各方向からの音声入力(数単語) ある方向から音声が到来 クリーン音声GMMを用いて, 尤度最大基準により音響伝達特性を推定 各方向における音響伝達特性GMMを構築 ・入力の音響伝達特性と,各方向における音響伝達特性GMMを比較. ・最も尤度が大きかった方向  を出力.

評価実験 実験環境 パラメータ 音声データと音響モデル ドライソースにインパルス応答を畳み込んで実環境をシミュレーション 30deg.,90deg.,130deg. 3方向のうちの1方向より音声が到来する. 予め各方向のモデルを作成しておき,到来方向の判別を行う. パラメータ 音声データと音響モデル 話者 特定話者(男性1名) クリーン音声の音響モデル GMM(64混合) 音響伝達特性の音響モデル GMM(1,2,4混合) クリーン音声の学習データ 2620単語 音響伝達特性の学習データ 10単語 テストデータ 1000単語 サンプリング周波数 12 [kHz] 窓関数 Hamming 窓の長さ 32 [ms] フレームシフト 8 [ms] 特徴量 MFCC(16次元)

実験室 * 音源とマイクロホンの 距離: 2 [m] 残響時間: 300 [ms] *http://tosa.mri.co.jp/sounddb/micarray/index.htm

実験結果(1) 方向別,混合数別の正解率 [%] 1 Mixture 2 Mixtures 4 Mixtures 30deg. 89.5 91.9 88.1 90deg. 18.0 58.9 67.0 130deg. 96.1 95.2 94.2 2方向(30deg.,90deg.)に限定した場合 1 Mixture 2 Mixtures 4 Mixtures 30deg. 100 90deg. 62.9 89.5 93.5

実験結果(2) 2方向における音響伝達特性の時間変化(音声:aisatsu) 発話区間は0.35 ~ 1.05 [sec] MFCC-2

実験結果(3) それぞれの方向,混合数における識別率の比較 90deg.より音声が到来した場合に,130deg.と誤識別されることが多い!

誤識別の原因の考察(1) 音響伝達特性モデルの比較 単一正規分布における,方向毎の平均と分散の比較 ・低次元では90deg.の分散が大きく, 大きい.  → 90deg.における正解率の低さ, 130deg.への誤識別の多さの原因? ・90deg.の平均値は他の2方向と 比較して,特に異なっている. ・ある次元においては,3方向の 平均値がほぼ等しく,別の次元では 全く違うといった状況が見受けられる.

誤識別の原因の考察(2) 音響伝達特性モデルの比較 単一正規分布における,方向毎の平均と分散の比較 残響なし ・残響がない場合には,方向毎の平均と分散の違いが ほとんど見受けられない.  → 残響・反射といった要素が,方向毎の音響伝達特性を 特徴付けている?

まとめ 様々な状況において,音源方向推定技術は必要とされている. 到来信号の時間差,強度差などを用いた従来の推定方法では, 複数のマイクロホンという条件が必要不可欠だった. 単一マイクロホンによる音源方向推定法を提案 クリーン音声GMMとEMアルゴリズムを用いて,観測された音声から 音響伝達特性を推定 各方向の音響伝達特性モデルを作成 入力音声から音響伝達特性を推定し,これらのモデルと比較して, 最も尤度が大きかった方向を到来方向として出力する. 評価実験より,単一マイクロホンによる音源方向推定の可能性を提示

今後の課題 方向数の増加,角度幅の縮小 文章による学習・テスト 指向性マイクロホンの導入 識別方法の工夫 現在はまだ3方向,角度の幅も40deg.,60deg.と開いている 文章による学習・テスト 単語単位では短すぎて安定しないのではないか?  → モデルの分散増加 指向性マイクロホンの導入 無指向性マイクロホンと識別率を比較 識別方法の工夫 LDA,SVM,AdaBoostの導入etc. 正解率の向上

Thank you very much for your attention!!

補足資料

実験結果:補足(1) 各方向におけるインパルス応答の比較 残響時間 300 [ms] の場合 30deg. 90deg. 130deg.

実験結果:補足(2) 各方向におけるインパルス応答の比較 残響時間が無しの場合 30deg. 90deg. 130deg.

マイクロホンアレー * 今回の実験では,20番のマイクロホンのインパルス応答を使用 *http://tosa.mri.co.jp/sounddb/micarray/index.htm

実験機材の詳細 * *http://tosa.mri.co.jp/sounddb/micarray/index.htm

無響室 * *http://tosa.mri.co.jp/sounddb/micarray/index.htm

インパルス応答の畳み込み ドライソース(本来発声した原音)にある部屋で測定したインパルス応答を畳み込むと, その部屋で発生したかのように再現することができる. このままだと計算量が膨大なので…

MFCC(Mel Frequency Cepstrum Coefficient) 音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale) 周波数の対数におおよそ対応 人間の周波数に対する音の高さの感覚 低周波数 → 細かい 高周波数 → 粗い レベル ・・・ ・・・ メル周波数 各帯域フィルタの出力   と, 離散コサイン変換(DCT)を用いて,MFCC係数が計算される.

EMアルゴリズム 観測データをxとすると,HMMにおける状態遷移のような直接観測できないデータyが存在する場合に,xの尤度を最大にするようなモデルパラメータθを求めるときなどに用いる. 実際には観測不可能なyが関係しているため,上式は容易には解けない. そこで,式で解けるように以下のようなQ関数を定義する. EMアルゴリズムのステップ パラメータ  の初期値を設定       関数の最大にするような  を選択   を  で更新 収束条件を満たしていれば終了.そうでなければ2に戻る.

Template template