音響伝達特性を用いたシングルチャネル音源方向推定

Slides:



Advertisements
Similar presentations
高精度画像マッチングを用いた SAR衛星画像からの地表変位推定
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
クロストーク成分の相互相関に 着目した音場再生システム
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ランダムプロジェクションを用いた 音声特徴量変換
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
羽佐田葉子 2007年3月24日 アクロス研究会@静岡大学
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
前回の内容 結晶工学特論 第5回目 Braggの式とLaue関数 実格子と逆格子 回折(結晶による波の散乱) Ewald球
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
大気レーダーのアダプティブクラッタ 抑圧法の開発
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
第7回 フィルタとは.
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
多重ベータ分布を用いた音色形状の数理モデリングによる
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
ディジタル信号処理 Digital Signal Processing
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
両端単純支持梁の フィードフォワード外乱抑制制御系における 指向性アクチュエータの効果
Number of random matrices
文化財のデジタル保存のための 偏光を用いた透明物体形状計測手法
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
ディジタル信号処理 Digital Signal Processing
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第 5 章 :周波数応答 5.1 周波数応答と伝達関数 周波数伝達関数,ゲイン,位相 キーワード : 5.2 ベクトル軌跡 ベクトル軌跡
音響特徴量を用いた自閉症児と定型発達児の識別
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音響伝達特性を用いたシングルチャネル音源方向推定 3-P-23 アクティブマイクロフォンによる 音響伝達特性を用いたシングルチャネル音源方向推定 高島遼一,滝口哲也,有木康雄 (神戸大) 研究の背景 アクティブマイクロフォン Parabolic reflector 従来の音声を用いたインターフェース マイクは位置や向きが変わらず常に固定されている. 人間の場合… 様々な状況に合わせて耳の位置や方向を変えている. Microphone 研究の目的   マイクが動くことによってどのような利点が得られるか? Rotation manually Signal 従来の音源方向推定法   固定されたマイクロフォンアレーによって各マイクロフォンにおける   観測信号の位相差から音源方向を推定 1 90 deg 120 deg 150 deg 180 deg 反射板と無指向性マイクロフォンが一緒に回転し,各方向での観測信号を比較することにより,音源方向を検出する. 30-channel arrays 32-channel arrays パラボラ反射板 k-meansによる音源方向の検出 放物面の正面から信号が到来している場合 観測信号の音響伝達特性は,反射板が音源方向を向いたときのみ異なった値となる. 反射波は全て焦点に向かう O 角度毎の伝達関数をk-meansにより,音源方向の伝達関数と音源方向以外の伝達関数にクラスタリングする. Focal point (Microphone) Parabolic surface そのとき,属するデータの数が少ない方の クラスを音源方向クラスとし,そのクラスのデータに対応する角度を音源方向として出力する. 音源方向の平均ベクトル 焦点における観測信号 :直接波 :反射波 (n>0) :クリーン音声 音源方向以外の平均ベクトル :インパルス応答 :時間差 音響伝達特性の推定 観測信号はケプストラム領域においてはクリーン音声と音響伝達特性の加算によって表される. ただし,実際の環境ではSは観測できないため,代わりにクリーン音声のGMM (Gaussian mixture model)を作成しておき,Oに対して,そのGMMの尤度が最大となるようにHを推定する. :反射板に依存しない伝達関数 :反射板により追加される伝達関数 正面以外の方向から信号が到来している場合 反射波が焦点に向かうことはない 焦点における観測信号 Focal point (Microphone) 逆フーリエ変換して移項 [3] 住田他,”単一マイクロホンを用いた音響伝達特性の尤度判定による音源位置推定”,音講論 (春),1-P-8,pp. 771-772,2008. 評価実験 まとめ 音響伝達特性(H)のMFCC1次元目と2次元目のプロット 実験条件 これまで固定されていたマイクに, 「動く」という概念を加えることによって,通常複数のマイクが必要であった 音源方向推定をマイク一つで行うことが 可能となった. mic. with reflector Cepstral coefficient (MFCC 2rd order) Cepstral coefficient (MFCC 2rd order) 2m 今後の課題 実際の使用では角度毎の入力音声が 異なる 角度毎に収録する必要があるため, できるだけ早い収録時間での推定が 必要 部屋の残響に対する頑健性の調査 また,音源方向推定だけでなく,雑音 除去や音源分離などへの応用につい ても研究を行う. speaker Cepstral coefficient (MFCC 1st order) Cepstral coefficient (MFCC 1st order) 正解のSを与えてHを求めた場合 クリーン音声GMMによりHを推定した場合 音源方向:90° 音源距離:2m マイクの角度:30°~150°の7方向 反射板:直径24cm,焦点距離9cm 特徴量:MFCC(16次元) サンプリング周波数:16kHz データ長:1秒 データ数:300セグメント クリーン音声GMM:64混合 GMMに用いたデータ数:50文 音源方向クラスとして検出された割合(MFCC 1,2次元目を使用) 正解のSを与えてHを求めた場合 クリーン音声GMMによりHを推定した場合