尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討

Slides:



Advertisements
Similar presentations
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
Advertisements

Building text features for object image classification
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
ガウス誤差関数を利用した 収束の速いヒルベルト変換ディジタルフィルタ
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
第7回 フィルタとは.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
デザイン情報学科 メディア情報設計 河原英紀
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
実橋のPC桁における鋼線破断のAE による連続モニタリング 日本フィジカルアコースティクス(株) 湯山茂徳、李 正旺 NIPPON WA
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討 尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討 3-P-6 古賀健太郎(神戸大,富士通テン),滝口哲也,有木康雄(神戸大) 研究背景・従来手法 < 適応フィルタを用いる場合> マルチスピーカ対応音響エコーキャンセラのモデル 適応フィルタ+ 2ch参照信号 xR hR’(i) スピーカ FR スピーカ RR   <背景>    (Rch)   h’FR(i) h’RR(i) 音声 認識 エン ジン 走行 雑音  ?? 目的地 設定 音楽 ‐ 参照信号 (音楽) 音声 s 音声認識 エンジン + - - hFR(i) hRR(i) ‐ (Lch) (Rch) hL’(i) + + 両方同じ特性に 収束 音声 s 話者 s(i) ^ - - y(i) 参照信号  (音楽)  ŝ(i) =y(i)–xR{h’FR(i)+h’RR(i)}-xL{h’FL(i)+h’RL(i)} 適応フィルタ+ 1ch参照信号 h’FL(i) h’RL(i) hFL(i) hRL(i) (Lch) h’(i) 音声 認識 エン ジン (Rch) 音声の SN向上 ↓ 認識率UP ‐ 参照信号  (音楽)  音声 s 車内のカーナビ操作のための 音声認識システムにおいて マイクに入る 音響エコー ・ 走行雑音の 除去を行い、 音声認識率を確保する アルゴリズムの開発 スピーカ FL スピーカ RL + xL (Lch) フィルタ入力とスピーカ出力の 参照信号が等しく無い 課題 車内の伝達特性の推定方法 反射、車内オブジェクト配置等 伝達特性を変える要素が多い車内では エコーキャンセル性能が上がらない 車内の伝達特性のモデル化 → 誤差学習で推定するのではなく、予め測定する 研究内容 伝達特性の測定 (尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラ) xR 様々な車内状況 (今回は人の配置が異なる下記12通り) においてインパルス応答を測定 i=1 i=2 i=12 スピーカ FR スピーカ RR h’FR(1) h’RR(1) h’FR(2) h’RR(2) h’FR(12) h’RR(12) i = 1 i = 2 i = 3 i = 4 i = 5 i = 6 i = 7 i = 8 i = 9 i = 10 i = 11 i = 12 - - ŝ(1) =y(i)–xR{h’FR(1)+h’RR(1)}- xL{h’FL(1)+h’RL(1)} hFR(i) + + - - hRR(i) - - (Rch) + + ŝ(2) =y(i)–xR{h’FR(2)+h’RR(2)}-   xL{h’FL(2)+h’RL(2)} - - 音声 s 12通りの キャンセル結果 話者 y(i) - - 参照信号 (音楽) + + ŝ(12) =y(i)–xR{h’FR(12)+h’RR(12)}- xL{h’FL(12)+h’RL(12)} - - s(1) ^ s(2) ^ s(12) ^ hFL(i) hRL(i) (Lch) h’FL(1) h’RL(1) h’FL(2) h’RL(2) h’FL(12) h’RL(12) MFCC 特徴量計算 < i=1の場合 > スピーカ FL スピーカ RL (FR) (RR) h’RR(1) xL h’FR(1) S(1) ^ S(2) ^ S(12) ^ M M M h’FL(1) s(î) ^ 音声認識 エンジン h’RL(1) (音声尤度最大のキャンセル結果) 音声尤度を最大とする î の選択 (FL) (RL)  測定したインパルス応答を   フィルタとして用いる 尤度最大化基準によるキャンセル結果の選択 【 インパルス応答測定環境 】 想定環境が実環境にミスマッチ :推定精度低 エコー消し残し多 → 音声尤度低 MFCC特徴量計算 エコーキャンセル結果 ŝ(1), ŝ(2), … , ŝ(12) の時間波形に対し 高域強調 → FFT → n次元メルフィルタバンク処理 → 出てきた値の対数を離散コサイン変換 側面 (5人乗車,i =12) を行った結果出てくる特徴量 :  Ŝ(1), Ŝ(2), … , Ŝ(12) 音声尤度を最大とする î の選択 W P(ŜM(i)) = ΣλwN(ŜM(i);μ,σw) w=1 想定環境と実環境が一致 :推定精度高 エコー消し残し少 → 音声尤度高 λw:重み係数 Σ1Wλw dw = 1 運転席 音声尤度 (あらかじめ準備している)話者音声のGMM(Gaussian Mixture Model) λsに対し (マイク) î = argmax P(ŜM(i)|λS )     i となる ŝ(î) を最終結果とする 評価・結果 ・ 参照信号に(状況 i で測定した)インパルスを畳み込み、音声を足し合わせてシミュレーション観測信号 y(i) とする ・ y(i)をキャンセルした結果のSN値(dB)の平均を求める  ※本シミュレーション実験では      「状況 i のインパルスを畳み込んだ観測信号y(i)に対し状況 i の伝達特性を用いたキャンセル結果を、音声尤度最大として選択できた」場合を     「正しい伝達特性を選択できた」ものとして定義する    (参考) 尤度最大化基準による、正しい伝達特性の選択率     【 評価データ 】 実験結果(値はdB) (dB) (%) 話者 10名 文章 10文 信号の周波数 16kHz 畳み込むインパルス長 1365 インパルス測定車種 will サイファ 【 尤度最大化キャンセラの条件 】 (話者ID) フィルタのタップ長 1200 GMM学習に用いた話者数 1名(特定話者) GMM学習の文章数 50文 GMMの混合数 32 MFCCの次元数 16 MFCC特徴抽出のフレーム幅 32ms MFCC特徴抽出のシフト幅 8ms 全ての話者で伝達特性100%選択できているわけではないが、全ての話者で100%選択できた場合と比べてSNの改善度は0.20(dB)しか違わないので、尤度選択率は現状でも差し支えないと考察できる 今後の予定 音声認識率の測定 想定する状況を増やして検証 実環境で収録した観測信号を用いた実験 アルゴリズム全体の効率化