音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討

Slides:



Advertisements
Similar presentations
母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
音響モデルを利用したシングルチャネルに よる音源方向推定
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
デジタル信号処理④
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
ガウス過程による回帰 Gaussian Process Regression GPR
非負値行列因子分解による 構音障害者の声質変換
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
Specmurtを利用した調波構造行列による 混合楽音解析の検討
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討 音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討 1-Q-17 古賀健太郎,滝口哲也,有木康雄(神戸大) 研究背景・目的 問題設定・アプローチ 適応フィルタ h’(i) は4つのエコーパスをまとめて推定するため、キャンセル結果が十分に収束しない  そこで、4つの固定フィルタで,4つのエコーパスを独立に推定する カーナビのタッチパネル操作は,わき見運転による交通事故を誘発 音声ならば,わき見運転することが無い しかし,車内では雑音が音声認識用マイクに混入し認識率が低下 マルチスピーカ(スピーカ数:4)からの音楽雑音(2ch)が,1chマイクで観測されるモデルにおいて,観測信号y(i)のSNを向上 車内などの環境で,  マイクで観測される雑音を除去し  音声認識率を確保する  音響エコーキャンセラの研究 y(i)のSN向上には xR*hFR (i)+xR*hRR(i)+ xL*hFL(i)+xL*hRL(i) を正確に推定してy(i)からキャンセルする必要あり 音響尤度を用いたマルチスピーカ音響エコーキャンセラ 環境 i は変化 推定したい環境の数Nだけ固定フィルタを準備 実環境 i {i=1,2,…,N}でインパルス応答を測定し 各エコーパスに対応した固定フィルタ h’FL(i), h’FR(i), h’RL(i),h’RR(i) {i=1,2,…,N} とする 音声尤度低いクリーン音声候補 音声尤度高いクリーン音声候補 参考:インパルス応答を測定した実環境 推定環境と,観測信号測定環境が 合っているため 音響雑音消し残しが少ない 推定環境と,観測信号の測定環境が ミスマッチのため 音楽雑音消し残しが多い こちらを選択 < 全体図 >  推定したい環境N通りのキャンセルを行いN個のクリーン音声候補を算出 (1) MFCC特徴量計算 (2) 音声尤度最大の î の計算 クリーン音声候補ŝ(1), ŝ(2), … , ŝ(N) の時間領域波形に対し ŜM(1), ŜM(2), … , ŜM(N) と 音声のGMMψ={λ, μ, σ} より 音声尤度 P(ŜM(1)|ψ ), P(ŜM(2)|ψ ), …, P(ŜM(N)|ψ ) を計算し i=1 i=2 i=N xR 高域強調 → FFT → n次元メルフィルタバンク処理 → 出てきた値の対数を離散コサイン変換 (FRスピーカ) (RRスピーカ) h’FR(1) h’RR(1) h’FR(2) h’RR(2) h’FR(N) h’RR(N) hFR(i) hRR(i) î = argmax P(ŜM(i)|ψ )      i (Rch) y(i) S - + - + MFCC特徴量 ŜM(1) , ŜM(2), … , ŜM(N)  を算出 参照信号 (音楽) となる ŝ(î) を,求めるクリーン音声 ŝ とする - + - + (観測信号) (音声) i (Lch) hFL(i) 音声尤度 - + - + (室内環境) W P(o) = ΣλwN(o ;μw ,σw) w=1 hRL(i) xL  λw:重み係数   Σ1Wλw dw = 1 音声特徴量 o の重みつき混合正規分布 h’FL(1) h’RL(1) h’FL(2) h’RL(2) h’FL(N) h’RL(N) (FLスピーカ) (RLスピーカ)  < 実験条件> <SN評価結果> ŝ(1) ŝ(2) ŝ(N) クリーン音声候補 N個のクリーン音声候補のうち 音声尤度最大の候補を選択 SNR(dB)  環境 i ( 物の配置が異なる環境(8通り) ) ŝ(1) ŝ(2) ŝ(N) 音声の GMM ψ={λ, μ, σ} (1)MFCC 特徴量計算 ŝ(1) ŝ(2) ŝ(N) ŜM(1) ŜM(2) ŜM(N) 観測信号(※)のパラメータ 提案手法のパラメータ î 番目の クリーン音声候補を 選択 î 音声sの話者 5名 発話文章数 20 標本化周波数 16kHz 観測した環境i 1~8 固定フィルタで推定した環境I 1~8 固定フィルタのタップ長 1200 GMM学習に用いた話者数 1名(特定話者) GMM学習の文章数 20 GMMの混合数 32 MFCCの次元数 16 MFCC特徴抽出のフレーム幅 32ms MFCC特徴抽出のシフト幅 8ms キャンセル無し 【ベースライン】  適応フィルタによる  キャンセラ 【NLMS(学習同定法)】    尤度最大化基準に基づく音響エコーキャンセラ【提案手法】 (2)音声尤度最大の î の計算  ŝ(î) (クリーン音声) 従来手法(NLMS)のパラメータ 音声認識 エンジン 適応フィルタのタップ長 1200 ※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号 推定環境を減らす検討  ・ 環境1と2の片方、環境4と5の片方、環境6と8の片方を推定に使う  ・ 環境3と7は必ず推定に使う  物の配置が異なる環境8通りに対し、5通りの環境で推定する  提案手法は、推定する環境が多くなればなるほど計算に時間がかかる欠点がある。そこで、推定する環境を減らす検討を行う。 <SN評価結果>  < 実験条件> 環境oで観測した信号y(o)に対し,同じ環境oを推定した固定フィルタh’(o)を用いなかった場合(未知環境の場合),同じ環境oを推定した固定フィルタh’(o)を用いている場合と比べて,SN改善効果が小さい (右グラフ黄色の帯)  環境 i ( 物の配置が異なる環境(8通り) ) 観測信号(※)のパラメータ 提案手法のパラメータ 使用しなかった環境 o の代わりにどの環境 o が選択されているか調査 (表中の数値:%) ^ 音声sの話者 5名 発話文章数 20 標本化周波数 16kHz 観測した環境i 1~8 固定フィルタで 推定した環境I (※2) i={1or2, 3, 4or5, 6or8, 7} 固定フィルタのタップ長 1200 GMM学習に用いた話者数 1名 (特定話者) GMM学習の文章数 20 GMMの混合数 32 MFCCの次元数 16 MFCC特徴抽出のフレーム幅 32ms MFCC特徴抽出のシフト幅 8ms キャンセル無し 【ベースライン】   適応フィルタによるキャンセラ 【NLMS(学習同定法)】   選ばれた環境o 実際の環境 o 1 2 3 4 5 6 7 8 95 85 10 30 55 25 75 70 20 15 ^  尤度最大化基準に基づく 音響エコーキャンセラ 【提案手法、環境iが既知の場合】 o = 1 のとき95% の確率でh’(2) 選択 o = 2 のとき90% の確率でh’(1) 選択 o = 4 のとき75% の確率でh’(5) 選択 o = 5 のとき70% の確率でh’(4)選択 o = 6 のとき85% の確率でh’(8) 選択 o = 8 のとき95% の確率でh’(6)選択 尤度最大化基準に基づく 音響エコーキャンセラ 【環境iが未知の場合】 ※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号 尤度最大化基準に基づく 音響エコーキャンセラ 【環境iが一部未知の場合】 (5通りの推定の組合せ8パターンの平均) ※2 5通りの推定の組み合わせは( i={(1,3,4,6,7),(1,3,4,7,8),(1,3,5,6,7),(1,3,5,7,8),(2,3,4,6,7),(2,3,4,7,8),(2,3,5,6,7),(2,3,5,7,8)})の8パターン  8通りの環境による推定(環境iが既知)と比べるとSN改善効果は小さくなるが、  環境iが未知の場合と比べるとSN改善効果は高い   5通りの環境による推定(環境iが一部未知)でも十分な音楽キャンセル性能を出せる h’(1)とh’(2) 、 h’(4)とh’(5) 、 h’(6)とh’(8)は、それぞれ似た環境