音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討
電子情報通信学会　音声研究会 2011年1月27, 28日高島遼一，滝口哲也，有木康雄神戸大学大学院

研究背景音源位置推定技術の役割従来の音源位置推定法音声強調・雑音抑圧のための前処理対話ロボット，会議システム，etc.
複数のマイクを用いて観測される信号間の位相差を利用：時間差：音速 d マイクロホンアレー（マイク数32）

研究目的単一マイクで音源位置推定は行えるか？提案手法システムの縮小化，複数マイクの手法との複合研究目的：
音響伝達特性を用いた単一チャネル音源位置推定法研究目的：位相差などのマイク間の情報を用いない，単一マイクでも行える音源位置推定の実現

アプローチ位置B S HB O HA 位置A S 音声Sは，マイクで観測されるまでに，音声の減衰や残響等の影響を受ける音響伝達特性
Microphone HA 位置A S 音響伝達特性音声Sは，マイクで観測されるまでに，音声の減衰や残響等の影響を受ける音響伝達特性音響伝達特性は，音源の位置ごとに異なる特性をもつあらかじめ音源位置毎の音響伝達特性を学習しておけば，評価音声についてもその音響伝達特性を識別することで音源位置を推定できる

提案手法の流れ STEP１：音響伝達特性の推定観測信号Oから音響伝達特性Hを推定する STEP２：音響伝達特性の識別
ステップ１ステップ２音源位置学習データ観測信号Oから音響伝達特性H を推定する学習 (SVM) 音響伝達特性を識別 (SVM) 単一マイク評価データ識別結果 STEP１：音響伝達特性の推定観測信号Oから音響伝達特性Hを推定する STEP２：音響伝達特性の識別推定された音響伝達特性をSVM (Support Vector Machine)で学習識別する

音響伝達特性の推定

観測信号の定式化処理は全てMFCC領域で行われる
時間領域短時間フーリエ変換周波数領域対数変換離散コサイン変換ケプストラム領域未知統計モデル化モデル領域処理は全てMFCC領域で行われる実際の環境ではSは未知であるため，Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する． SはHMM (Hidden Markov Model)でモデル化する

音響伝達特性の推定（1/2) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる
Q関数の同時確率　　　　　　　　　　　　は、以下のように展開される

音響伝達特性の推定（2/2) ケプストラム領域での O = S + H という仮定より状態b(n),混合要素c(n) におけるOの確率分布
クリーン音声の正規分布が HだけシフトされたこれらをQ関数に代入し、を解く

音響伝達特性推定の流れ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う・・・
音響伝達特性を推定音素認識認識結果(ラベル) i, k, i, o, i クリーン音声の音素HMM (a) (i) ・・・ (u) 音素HMMを連結連結HMM (i) (k) ・・・ (o) 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する

音響伝達特性の識別

MFCC各次元の中には、その位置のインパルス応答の影響を強く受ける次元と、そうでない次元が存在する
クラスごとに異なる特徴量重みの決定 MFCC各次元の中には、その位置のインパルス応答の影響を強く受ける次元と、そうでない次元が存在する影響の大小は、音源の位置によって多少異なるクラス(音源位置)毎に異なる特徴次元の重み付けクラスごとの次元重みをMKL (Multiple Kernel Learning) を用いて学習し、SVM (Support Vector Machine) で識別を行う

SVMによるクラス識別とカーネル関数 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。
高次元空間での内積を様々な種類のカーネル関数、パラメータで表現（カーネルトリック）カーネル関数の例 :写像関数 D次元特徴ベクトル高次元特徴ベクトル内積カーネル関数多項式カーネルガウシアンカーネル

MKL (Multiple Kernel Learning) (1/3)
複数のサブカーネルを線形結合し、新たなカーネル関数を作成する手法各サブカーネルの重みβは，一般的にSVMの枠組み(マージン最大化)で学習される．通常のSVM MKL-SVM

基本的な使い方通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを自動的に重み付けしてくれる MKL-SVM 従来の単一カーネルSVM

応用・・・特徴量統合における特徴量重みの学習提案法・・・音響伝達特性MFCCの次元重み付けへの利用 M. Varma, et al., ICCV 2007 x = ・・・・・・特徴ベクトルa 特徴ベクトルb 特徴ベクトルc + + + ・・・音響伝達特性の特定の次元通常のMKL-SVM 提案手法におけるMKL-SVM

実験環境音声データ観測信号データ ATR研究用音声データベースより男声話者１名
RWCP実環境音声・音響データベースで収録されたインパルス応答をクリーン音声に畳み込んで作成（特定話者実験）残響時間：300 msec (残響可変室) 音源方向：30, 90, 130° (3クラス識別) 音源距離：一律約2m 6,660 mm ：sound source ：microphone 3,120 mm 4,180 mm 4,330 mm

分析条件特徴量音響伝達特性の推定位置の識別 MFCC：16次元
サンプリング周波数：12kHz　窓幅：32 msec　フレームシフト：8 msec 音響伝達特性の推定クリーン音声の学習データ数： 2620単語音素数：54　HMMの状態数：3　混合数：32 位置の識別学習データ数：50単語　テストデータ数：1000単語 SVMのカーネル関数: ガウシアンカーネル SVMの学習誤りに対する重み係数C：1 カーネル関数のパラメータ：実験的に決定

比較手法 GMM（混合数8）による識別と、従来のSVM、提案手法で比較提案手法については、次元毎に同じカーネルのパラメータを設定
次元毎に異なるカーネルのパラメータを設定の2種類の場合で比較従来の単一カーネルSVM 提案手法

実験結果提案手法による識別手法が従来のSVM、GMMを上回ったカーネル関数のパラメータを次元ごとに変化させることで、若干精度が向上

位置毎の次元重みと音響伝達特性の分布 Cepstral coefficient Cepstral order 30° 0.00 0.07
30°　　　　90°　　　　130° Cepstral coefficient Cepstral order 30° 0.00 0.07 0.08 90° 0.06 0.10 130° 0.01 0.11 位置毎の次元重み

マイクの位置のずれに対する頑健性の評価テスト時に、マイクの位置を学習時の位置からずらして収録して識別精度を測定
マイクの位置が10cmずれた時点で15～20％精度が低下学習時のマイクの位置 (0cm) テスト時のマイクの位置（10cm, 20cm)

まとめ次元ごとにサブカーネルを定義し、MKLで統合させることで、音響伝達特性MFCCの次元重みを自動的に学習させた
以前用いていたGMMによる識別や従来のSVMに比べて高い識別精度が得られた今後の課題収録環境が変化した場合、精度が大幅に低下収録環境の適応音響伝達特性の正確な推定

ご清聴ありがとうございました

位置毎の次元重みと音響伝達特性の分布 Cepstral coefficient Cepstral order
90°　　　　30° and 130° 130°　　　30° and 90° 30°　　　　90° and 130° 30°　　　　90°　　　　130° Cepstral coefficient Cepstral order 30° 0.00 0.06 0.07 0.08 90° 0.10 130° 0.01 0.05 0.09 0.11 位置毎の次元重み

２００ｃｍ１０ｃｍマイクロホンアレー音源位置実験に使用するマイク

RWCPデータベースより参照インパルス応答収録風景

音響伝達特性を分離せずに、観測信号だけで位置を学習した場合との比較
観測信号は、位置と無関係なテキスト情報の影響を受けてしまう

実環境での実験識別方法は、MKL-SVMではなく、GMMを使用残響時間約350 ms SN比約42 dB 音源距離 1.5 m
音源方向 40, 90, 130° 提案法（単一マイク）：87.6 % CSP法（2chマイク）：100% マイク間隔 30 cm

実環境実験の収録環境 1000 mm 1500 mm Table Desk 3170 mm 300 mm 1500 mm 6260 mm

0 cm 0 deg 15 cm 45 deg 30 cm 90 deg

スピーカーの位置が、学習時の位置からずれた場合
ずれ幅15cm 提案法： 87.6 %　⇒　59.4 %　(-28.2 %) CSP法： 100 %　⇒　100% ずれ幅 30cm 提案法： 87.6 %　⇒　54.1 %　(-33.5 %) スピーカーの位置は同じで、発話方向が異なる場合 45° 提案法： 87.6 %　⇒　80.3 %　(-7.3 %) 90° 提案法： 87.6 %　⇒　65.1 %　(-22.5 %) CSP法： 100 %　⇒　87.7%　(-12.3 %)

基本的な使い方通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを自動的に重み付けしてくれる応用・・・特徴量統合における重み付け βがそれぞれの特徴ベクトルの重みを表すことになる提案法・・・音響伝達特性MFCCの次元重み付けへの利用 M. Varma, et al., ICCV 2007 x = ・・・・・・色特徴ベクトルa 形特徴ベクトルb 勾配特徴ベクトルc + + + ・・・音響伝達特性の特定の次元

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

Similar presentations

Presentation on theme: "音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討

Similar presentations

Presentation on theme: "音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討"— Presentation transcript:

Similar presentations

About project

フィードバック

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

Presentation on theme: "音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討"— Presentation transcript: