音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定 日本音響学会 2011年秋季研究発表会 高島遼一,滝口哲也,有木康雄 神戸大学大学院
研究背景 話者の位置の推定 話者の頭部回転方向の推定 頭部回転方向推定の利用できるタスク 「誰が話しているのか」 「誰に向かって話しているのか」 頭部回転方向推定の利用できるタスク より詳細な状況理解 (会議システム等) 複数話者とロボットとの対話 雑談/システム要求の判別 呼びかけ (システム要求) 他人との会話
先行研究 マイクロホンアレー・ネットワークによる推定 複数のマイクロホンアレーを、話者を囲むように配置 各アレーから得られる音圧情報やCSPのピーク値など 左側のアレーのCSPの ピーク値や音圧が高くなる 低くなる 頭部方向 [7] A. Brutti, M. Omologo, and P. Svaizer, Proc. Interspeech05, pp. 2337-2340, 2005. [8] J. M. Sachar, and H. F. Silverman, Proc. ICASSP04, vol. 4, pp. 65-68, 2004.
研究目的 できるだけ少ないマイクアレー数で、話者の位置や頭部の回転方向を推定する アプローチ ( Previous work ) 音響伝達特性の識別によるシングルチャネル音源位置推定 位置によって異なる音響伝達特性を識別することで、音源の位置を パターン認識的に推定する 位置だけでなく、頭部の回転方向によっても音響伝達特性の差は生まれるのではないか 音源位置A 位置によって音響 伝達特性が異なる 音源位置B
提案手法の流れ 各音源位置、頭部の回転方向で発話された音声から音響伝達特性を推定 推定された音響伝達特性をSVMにより学習 音源位置: 頭部方向: 学習データ 観測信号Oから 音響伝達特性H を推定する 学習 (SVM) 音響伝達 特性を識別 (SVM) 単一マイク 評価データ 識別結果 各音源位置、頭部の回転方向で発話された音声から音響伝達特性を推定 推定された音響伝達特性をSVMにより学習 評価データの音声からも音響伝達特性を推定し、これを識別することでその音源位置と頭部回転方向を推定する
音響伝達特性の推定(1/3) 観測信号の定式化 時間領域 短時間フーリエ変換 周波数領域 対数変換 離散コサイン変換 ケプストラム領域 未知 統計モデル化 モデル領域 実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する. SはHMM (Hidden Markov Model)でモデル化する
音響伝達特性の推定の流れ ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う ・・・ 音響伝達特性を推定 音素認識 認識結果(ラベル) i, k, i, o, i クリーン音声の 音素HMM (a) (i) ・・・ (u) 音素HMMを連結 連結HMM (i) (k) ・・・ (o) 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する
実験環境 音声データ 収録環境 ATR研究用日本語音声データベースセットAより男性話者1名 音源距離:一律1.5m 音源方向:40°90°130° スピーカの回転方向:0°45°90° 残響時間:約350msec 回転方向:0° 45° 90° Microphones Loudspeaker 1000 1500 Table Desk 300 3170 6260 (単位はmm)
分析条件 特徴量 音響伝達特性の推定 位置・頭部回転方向の識別 MFCC:16次元 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec 音響伝達特性の推定 クリーン音声の学習データ数: 2620単語 音素数:54 HMMの状態数:3 混合数:32 位置・頭部回転方向の識別 学習データ数:位置・頭部方向毎に50単語 テストデータ数:位置・頭部方向毎に166単語 (組み合わせを変えて4-foldのクロスバリデーション) SVMのカーネル関数: ガウシアンカーネル SVMの学習誤りに対する重み係数C:1
比較手法 クリーン音声モデルによって推定された音響伝達特性 正解のクリーン音声のMFCC系列を与えて計算した音響伝達特性 より正確な値に近い音響伝達特性 2ch マイクによるCSP法 音源位置の推定のみ比較 出力される音源方向が40, 90, 130°のどれに一番近いかを当てる
音源位置のみの識別 頭部回転方向を0°に固定して、音源位置の識別のみを評価 (3クラス分類) Accuracy [%] CSP
頭部回転方向のみの識別(2/3) 音源をそれぞれの位置で固定し、回転方向の識別のみを評 回転方向が0°,45°,90°のとき(3クラス分類) 提案手法では、45°が識別できていない 伝達特性の推定誤差によって分散が広がったため Accuracy [%] Head orientation
頭部回転方向のみの識別(3/3) 頭部回転方向ごとの音響伝達特性 音源位置は90° MFCC16次元をPCAで2次元に圧縮
音源位置・頭部方向 両方の推定(2/2) 音源位置と頭部回転方向の両方の識別を評価 音源位置・頭部方向 両方の推定(2/2) 音源位置と頭部回転方向の両方の識別を評価 回転方向が0°,45°,90°のとき(3×3=9クラス分類) Accuracy [%] Head orientation
まとめと今後の課題 音響伝達特性の識別による話者の位置と頭部回転方向の推定を提案 提案手法は音響伝達特性の推定ミスがあるため、頭部回転方向の大きな変化しか識別できていない より正確な音響伝達特性の推定 音源位置・頭部方向毎に事前の学習が必要なため、使えるタスクが限られる 既知の位置・頭部方向の伝達特性を用いて、回帰により未知の位置・頭部方向の伝達特性を表現できないか
音響伝達特性の推定(2/3) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる Q関数の同時確率 は、以下のように展開される
音響伝達特性の推定(3/3) ケプストラム領域での O = S + H という仮定より 状態b(n),混合要素c(n) におけるOの確率分布 クリーン音声の正規分布が Hだけシフトされた これらをQ関数に代入し、 を解く