音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
音響モデルを利用したシングルチャネルに よる音源方向推定
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
サポートベクターマシン によるパターン認識
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
音高による音色変化に着目した音源同定に関する研究
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定 日本音響学会 2011年秋季研究発表会 高島遼一,滝口哲也,有木康雄 神戸大学大学院

研究背景 話者の位置の推定 話者の頭部回転方向の推定 頭部回転方向推定の利用できるタスク 「誰が話しているのか」 「誰に向かって話しているのか」 頭部回転方向推定の利用できるタスク より詳細な状況理解 (会議システム等) 複数話者とロボットとの対話 雑談/システム要求の判別 呼びかけ (システム要求) 他人との会話

先行研究 マイクロホンアレー・ネットワークによる推定 複数のマイクロホンアレーを、話者を囲むように配置 各アレーから得られる音圧情報やCSPのピーク値など 左側のアレーのCSPの ピーク値や音圧が高くなる 低くなる 頭部方向 [7] A. Brutti, M. Omologo, and P. Svaizer, Proc. Interspeech05, pp. 2337-2340, 2005. [8] J. M. Sachar, and H. F. Silverman, Proc. ICASSP04, vol. 4, pp. 65-68, 2004.

研究目的 できるだけ少ないマイクアレー数で、話者の位置や頭部の回転方向を推定する アプローチ ( Previous work ) 音響伝達特性の識別によるシングルチャネル音源位置推定 位置によって異なる音響伝達特性を識別することで、音源の位置を パターン認識的に推定する 位置だけでなく、頭部の回転方向によっても音響伝達特性の差は生まれるのではないか 音源位置A 位置によって音響 伝達特性が異なる 音源位置B

提案手法の流れ 各音源位置、頭部の回転方向で発話された音声から音響伝達特性を推定 推定された音響伝達特性をSVMにより学習 音源位置: 頭部方向: 学習データ 観測信号Oから 音響伝達特性H を推定する 学習 (SVM) 音響伝達 特性を識別 (SVM) 単一マイク 評価データ 識別結果 各音源位置、頭部の回転方向で発話された音声から音響伝達特性を推定 推定された音響伝達特性をSVMにより学習 評価データの音声からも音響伝達特性を推定し、これを識別することでその音源位置と頭部回転方向を推定する

音響伝達特性の推定(1/3) 観測信号の定式化 時間領域 短時間フーリエ変換 周波数領域 対数変換 離散コサイン変換 ケプストラム領域 未知 統計モデル化 モデル領域 実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する. SはHMM (Hidden Markov Model)でモデル化する

音響伝達特性の推定の流れ ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う ・・・ 音響伝達特性を推定 音素認識 認識結果(ラベル) i, k, i, o, i クリーン音声の 音素HMM (a) (i) ・・・ (u) 音素HMMを連結 連結HMM (i) (k) ・・・ (o) 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する

実験環境 音声データ 収録環境 ATR研究用日本語音声データベースセットAより男性話者1名 音源距離:一律1.5m 音源方向:40°90°130° スピーカの回転方向:0°45°90° 残響時間:約350msec 回転方向:0°  45°     90° Microphones Loudspeaker 1000 1500 Table Desk 300 3170 6260 (単位はmm)

分析条件 特徴量 音響伝達特性の推定 位置・頭部回転方向の識別 MFCC:16次元 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec 音響伝達特性の推定 クリーン音声の学習データ数: 2620単語 音素数:54 HMMの状態数:3 混合数:32 位置・頭部回転方向の識別 学習データ数:位置・頭部方向毎に50単語 テストデータ数:位置・頭部方向毎に166単語 (組み合わせを変えて4-foldのクロスバリデーション) SVMのカーネル関数: ガウシアンカーネル SVMの学習誤りに対する重み係数C:1

比較手法 クリーン音声モデルによって推定された音響伝達特性 正解のクリーン音声のMFCC系列を与えて計算した音響伝達特性 より正確な値に近い音響伝達特性 2ch マイクによるCSP法 音源位置の推定のみ比較 出力される音源方向が40, 90, 130°のどれに一番近いかを当てる

音源位置のみの識別 頭部回転方向を0°に固定して、音源位置の識別のみを評価 (3クラス分類) Accuracy [%] CSP

頭部回転方向のみの識別(2/3) 音源をそれぞれの位置で固定し、回転方向の識別のみを評 回転方向が0°,45°,90°のとき(3クラス分類) 提案手法では、45°が識別できていない 伝達特性の推定誤差によって分散が広がったため Accuracy [%] Head orientation

頭部回転方向のみの識別(3/3) 頭部回転方向ごとの音響伝達特性 音源位置は90° MFCC16次元をPCAで2次元に圧縮

音源位置・頭部方向 両方の推定(2/2) 音源位置と頭部回転方向の両方の識別を評価 音源位置・頭部方向 両方の推定(2/2) 音源位置と頭部回転方向の両方の識別を評価 回転方向が0°,45°,90°のとき(3×3=9クラス分類) Accuracy [%] Head orientation

まとめと今後の課題 音響伝達特性の識別による話者の位置と頭部回転方向の推定を提案 提案手法は音響伝達特性の推定ミスがあるため、頭部回転方向の大きな変化しか識別できていない より正確な音響伝達特性の推定 音源位置・頭部方向毎に事前の学習が必要なため、使えるタスクが限られる 既知の位置・頭部方向の伝達特性を用いて、回帰により未知の位置・頭部方向の伝達特性を表現できないか

音響伝達特性の推定(2/3) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる Q関数の同時確率            は、以下のように展開される

音響伝達特性の推定(3/3) ケプストラム領域での O = S + H という仮定より 状態b(n),混合要素c(n) におけるOの確率分布 クリーン音声の正規分布が Hだけシフトされた これらをQ関数に代入し、 を解く