音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討

Slides:



Advertisements
Similar presentations
音響モデルを利用したシングルチャネルに よる音源方向推定
Advertisements

音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
ガウス過程による回帰 Gaussian Process Regression GPR
サポートベクターマシン によるパターン認識
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
音素部分空間の統合による音声特徴量抽出の検討
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
サポートベクターマシン Support Vector Machine SVM
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討 電子情報通信学会 音声研究会 2011年1月27, 28日 高島遼一,滝口哲也,有木康雄 神戸大学大学院

研究背景 音源位置推定技術の役割 従来の音源位置推定法 音声強調・雑音抑圧のための前処理 対話ロボット,会議システム,etc. 複数のマイクを用いて観測される信号間の位相差を利用 :時間差 :音速 d マイクロホンアレー(マイク数32)

研究目的 単一マイクで音源位置推定は行えるか? 提案手法 システムの縮小化,複数マイクの手法との複合 研究目的: 音響伝達特性を用いた単一チャネル音源位置推定法 研究目的: 位相差などのマイク間の情報を用いない,単一マイクでも行える音源位置推定の実現

アプローチ 位置B S HB O HA 位置A S 音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける 音響伝達特性 Microphone HA 位置A S 音響伝達特性 音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける 音響伝達特性 音響伝達特性は,音源の位置ごとに異なる特性をもつ あらかじめ音源位置毎の音響伝達特性を学習しておけば,評価音声についてもその音響伝達特性を識別することで音源位置を推定できる

提案手法の流れ STEP1:音響伝達特性の推定 観測信号Oから音響伝達特性Hを推定する STEP2:音響伝達特性の識別 ステップ1 ステップ2 音源位置 学習データ 観測信号Oから 音響伝達特性H を推定する 学習 (SVM) 音響伝達 特性を識別 (SVM) 単一マイク 評価データ 識別結果 STEP1:音響伝達特性の推定 観測信号Oから音響伝達特性Hを推定する STEP2:音響伝達特性の識別 推定された音響伝達特性をSVM (Support Vector Machine)で学習識別する

音響伝達特性の推定

観測信号の定式化 処理は全てMFCC領域で行われる 時間領域 短時間フーリエ変換 周波数領域 対数変換 離散コサイン変換 ケプストラム領域 未知 統計モデル化 モデル領域 処理は全てMFCC領域で行われる 実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する. SはHMM (Hidden Markov Model)でモデル化する

音響伝達特性の推定(1/2) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる Q関数の同時確率            は、以下のように展開される

音響伝達特性の推定(2/2) ケプストラム領域での O = S + H という仮定より 状態b(n),混合要素c(n) におけるOの確率分布 クリーン音声の正規分布が Hだけシフトされた これらをQ関数に代入し、 を解く

音響伝達特性推定の流れ ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う ・・・ 音響伝達特性を推定 音素認識 認識結果(ラベル) i, k, i, o, i クリーン音声の 音素HMM (a) (i) ・・・ (u) 音素HMMを連結 連結HMM (i) (k) ・・・ (o) 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する

音響伝達特性の識別

MFCC各次元の中には、その位置のインパルス応答の影響を強く受ける次元と、そうでない次元が存在する クラスごとに異なる特徴量重みの決定 MFCC各次元の中には、その位置のインパルス応答の影響を強く受ける次元と、そうでない次元が存在する 影響の大小は、音源の位置によって多少異なる クラス(音源位置)毎に異なる特徴次元の重み付け クラスごとの次元重みをMKL (Multiple Kernel Learning) を用いて学習し、SVM (Support Vector Machine) で識別を行う

SVMによるクラス識別とカーネル関数 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。 高次元空間での内積を様々な種類のカーネル関数、パラメータで表現(カーネルトリック) カーネル関数の例 :写像関数 D次元特徴ベクトル 高次元特徴ベクトル 内積 カーネル関数 多項式カーネル ガウシアンカーネル

MKL (Multiple Kernel Learning) (1/3) 複数のサブカーネルを線形結合し、新たなカーネル関数を作成する手法 各サブカーネルの重みβは,一般的にSVMの枠組み(マージン最大化)で学習される. 通常のSVM MKL-SVM

MKL (Multiple Kernel Learning) (2/3) 基本的な使い方 通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを自動的に重み付けしてくれる MKL-SVM 従来の単一カーネルSVM

MKL (Multiple Kernel Learning) (3/3) 応用・・・特徴量統合における特徴量重みの学習 提案法・・・音響伝達特性MFCCの次元重み付けへの利用 M. Varma, et al., ICCV 2007 x = ・・・ ・・・ 特徴ベクトルa 特徴ベクトルb 特徴ベクトルc + + + ・・・ 音響伝達特性の特定の次元 通常のMKL-SVM 提案手法におけるMKL-SVM

実験環境 音声データ 観測信号データ ATR研究用音声データベースより男声話者1名 RWCP実環境音声・音響データベースで収録されたインパルス応答をクリーン音声に畳み込んで作成(特定話者実験) 残響時間:300 msec (残響可変室) 音源方向:30, 90, 130° (3クラス識別) 音源距離:一律約2m 6,660 mm :sound source :microphone 3,120 mm 4,180 mm 4,330 mm

分析条件 特徴量 音響伝達特性の推定 位置の識別 MFCC:16次元 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec 音響伝達特性の推定 クリーン音声の学習データ数: 2620単語 音素数:54 HMMの状態数:3 混合数:32 位置の識別 学習データ数:50単語 テストデータ数:1000単語 SVMのカーネル関数: ガウシアンカーネル SVMの学習誤りに対する重み係数C:1 カーネル関数のパラメータ:実験的に決定

比較手法 GMM(混合数8)による識別と、従来のSVM、提案手法で比較 提案手法については、 次元毎に同じカーネルのパラメータを設定 次元毎に異なるカーネルのパラメータを設定 の2種類の場合で比較 従来の単一カーネルSVM 提案手法

実験結果 提案手法による識別手法が従来のSVM、GMMを上回った カーネル関数のパラメータを次元ごとに変化させることで、若干精度が向上

位置毎の次元重みと音響伝達特性の分布 Cepstral coefficient Cepstral order 30° 0.00 0.07 30°    90°    130° Cepstral coefficient Cepstral order 30° 0.00 0.07 0.08 90° 0.06 0.10 130° 0.01 0.11 位置毎の 次元重み

マイクの位置のずれに対する頑健性の評価 テスト時に、マイクの位置を学習時の位置からずらして収録して識別精度を測定 マイクの位置が10cmずれた時点で15~20%精度が低下 学習時のマイクの位置 (0cm) テスト時のマイクの位置 (10cm, 20cm)

まとめ 次元ごとにサブカーネルを定義し、MKLで統合させることで、音響伝達特性MFCCの次元重みを自動的に学習させた 以前用いていたGMMによる識別や従来のSVMに比べて高い識別精度が得られた 今後の課題 収録環境が変化した場合、精度が大幅に低下 収録環境の適応 音響伝達特性の正確な推定

ご清聴ありがとうございました

位置毎の次元重みと音響伝達特性の分布 Cepstral coefficient Cepstral order 90°    30° and 130° 130°   30° and 90° 30°    90° and 130° 30°    90°    130° Cepstral coefficient Cepstral order 30° 0.00 0.06 0.07 0.08 90° 0.10 130° 0.01 0.05 0.09 0.11 位置毎の 次元重み

200cm 10cm マイクロホンアレー 音源位置 実験に使用するマイク

RWCPデータベースより参照 インパルス応答収録風景

音響伝達特性を分離せずに、観測信号だけで位置を学習した場合との比較 観測信号は、位置と無関係なテキスト情報の影響を受けてしまう

実環境での実験 識別方法は、MKL-SVMではなく、GMMを使用 残響時間 約350 ms SN比 約42 dB 音源距離 1.5 m 音源方向 40, 90, 130° 提案法(単一マイク):87.6 % CSP法(2chマイク):100% マイク間隔 30 cm

実環境実験の収録環境 1000 mm 1500 mm Table Desk 3170 mm 300 mm 1500 mm 6260 mm

0 cm 0 deg 15 cm 45 deg 30 cm 90 deg

スピーカーの位置が、学習時の位置からずれた場合 ずれ幅15cm 提案法: 87.6 % ⇒ 59.4 % (-28.2 %) CSP法: 100 % ⇒ 100% ずれ幅 30cm 提案法: 87.6 % ⇒ 54.1 % (-33.5 %) スピーカーの位置は同じで、発話方向が異なる場合 45° 提案法: 87.6 % ⇒ 80.3 % (-7.3 %) 90° 提案法: 87.6 % ⇒ 65.1 % (-22.5 %) CSP法: 100 % ⇒ 87.7% (-12.3 %)

MKL (Multiple Kernel Learning) (2/3) 基本的な使い方 通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを自動的に重み付けしてくれる 応用・・・特徴量統合における重み付け βがそれぞれの特徴ベクトルの重みを表すことになる 提案法・・・音響伝達特性MFCCの次元重み付けへの利用 M. Varma, et al., ICCV 2007 x = ・・・ ・・・ 色特徴ベクトルa 形特徴ベクトルb 勾配特徴ベクトルc + + + ・・・ 音響伝達特性の特定の次元