音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

Slides:

Advertisements

Similar presentations

音響モデルを利用したシングルチャネルによる音源方向推定

Advertisements

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

クロストーク成分の相互相関に着目した音場再生システム

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

ランダムプロジェクションを用いた音声特徴量変換

神戸大学工学部松政宏典，滝口哲也，有木康雄追手門学院大学経済学部李義昭神戸大学発達科学部中林稔堯

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討

ガウス過程による回帰 Gaussian Process Regression GPR

サポートベクターマシンによるパターン認識

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去.

音高による音色変化に着目した音源同定に関する研究

音素部分空間の統合による音声特徴量抽出の検討

第14章　モデルの結合修士２年山川佳洋.

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定

第7章　疎な解を持つカーネルマシン修士２年山川佳洋.

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

Data Clustering: A Review

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

サポートベクターマシン Support Vector Machine SVM

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

AdaBoostを用いたシステムへの問い合わせと雑談の判別

ブースティングとキーワードフィルタリングによるシステム要求検出

HMM音声合成における変分ベイズ法に基づく線形回帰

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

モデルの微分による非線形モデルの解釈明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

ソースフィルタモデル.

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討電子情報通信学会　音声研究会 2011年1月27, 28日高島遼一，滝口哲也，有木康雄神戸大学大学院

研究背景音源位置推定技術の役割従来の音源位置推定法音声強調・雑音抑圧のための前処理対話ロボット，会議システム，etc. 複数のマイクを用いて観測される信号間の位相差を利用：時間差：音速 d マイクロホンアレー（マイク数32）

研究目的単一マイクで音源位置推定は行えるか？提案手法システムの縮小化，複数マイクの手法との複合研究目的：音響伝達特性を用いた単一チャネル音源位置推定法研究目的：位相差などのマイク間の情報を用いない，単一マイクでも行える音源位置推定の実現

アプローチ位置B S HB O HA 位置A S 音声Sは，マイクで観測されるまでに，音声の減衰や残響等の影響を受ける音響伝達特性 Microphone HA 位置A S 音響伝達特性音声Sは，マイクで観測されるまでに，音声の減衰や残響等の影響を受ける音響伝達特性音響伝達特性は，音源の位置ごとに異なる特性をもつあらかじめ音源位置毎の音響伝達特性を学習しておけば，評価音声についてもその音響伝達特性を識別することで音源位置を推定できる

提案手法の流れ STEP１：音響伝達特性の推定観測信号Oから音響伝達特性Hを推定する STEP２：音響伝達特性の識別ステップ１ステップ２音源位置学習データ観測信号Oから音響伝達特性H を推定する学習 (SVM) 音響伝達特性を識別 (SVM) 単一マイク評価データ識別結果 STEP１：音響伝達特性の推定観測信号Oから音響伝達特性Hを推定する STEP２：音響伝達特性の識別推定された音響伝達特性をSVM (Support Vector Machine)で学習識別する

音響伝達特性の推定

観測信号の定式化処理は全てMFCC領域で行われる時間領域短時間フーリエ変換周波数領域対数変換離散コサイン変換ケプストラム領域未知統計モデル化モデル領域処理は全てMFCC領域で行われる実際の環境ではSは未知であるため，Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する． SはHMM (Hidden Markov Model)でモデル化する

音響伝達特性の推定（1/2) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる Q関数の同時確率　　　　　　　　　　　　は、以下のように展開される

音響伝達特性の推定（2/2) ケプストラム領域での O = S + H という仮定より状態b(n),混合要素c(n) におけるOの確率分布クリーン音声の正規分布が HだけシフトされたこれらをQ関数に代入し、を解く

音響伝達特性推定の流れ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う・・・音響伝達特性を推定音素認識認識結果(ラベル) i, k, i, o, i クリーン音声の音素HMM (a) (i) ・・・ (u) 音素HMMを連結連結HMM (i) (k) ・・・ (o) 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する

音響伝達特性の識別

MFCC各次元の中には、その位置のインパルス応答の影響を強く受ける次元と、そうでない次元が存在するクラスごとに異なる特徴量重みの決定 MFCC各次元の中には、その位置のインパルス応答の影響を強く受ける次元と、そうでない次元が存在する影響の大小は、音源の位置によって多少異なるクラス(音源位置)毎に異なる特徴次元の重み付けクラスごとの次元重みをMKL (Multiple Kernel Learning) を用いて学習し、SVM (Support Vector Machine) で識別を行う

SVMによるクラス識別とカーネル関数 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。高次元空間での内積を様々な種類のカーネル関数、パラメータで表現（カーネルトリック）カーネル関数の例 :写像関数 D次元特徴ベクトル高次元特徴ベクトル内積カーネル関数多項式カーネルガウシアンカーネル

MKL (Multiple Kernel Learning) (1/3) 複数のサブカーネルを線形結合し、新たなカーネル関数を作成する手法各サブカーネルの重みβは，一般的にSVMの枠組み(マージン最大化)で学習される．通常のSVM MKL-SVM

MKL (Multiple Kernel Learning) (2/3) 基本的な使い方通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを自動的に重み付けしてくれる MKL-SVM 従来の単一カーネルSVM

MKL (Multiple Kernel Learning) (3/3) 応用・・・特徴量統合における特徴量重みの学習提案法・・・音響伝達特性MFCCの次元重み付けへの利用 M. Varma, et al., ICCV 2007 x = ・・・・・・特徴ベクトルa 特徴ベクトルb 特徴ベクトルc + + + ・・・音響伝達特性の特定の次元通常のMKL-SVM 提案手法におけるMKL-SVM

実験環境音声データ観測信号データ ATR研究用音声データベースより男声話者１名 RWCP実環境音声・音響データベースで収録されたインパルス応答をクリーン音声に畳み込んで作成（特定話者実験）残響時間：300 msec (残響可変室) 音源方向：30, 90, 130° (3クラス識別) 音源距離：一律約2m 6,660 mm ：sound source ：microphone 3,120 mm 4,180 mm 4,330 mm

分析条件特徴量音響伝達特性の推定位置の識別 MFCC：16次元サンプリング周波数：12kHz　窓幅：32 msec　フレームシフト：8 msec 音響伝達特性の推定クリーン音声の学習データ数： 2620単語音素数：54　HMMの状態数：3　混合数：32 位置の識別学習データ数：50単語　テストデータ数：1000単語 SVMのカーネル関数: ガウシアンカーネル SVMの学習誤りに対する重み係数C：1 カーネル関数のパラメータ：実験的に決定

比較手法 GMM（混合数8）による識別と、従来のSVM、提案手法で比較提案手法については、次元毎に同じカーネルのパラメータを設定次元毎に異なるカーネルのパラメータを設定の2種類の場合で比較従来の単一カーネルSVM 提案手法

実験結果提案手法による識別手法が従来のSVM、GMMを上回ったカーネル関数のパラメータを次元ごとに変化させることで、若干精度が向上

位置毎の次元重みと音響伝達特性の分布 Cepstral coefficient Cepstral order 30° 0.00 0.07 30°　　　　90°　　　　130° Cepstral coefficient Cepstral order 30° 0.00 0.07 0.08 90° 0.06 0.10 130° 0.01 0.11 位置毎の次元重み

マイクの位置のずれに対する頑健性の評価テスト時に、マイクの位置を学習時の位置からずらして収録して識別精度を測定マイクの位置が10cmずれた時点で15～20％精度が低下学習時のマイクの位置 (0cm) テスト時のマイクの位置（10cm, 20cm)

まとめ次元ごとにサブカーネルを定義し、MKLで統合させることで、音響伝達特性MFCCの次元重みを自動的に学習させた以前用いていたGMMによる識別や従来のSVMに比べて高い識別精度が得られた今後の課題収録環境が変化した場合、精度が大幅に低下収録環境の適応音響伝達特性の正確な推定

ご清聴ありがとうございました

位置毎の次元重みと音響伝達特性の分布 Cepstral coefficient Cepstral order 90°　　　　30° and 130° 130°　　　30° and 90° 30°　　　　90° and 130° 30°　　　　90°　　　　130° Cepstral coefficient Cepstral order 30° 0.00 0.06 0.07 0.08 90° 0.10 130° 0.01 0.05 0.09 0.11 位置毎の次元重み

２００ｃｍ１０ｃｍマイクロホンアレー音源位置実験に使用するマイク

RWCPデータベースより参照インパルス応答収録風景

音響伝達特性を分離せずに、観測信号だけで位置を学習した場合との比較観測信号は、位置と無関係なテキスト情報の影響を受けてしまう

実環境での実験識別方法は、MKL-SVMではなく、GMMを使用残響時間約350 ms SN比約42 dB 音源距離 1.5 m 音源方向 40, 90, 130° 提案法（単一マイク）：87.6 % CSP法（2chマイク）：100% マイク間隔 30 cm

実環境実験の収録環境 1000 mm 1500 mm Table Desk 3170 mm 300 mm 1500 mm 6260 mm

0 cm 0 deg 15 cm 45 deg 30 cm 90 deg

スピーカーの位置が、学習時の位置からずれた場合ずれ幅15cm 提案法： 87.6 %　⇒　59.4 %　(-28.2 %) CSP法： 100 %　⇒　100% ずれ幅 30cm 提案法： 87.6 %　⇒　54.1 %　(-33.5 %) スピーカーの位置は同じで、発話方向が異なる場合 45° 提案法： 87.6 %　⇒　80.3 %　(-7.3 %) 90° 提案法： 87.6 %　⇒　65.1 %　(-22.5 %) CSP法： 100 %　⇒　87.7%　(-12.3 %)

MKL (Multiple Kernel Learning) (2/3) 基本的な使い方通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを自動的に重み付けしてくれる応用・・・特徴量統合における重み付け βがそれぞれの特徴ベクトルの重みを表すことになる提案法・・・音響伝達特性MFCCの次元重み付けへの利用 M. Varma, et al., ICCV 2007 x = ・・・・・・色特徴ベクトルa 形特徴ベクトルb 勾配特徴ベクトルc + + + ・・・音響伝達特性の特定の次元