雑音重み推定と音声ＧＭＭを用いた雑音除去

Slides:

Advertisements

Similar presentations

顔表情クラスタリングによる映像コンテンツへのタギング

Advertisements

音響モデルを利用したシングルチャネルによる音源方向推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

時空間データからのオブジェクトベース知識発見

クロストーク成分の相互相関に着目した音場再生システム

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

CV輪講姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡

ランダムプロジェクションを用いた音声特徴量変換

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討

非負値行列因子分解による構音障害者の声質変換

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

視点移動カメラにおけるカメラキャリブレーション

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去.

音高による音色変化に着目した音源同定に関する研究

音素部分空間の統合による音声特徴量抽出の検討

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

Data Clustering: A Review

複数特徴量の重み付け統合による一般物体認識

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

AdaBoostを用いたシステムへの問い合わせと雑談の判別

ブースティングとキーワードフィルタリングによるシステム要求検出

HMM音声合成における変分ベイズ法に基づく線形回帰

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

クラスタリングを用いたベイズ学習モデルを動的に更新するソフトウェア障害検知手法

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

雑音重み推定と音声ＧＭＭを用いた雑音除去神戸大学大学院工学研究科　　三宅信之，滝口哲也，有木康雄

研究の背景雑音が混入することで音声認識率が低下そのため様々な雑音除去法が存在する発話中に突如発生した雑音は除去しづらい

研究の目的クリーンスピーチに突発的な雑音が重畳したとき，その雑音を除去し、音声認識率を改善する電話音 o m o t e

システム全体の流れ音声特徴量の抽出突発性雑音あり雑音の識別雑音除去雑音の検出音声認識クリーンスピーチ

クラスタリング雑音は種類が多いためあらかじめクラスタリングクラス内距離を一定以下(θ)に設定したい除去時にクラスのデータの平均値を雑音のデータとして利用クラス内距離を一定以下にすることでミスマッチを防ぐ K-meansで分類データと中心の距離dを計算 θ<dならクラスを分割

クラスタリングクラス内距離を小さくするとクラスが増えすぎる上段から徐々にθの値を小さくしていくツリー上にすることで解決 ... d <50 上段から徐々にθの値を小さくしていく d <25 ... Class 1 phone Class 2 coins coin Class N Tear …..

システム全体の流れ音声特徴量の抽出突発性雑音あり雑音の識別雑音除去雑音の検出音声認識クリーンスピーチ

あらゆるげんじつおすべてじぶんのほーえねじまげたのだ雑音の検出識別器を用いてクリーンスピーチか　雑音重畳音声かのラベルを付ける識別器はAdaBoostで作成弱識別器はdecision stump 入力フレームあらゆるげんじつおすべてじぶんのほーえねじまげたのだがーーーー識別器クリーンスピーチ雑音重畳音声

雑音の識別各クラスの雑音重畳音声を使用して作成した識別器でツリーの上段から順に識別していく Clean speech Noisy speech × feature Classifier × × 各クラスの雑音重畳音声を使用して作成した識別器でツリーの上段から順に識別していく識別器はone-vs-rest法で拡張したAdaBoostで作成 ... Class 1 phone Class 2 coins coin ….. Class N Tear

雑音除去音声特徴量の抽出突発性雑音あり雑音の識別雑音除去雑音の検出音声認識クリーンスピーチ

雑音重畳音声の特徴量どんな雑音か識別されている ≒特徴量の大まかな形は既知（強さは不明）強さを表す定数αを導入メルフィルタバンクに変換観測信号音声信号雑音メルフィルタバンクに変換（b次元目の特徴量）どんな雑音か識別されている　 ≒特徴量の大まかな形は既知（強さは不明）強さを表す定数αを導入

雑音重畳音声の特徴量対数メルフィルタバンクに変換第2項を推定し、音声特徴量を得る

GMMを用いた推定未知クリーン音声のGMM（Gaussian Mixture Model）をもとにを考える [2001eurospeech, segura et.al] クリーン音声のGMM（Gaussian Mixture Model）をもとにを考えるより識別されたクラスの平均値第2項の推定値は混合ごとの尤度を使った、の重み付き平均とする未知

重み推定 EMアルゴリズムを使った推定混合ごとの重み推定 p(x)が最大になるように決定 p(x,m)が最大になるように混合ごとに決定混合ごとの最大の尤度による重み付き平均

EMアルゴリズムを用いた推定を最大化するようにαの値を決定 EMアルゴリズムの使用 Estimationステップ Maximizationステップ収束するまで繰り返すことで最適解を得る

EMアルゴリズムを用いた推定と微分した式は複雑な値になるためニュートン法を用いてとくを繰り返すことで近似解を得る

混合ごとの推定はを最大化するよう混合ごとに決定あるいはを解く解析的にとくことは難しく、ニュートン法で決定 α

混合ごとの推定求めた　　　を使いと定義しなおす推定値に各混合の尤度を使って重み付き平均音声特徴量の推定

実験条件（雑音除去）評価法テストデータ発話データ SNRを調整した雑音重畳音声500単語×4人雑音重畳音声500単語×4人　計2000発話（シミュレーションデータ） SNR -5,0,5 dB 雑音継続時間は20～300　ms程度発話データ ATR特定話者単語発話男性2名女性2名雑音データ [S. Nakamura, et al, 2000] RWCP非音声ドライソースに含まれるすべての雑音(105種) 1種類につき100データが存在し、50データを学習用、50データをテスト用に使用学習データ単語発話2000発話 AdaBoostの学習用に上記の発話に雑音を重畳させたもの雑音の検出・識別 AdaBoostの学習回数200回特徴量：24次元対数メルフィルタバンク雑音除去クリーン音声GMM混合数16,32,64 クラス内距離上段から順に50,25,12,6 クラス数45 評価法 MFCC 12次元クリーン音声で作成したHMMでの認識率を算出音素HMM　各５状態　4混合

検出・識別結果 5 dB 0 dB -5 dB 再現率適合率識別率 0.820 0.897 0.952 0.827 0.831 0.833 識別率 0.283 0.404 0.470 再現率= 正しく検出されたフレーム数＋未検出フレーム数正しく検出されたフレーム数適合率= 正しく検出されたフレーム数＋誤検出フレーム数正しく検出されたフレーム数識別率= 正しく検出されたフレーム数正しく検出されたフレーム数－識別誤り数

音声認識結果 [SNR -5 dB] 96.5 Oracle label

音声認識結果 [SNR 0 dB] 96.5 Oracle label

音声認識結果 [SNR 5 dB] 96.5 Oracle label

未知雑音に対する実験結果 10-foldクロスバリデーションを用い、94種で学習、残りの11種の雑音でテストデータを作成 GMM 64混合，混合ごとの重み推定を使用 5 dB 0 dB -5 dB 再現率 0.808 0.879 0.934 適合率 0.802 0.806

まとめと今後の予定突発性の雑音除去法を提案したシミュレーションデータにおいて、雑音除去によって認識率の改善が見られた重み推定を行うことでの認識率の改善未知雑音に対しても本手法の有効性を確認大語彙・不特定話者での音声認識への適応実環境での実験

ニュートン法を用いたαの決定これを解析的にとくことは困難！ →ニュートン法によって近似的に解く収束するまで逐次更新