雑音重み推定と音声 GMMを用いた雑音除去

Slides:



Advertisements
Similar presentations
顔表情クラスタリングによる 映像コンテンツへのタギング
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
複数特徴量の重み付け統合による一般物体認識
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

雑音重み推定と音声 GMMを用いた雑音除去 神戸大学大学院工学研究科   三宅 信之,滝口 哲也,有木 康雄

研究の背景 雑音が混入することで音声認識率が低下 そのため様々な雑音除去法が存在する 発話中に突如発生した雑音は除去しづらい

研究の目的 クリーンスピーチに突発的な雑音が重畳したとき,その雑音を除去し、音声認識率を改善する 電話音 o m o t e

システム全体の流れ 音声特徴量 の抽出 突発性雑音あり 雑音の識別 雑音除去 雑音の検出 音声認識 クリーンスピーチ

クラスタリング 雑音は種類が多いためあらかじめクラスタリング クラス内距離を一定以下(θ)に設定したい 除去時にクラスのデータの平均値を雑音のデータとして利用 クラス内距離を一定以下にすることでミスマッチを防ぐ K-meansで分類 データと中心の距離dを計算 θ<dなら クラスを分割

クラスタリング クラス内距離を小さくするとクラスが増えすぎる 上段から徐々にθの 値を小さくしていく ツリー上にすることで解決 ... d <50 上段から徐々にθの 値を小さくしていく d <25 ... Class 1 phone Class 2 coins coin Class N Tear …..

システム全体の流れ 音声特徴量 の抽出 突発性雑音あり 雑音の識別 雑音除去 雑音の検出 音声認識 クリーンスピーチ

あらゆるげんじつおすべてじぶんのほーえねじまげたのだ 雑音の検出 識別器を用いてクリーンスピーチか   雑音重畳音声かのラベルを付ける 識別器はAdaBoostで作成 弱識別器はdecision stump 入力フレーム あらゆるげんじつおすべてじぶんのほーえねじまげたのだ がーーーー 識別器 クリーンスピーチ 雑音重畳音声

雑音の識別 各クラスの雑音重畳音声を使用して 作成した識別器で ツリーの上段から順に識別していく Clean speech Noisy speech × feature Classifier × × 各クラスの雑音重畳音声を使用して 作成した識別器で ツリーの上段から順に識別していく 識別器はone-vs-rest法で拡張したAdaBoostで作成 ... Class 1 phone Class 2 coins coin ….. Class N Tear

雑音除去 音声特徴量 の抽出 突発性雑音あり 雑音の識別 雑音除去 雑音の検出 音声認識 クリーンスピーチ

雑音重畳音声の特徴量 どんな雑音か識別されている ≒特徴量の大まかな形は既知(強さは不明) 強さを表す定数αを導入 メルフィルタバンクに変換 観測信号 音声信号 雑音 メルフィルタバンクに変換 (b次元目の特徴量) どんな雑音か識別されている  ≒特徴量の大まかな形は既知(強さは不明) 強さを表す定数αを導入

雑音重畳音声の特徴量 対数メルフィルタバンク に変換 第2項を推定し、音声特徴量を得る

GMMを用いた推定 未知 クリーン音声のGMM(Gaussian Mixture Model) をもとに を考える [2001eurospeech, segura et.al] クリーン音声のGMM(Gaussian Mixture Model) をもとに を考える より 識別されたクラスの平均値 第2項の推定値は混合ごとの尤度を使った、 の重み付き平均とする 未知

重み推定 EMアルゴリズムを使った推定 混合ごとの重み推定 p(x)が最大になるように決定 p(x,m)が最大になるように混合ごとに決定 混合ごとの最大の尤度による重み付き平均

EMアルゴリズムを用いた推定 を最大化するようにαの値を決定 EMアルゴリズムの使用 Estimationステップ Maximizationステップ 収束するまで繰り返すことで最適解を得る

EMアルゴリズムを用いた推定 と微分した式は複雑な値になるためニュートン法を用いてとく を繰り返すことで近似解を得る

混合ごとの推定 は を最大化するよう混合ごとに決定 あるいは を解く 解析的にとくことは難しく、 ニュートン法で決定 α

混合ごとの推定 求めた   を使い と定義しなおす 推定値に各混合の尤度を使って重み付き平均 音声特徴量の推定

実験条件(雑音除去) 評価法 テストデータ 発話データ SNRを調整した 雑音重畳音声500単語×4人 雑音重畳音声500単語×4人  計2000発話(シミュレーションデータ) SNR -5,0,5 dB 雑音継続時間は20~300 ms程度 発話データ ATR特定話者単語発話 男性2名女性2名 雑音データ [S. Nakamura, et al, 2000] RWCP非音声ドライソースに含まれるすべての雑音(105種) 1種類につき100データが存在し、50データを学習用、50データをテスト用に使用 学習データ 単語発話2000発話 AdaBoostの学習用に上記の発話に雑音を重畳させたもの 雑音の検出・識別 AdaBoostの学習回数200回 特徴量:24次元対数メルフィルタバンク 雑音除去 クリーン音声GMM混合数16,32,64 クラス内距離 上段から順に50,25,12,6 クラス数45 評価法 MFCC 12次元 クリーン音声で作成したHMMでの認識率を算出 音素HMM 各5状態 4混合

検出・識別結果 5 dB 0 dB -5 dB 再現率 適合率 識別率 0.820 0.897 0.952 0.827 0.831 0.833 識別率 0.283 0.404 0.470 再現率= 正しく検出されたフレーム数+未検出フレーム数 正しく検出されたフレーム数 適合率= 正しく検出されたフレーム数+誤検出フレーム数 正しく検出されたフレーム数 識別率= 正しく検出されたフレーム数 正しく検出されたフレーム数-識別誤り数

音声認識結果 [SNR -5 dB] 96.5 Oracle label

音声認識結果 [SNR 0 dB] 96.5 Oracle label

音声認識結果 [SNR 5 dB] 96.5 Oracle label

未知雑音に対する実験結果 10-foldクロスバリデーションを用い、94種で学習、残りの11種の雑音でテストデータを作成 GMM 64混合,混合ごとの重み推定を使用 5 dB 0 dB -5 dB 再現率 0.808 0.879 0.934 適合率 0.802 0.806

まとめと今後の予定 突発性の雑音除去法を提案した シミュレーションデータにおいて、雑音除去によって認識率の改善が見られた 重み推定を行うことでの認識率の改善 未知雑音に対しても本手法の有効性を確認 大語彙・不特定話者での音声認識への適応 実環境での実験

ニュートン法を用いたαの決定 これを解析的にとくことは困難! →ニュートン法によって近似的に解く 収束するまで逐次更新