バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出

Slides:



Advertisements
Similar presentations
顔表情クラスタリングによる 映像コンテンツへのタギング
Advertisements

画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音素部分空間の統合による音声特徴量抽出の検討
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
-画像処理(空間フィルタリング)- 画像処理(空間フィルタリング)のモデルとその基本操作 雑音除去・平滑化への適用
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
複数特徴量の重み付け統合による一般物体認識
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出 神戸大学大学院工学研究科情報知能学専攻 CS17有木研究室 山田馨士朗 有木康雄 滝口哲也

研究背景(1/2) 音声認識において 時間ー周波数平面上のフォルマント遷移・・・音素や発音の情報 雑音下音声認識における問題 時間ー周波数平面上のこれらの情報は雑音により容易に歪まされる ・・・・認識率の低下 周波数 :フォルマント 時間

研究背景(2/2) 画像の平滑化による雑音除去(ex.ガウシアンフィルタ) ・・・細かな雑音を除去することができるが 同時にフォルマント遷移(エッジ)情報も平滑化の影響で劣化 Bilateral filter[C.Tomasi and R.Manduchi(1998)] エッジ情報を保存しつつ、画像の平滑化を行うことが可能 (a) Original image (b) Gaussian filter (c) Bilateral filter

Bilateral filter filtering

Bilateral filter = min( 時間長、周波数範囲)/16 = (対数パワースペクトルの最大値    = (対数パワースペクトルの最大値              −対数パワースペクトルの最小値)/10

Mel Frequency Cepstrum Coefficient 提案手法1 離散コサイン変換 DFT係数 Bilateral Filter メル軸上での 三角窓の出力 Bilateral filtered MFCC 音声波形 対数化 対数パワー STDFT Mel Filter Bank Proposed method Mel Frequency Cepstrum Coefficient + Bilateral filter MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う これをProposedとする

提案手法2 音声波形 DFT係数 Bilateral Filter Bilateral Filter 対数パワー STDFT メル軸上での Frequency 提案手法2 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 Bilateral Filter 対数化 離散コサイン変換 Bilateral Filter 対数パワー Bilateral filtered MFCC MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を2回行う この手法をProposed2とする

提案手法3 音声波形 DFT係数 対数パワー Bilateral Filter STDFT メル軸上での 三角窓の出力 MFCCに対し Frequency 提案手法3 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 対数化 離散コサイン変換 対数パワー MFCC Bilateral Filter Bilateral filtered MFCC MFCCに対し Bilateral filterを用いた平滑化を行う これをProposed3とする

評価実験ー単語音声認識実験 音声データ 男女10名の話者が発声したラベルつき音声データベース 音声データ 男女10名の話者が発声したラベルつき音声データベース (ATR音素バランス文Aセット)20→8kHzにダウンサンプリング データ数 各話者、学習データ2620単語 各話者、評価データに学習に使用していないデータ1000単語 音素数 54音素 特徴量 bilateral filtered MFCC+⊿+⊿⊿(提案手法) MFCC+⊿+⊿⊿ 音響モデル HMM(5状態、8混合) 雑音環境 食堂内、高速道路付近 (CENSREC-1-Cに収録)の無音部分を重畳 SNR10~20dB

結果(1/8)(MFにバイラテラルあり、なしの比較) Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

結果(2/8)(MFにバイラテラルフィルタ2回、13dim) Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

結果(3/8)(MFCCにバイラテラルフィルタ、13dim) Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

結果(4/8)(提案手法1~3まとめ) features method MFCCE 13dim Restaurant noise Baseline 69.5 Proposed 1 79.7 Proposed 2 78.0 Proposed 3 74.4 Street noise 74.9 84.1 82.5 80.6 数値は10話者の平均の認識率(%)

結果(5/8)(MFにバイラテラルあり、なしの比較) Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

結果(6/8)(MFにバイラテラルあり、MFCCE26dim) Recognition rate[%] Noise: restaurant noise baseline: MFCC+MFCC⊿+energy(26dim) proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim)

結果(7/8)(MFにバイラテラルあり、MFCCE39dim) Recognition rate[%] Noise: restaurant noise baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)

結果(8/8)(特徴量別、他手法との比較) features method MFCCE 13dim MFCCE+⊿ 26dim Restaurant noise Baseline 69.5 64.6 54.5 Proposed 1 79.7 80.6 78.6 SS 73.8 71.6 68.6 Gaussian 76.4 79.8 78.3 Street noise 74.9 80.1 79.5 84.1 86.9 84.3 81.1 81.2 80.8 83.7 83.1 数値は10話者の平均の認識率(%)

考察・今後の課題 Bilateral filterはノイズを平滑化し影響を 低減する為に効果があると考えられる  低減する為に効果があると考えられる MFCC以外に相性のよい特徴量はないか SS等の雑音推定手法との違い Gaussianとの差異・・・フィルタのパラメータ調整 SSやその他手法との組み合わせ 音声に特化したフィルタの特徴付け

ご静聴ありがとうございました

Mel Frequency Cepstrum Coefficient 提案手法1 離散コサイン変換 DFT係数 Bilateral Filter メル軸上での 三角窓の出力 Bilateral filtered MFCC 音声波形 対数化 対数パワー STDFT Mel Filter Bank Proposed method Mel Frequency Cepstrum Coefficient + Bilateral filter MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う これをProposedとする

提案手法2 音声波形 DFT係数 Bilateral Filter Bilateral Filter 対数パワー STDFT メル軸上での Frequency 提案手法2 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 Bilateral Filter 対数化 離散コサイン変換 Bilateral Filter 対数パワー Bilateral filtered MFCC MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を2回行う この手法をProposed2とする

提案手法3 音声波形 DFT係数 対数パワー Bilateral Filter STDFT メル軸上での 三角窓の出力 Frequency 提案手法3 STDFT Mel Filter Bank 音声波形 DFT係数 メル軸上での 三角窓の出力 対数化 離散コサイン変換 対数パワー MFCC Bilateral Filter Bilateral filtered MFCC MFCCに対し Bilateral filterを用いた平滑化を行う これをProposed3とする

結果4 features method MFCC 13dim restaurant noise Proposed 78.6% Baseline 54.5% Proposed2 78.0% Proposed3 74.4% street noise 84.3% 79.5% 82.5% 80.6% 数値は10話者の平均の認識率

結果1(MFにバイラテラルあり、なしの比較) Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)

Recognition rate[%] Noise: restaurant noise baseline: MFCC+MFCC⊿+energy(26dim) proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim)

Recognition rate[%] Noise: restaurant noise baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)

実験結果(4/4) features method MFCC MFCC+⊿ MFCC+⊿+⊿⊿ restaurant noise proposed 79.7% 80.6% 78.6% Baseline 69.5% 64.6% 54.5% street noise Proposed 84.1% 86.9% 84.3% 74.9% 80.1% 79.5% 数値は10話者の平均の認識率

Recognition rate[%]

Recognition rate[%]

Recognition rate[%]

Recognition rate[%]

Recognition rate[%]

DFT係数 音声波形 対数パワー Bilateral Filter STDFT メル軸上での 三角窓の出力 離散コサイン変換 Bilateral filtered MFCC 対数化 対数パワー STDFT Mel Filter Bank Bilateral Filter Proposed method

Recognition rate [%]

Frequency

Recognition rate [%]

結果(バイラテラルフィルタ2回、13dim) Recognition rate[%] Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim)