3次キュムラントのバイスペクトラムと PCAによる音声区間検出

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
音響モデルを利用したシングルチャネルに よる音源方向推定
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
主成分分析 Principal Component Analysis PCA
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
プログラミング論 主成分分析
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

3次キュムラントのバイスペクトラムと PCAによる音声区間検出 松田博義,滝口哲也,有木康雄(神戸大) 目的 3次キュムラントの拡張 3次キュムラントの バイスペクトラム キュムラント 音声 3次キュムラントをフレーム間での 相関をとるように拡張.  -K, lは現在処理しているフレームからの距離   ただし,-M ≦ k, l ≦ Mである.  -各フレームから,kを横軸, lを縦軸として,   下図のような2次元のデータが得られる. 得られた3次キュムラントに対し,データ解析の為2次元離散フーリエ変換を行う. 2次元離散フーリエ変換されたものから,PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより,3次元キュムラントによる音声特徴とする. VAD 音声特徴抽出 キュムラント 指標 1次 平均 2次 分散 3次 歪度 4次 尖度 尤度比(信頼値)計算 平滑化及び閾値処理 音声 時間 l離れた フレーム k離れた 現在 処理している 音声フレーム 音声区間 非音声区間 ・実環境における問題点   -目的音声に重畳する各種の    雑音による認識性能の劣化   -音声区間のみを検出(VAD:   Voice Activity Detection)することが必要 3次キュムラントの Bispectrumによる音声特徴 ・キュムラント(累積数)  -確率分布の形状を示す指標.  -正規分布は3次以上のキュムラントは   すべて0となっている. ・3次キュムラントによる音声特徴  -雑音は音声に比べると   乱数(ホワイトノイズ)に近い.  -雑音の3次以上のキュムラントは0に 近くなる. 適用例 音声 雑音重畳音声 雑音 音声、雑音、雑音重畳音声に 対して3次キュムラントバイ スペクトラムを計算.  -雑音重畳音声のSNはおよそ10dB.  -雑音が抑圧され,音声が   強調されている.   →音声強調の効果.

MFCCとの統合 尤度比判定 実験条件 PCA-最適な次元数の決定 実験結果-高速道路走行時 GMM-最適なストリーム重みの決定  キュムラント:フレーム間特徴 MFCC,キュムラントでストリームに分け, 実験により適切な重みを決定する. 補完しあっている. MFCC (n次元) キュムラント 特徴(m次元) 統合特徴(n+m次元) 音声 データ GMM 実験結果:高速道路走行時,SN比:0~10dB,平均6dB PCAにより圧縮した次元数 GMM-最適なストリーム重みの決定 尤度比判定 MFCCとキュムラントを統合する際の最適な ストリーム重みの決定.  -MFCCは固定で,キュムラントに関する重みのみを  変更した. GMMより得られた尤度を用い,対数尤度比を計算. 前後の数フレームで平滑化を行い,閾値判定. L’(x)≧θ:音声 L’(x)<θ:非音声 θ:閾値 実験条件 学習データ  -音声:雑音を重畳させた文章の発話データ.   ASJより男性8名×150発話,女性8名×150発話.  -非音声:一般道路走行時における車内雑音データ   5分弱. テストデータ  -アイドリング時,高速道路走行時における   車内での発話データ.各データとも男性4名女性4名,   各話者100発話,計800発話. 比較対象 ・MFCC  -フレーム幅:32[ms],シフト幅:8[ms] ,Δ無,16次元.  -フレーム幅:32[ms],シフト幅:8[ms] ,Δ有,32次元. ・キュムラント  -フレーム幅:32[ms],シフト幅:1[ms],   最大30フレーム遅延までを計算,8~64次元. ・初期統合による統合特徴  -キュムラント+MFCC(Δ無),48次元.  -キュムラント+MFCC(Δ有),64次元. 考察及び今後の予定 キュムラント特徴に対するストリーム重み キュムラント単体では従来手法であるMFCCを 上回ることはできなかった.  -キュムラント特徴は音声波形のガウス性の有無に  よる音声,非音声の判定を行なっている.  →波形に周期性が現れると,区間検出の際,   音声であると誤検出してしまう. キュムラントと,MFCCを統合することにより 結果は改善された.  -キュムラントによるフレーム間での特徴,MFCCによる   フレーム内での特徴が互いに補完しあったため. 今後の予定  -波形から計算している3次キュムラントをMFCCから   計算する.  -検出された区間に対する認識実験. 実験結果-アイドリング時 実験結果:アイドリング時,SN比:15~25dB,平均18dB