3次キュムラントのバイスペクトラムと PCAによる音声区間検出

Slides:

Advertisements

Similar presentations

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

Advertisements

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

音響モデルを利用したシングルチャネルによる音源方向推定

ウェーブレットによる信号処理と画像処理宮崎大輔 2004年11月24日（水） PBVセミナー.

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

Web画像を用いたマルチモーダル情報による物体認識

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

応用統計学の内容推測統計学(inferential statistics) 　　連続型の確率分布　　標本分布　　統計推定　　統計的検定.

ランダムプロジェクションを用いた音声特徴量変換

神戸大学工学部松政宏典，滝口哲也，有木康雄追手門学院大学経済学部李義昭神戸大学発達科学部中林稔堯

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討

非負値行列因子分解による構音障害者の声質変換

複数尤度を用いた３次元パーティクルフィルタによる選手の追跡 IS1-39

PCAからICAへ？狩野裕＋清水昌平（大阪大学人間科学部）日本行動計量学会：東京大学　平成12年10月.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去.

音素部分空間の統合による音声特徴量抽出の検討

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定

Specmurtを利用した調波構造行列による混合楽音解析の検討

主成分分析 Principal Component Analysis PCA

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

プログラミング論主成分分析

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

非負値行列因子分解に基づく唇動画像からの音声生成

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

HMM音声合成における変分ベイズ法に基づく線形回帰

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

窪田進太郎有木康雄（神戸大）熊野雅仁（龍谷大）

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

3次キュムラントのバイスペクトラムと PCAによる音声区間検出松田博義，滝口哲也，有木康雄(神戸大) 目的 3次キュムラントの拡張 3次キュムラントのバイスペクトラムキュムラント音声３次キュムラントをフレーム間での相関をとるように拡張．　-K, lは現在処理しているフレームからの距離　ただし，-M ≦ k, l ≦ Mである．　-各フレームから,kを横軸, lを縦軸として，　下図のような2次元のデータが得られる．得られた３次キュムラントに対し，データ解析の為２次元離散フーリエ変換を行う． 2次元離散フーリエ変換されたものから，PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより，3次元キュムラントによる音声特徴とする． VAD 音声特徴抽出キュムラント指標１次平均２次分散３次歪度４次尖度尤度比(信頼値)計算平滑化及び閾値処理音声時間 l離れたフレーム k離れた現在処理している音声フレーム音声区間非音声区間・実環境における問題点　　-目的音声に重畳する各種の　　　雑音による認識性能の劣化　　-音声区間のみを検出(VAD: 　　Voice Activity Detection)することが必要３次キュムラントの Bispectrumによる音声特徴・キュムラント(累積数) 　-確率分布の形状を示す指標．　-正規分布は３次以上のキュムラントは　すべて０となっている．・3次キュムラントによる音声特徴　-雑音は音声に比べると　乱数(ホワイトノイズ)に近い．　-雑音の3次以上のキュムラントは0に近くなる．適用例音声雑音重畳音声雑音音声、雑音、雑音重畳音声に対して3次キュムラントバイスペクトラムを計算．　-雑音重畳音声のSNはおよそ10dB．　-雑音が抑圧され，音声が　強調されている．　　→音声強調の効果．

MFCCとの統合尤度比判定実験条件 PCA-最適な次元数の決定実験結果-高速道路走行時 GMM-最適なストリーム重みの決定　キュムラント：フレーム間特徴 MFCC，キュムラントでストリームに分け，実験により適切な重みを決定する．補完しあっている． MFCC (n次元) キュムラント特徴(m次元) 統合特徴(n+m次元) 音声データ GMM 実験結果:高速道路走行時，SN比：0～10dB，平均6dB PCAにより圧縮した次元数 GMM-最適なストリーム重みの決定尤度比判定 MFCCとキュムラントを統合する際の最適なストリーム重みの決定．　-MFCCは固定で，キュムラントに関する重みのみを　変更した． GMMより得られた尤度を用い，対数尤度比を計算．前後の数フレームで平滑化を行い，閾値判定． L’(x)≧θ:音声 L’(x)＜θ:非音声 θ:閾値実験条件学習データ　-音声：雑音を重畳させた文章の発話データ．　 ASJより男性8名×150発話，女性8名×150発話．　-非音声：一般道路走行時における車内雑音データ　 5分弱．テストデータ　-アイドリング時，高速道路走行時における　車内での発話データ．各データとも男性4名女性4名，　各話者100発話，計800発話．比較対象・MFCC 　-フレーム幅:32[ms]，シフト幅:8[ms] ，Δ無，16次元．　-フレーム幅:32[ms]，シフト幅:8[ms] ，Δ有，32次元．・キュムラント　-フレーム幅:32[ms]，シフト幅:1[ms]，　最大30フレーム遅延までを計算，8～64次元．・初期統合による統合特徴　-キュムラント+MFCC(Δ無)，48次元．　-キュムラント+MFCC(Δ有)，64次元．考察及び今後の予定キュムラント特徴に対するストリーム重みキュムラント単体では従来手法であるMFCCを上回ることはできなかった．　-キュムラント特徴は音声波形のガウス性の有無に　よる音声，非音声の判定を行なっている．　→波形に周期性が現れると，区間検出の際，　　音声であると誤検出してしまう．キュムラントと，MFCCを統合することにより結果は改善された．　-キュムラントによるフレーム間での特徴，MFCCによる　フレーム内での特徴が互いに補完しあったため．今後の予定　-波形から計算している3次キュムラントをMFCCから　計算する．　-検出された区間に対する認識実験．実験結果-アイドリング時実験結果:アイドリング時，SN比：15～25dB，平均18dB