1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

Slides:



Advertisements
Similar presentations
顔表情クラスタリングによる 映像コンテンツへのタギング
Advertisements

HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
Specmurtを利用した調波構造行列による 混合楽音解析の検討
プログラミング論 主成分分析
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
部分的最小二乗回帰 Partial Least Squares Regression PLS
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
距離空間ピラミッドを用いた LLCによる3次元物体認識
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
パターン認識特論 ADA Boosting.
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
パターン認識特論 ADA Boosting.
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出 松田博義,滝口哲也,有木康雄(神戸大) 音声特徴 目的 3次キュムラントの バイスペクトラム キュムラント 3次キュムラントの拡張 音声 3次キュムラントをフレーム間での 相関をとるように拡張.  -K, lは現在処理しているフレームからの距離   ただし,-M ≦ k, l ≦ Mである.  -各フレームから,kを横軸, lを縦軸として,   下図のような2次元のデータが得られる. 得られた3次キュムラントに対し,データ解析の為2次元離散フーリエ変換を行う. 2次元離散フーリエ変換されたものから,PCA(主成分分析)を行い有意な情報だけを用いて次元圧縮することにより,3次元キュムラントによる音声特徴とする. VAD キュムラント 指標 1次 平均 2次 分散 3次 歪度 4次 尖度 音声特徴抽出 尤度比(信頼値)計算 音声 時間 l離れた フレーム k離れた 現在 処理している 音声フレーム 平滑化及び閾値処理 音声区間 非音声区間 ・実環境における問題点   -目的音声に重畳する各種の    雑音による認識性能の劣化   -音声区間のみを検出(VAD:   Voice Activity Detection)することが必要 識別器 複数クラスAdaBoost Real AdaBoost 道路 AdaBoost J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression: A Statistical View of Boosting” AdaBoostの学習を行う際、 非音声を複数のクラスに分割  -非音声の分散が小さくなり、  より適切なモデルが得られる   ようになる 学習データ 音声 x | y=1 非音声 x | y=-1 音声データ 道路 GMM 食堂 GMM 男声 GMM 女性 GMM 1 テストデータ xt 弱識別器 弱識別器 弱識別器 弱識別器 ・・ 非音声データ -1 食堂 AdaBoost 強識別器 実験条件 学習データ  -非音声:CENSREC-1-Cより実験に使わなかった   データの非音声部分を切り出したもの(約20分).  -音声:AURORA-2Jの学習用クリーン音声に上記の   非音声を重畳させたものを用いた(8440発話). テストデータ  ・CENSREC-1-Cより実環境データ   -食堂(高SNR)、食堂(低SNR)、   道路(高SNR)、道路(低SNR)の4環境。   -男性4名、女性5名。各話者9~10発話のデータ×4. 比較対象 ・Energy-based VAD ・MFCC, GMM ・MFCC + Cumulant, AdaBoost -Cumulant   ・フレーム幅:64[ms],シフト幅:1[ms],   最大30フレーム遅延までを計算,32次元. -AdaBoost   ・M=1000 評価尺度 -性能評価はフレームベースで行ない,  FRR  (False Rejection Rate)と,  FAR  (False Acceptance Rate)を  用いる. 実験結果 考察 食堂環境において大きな改善が見られる. -キュムラント特徴は,相関,ピッチ,波形の強さ等  を反映した特徴となっており,MFCCでは音声との  分離が困難な雑音(雑談等)でも分離することが可能. 平均結果においてMFCC + Cumulant, AdaBoost の実験結果がGMMを上回った. -特徴量を統合することにより,MFCCのもつフレーム  内での情報,キュムラントの持つフレーム間での  情報を補完しあった. -GMMが学習においてすべてのデータを均等に  用いるのに比べ,AdaBoost は識別が難しい  データに対して重点的な学習を行なうため. -AdaBoost は音声・非音声の分離に特化した  識別器を構成する.  ・音声・非音声の分離に必要な情報だけを見て,   より正確な規則を構築している. 道路環境での結果 食堂環境での結果 各環境での平均結果