ランダムプロジェクションを用いた音響モデルの線形変換

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

BRIEF: Binary Robust Independent Elementary Features
音響モデルを利用したシングルチャネルに よる音源方向推定
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
果物識別 マハラノビス距離を求める.
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
独立成分分析 (ICA:Independent Component Analysis )
Basis vectors generation
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
距離空間ピラミッドを用いた LLCによる3次元物体認識
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第5回音声ドキュメント処理ワークショップ (2011/3/7)
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
パターン認識特論 カーネル主成分分析 和田俊和.
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

ランダムプロジェクションを用いた音響モデルの線形変換 (22) ◎吉井 麻里子,滝口 哲也,有木 康雄(神戸大), 研究の背景・目的 ■さまざまな環境下において頑健な音声特徴量抽出手法 ■ランダムプロジェクション:高次元空間における任意の2点間のユークリッド距離が,射影先の低次元空間においてもほぼ保存される,という性質を持つ空間写像の手法 → 音声特徴量抽出に用いることで、音声認識の向上を目指す → RMにより認識率にばらつき ■ランダムプロジェクション特徴量の統合 → ROVERを用いた音声特徴量統合 ■音響モデルに対してランダムプロジェクションを行うことで、モデル学習コストを削減 ランダムプロジェクション ランダム写像行列 R 1. 標準正規分布N(0,1)に従う n×k の行列Rを作成 2. グラムシュミットの直交化手法を用いてRを直交化し、 列ベクトルを大きさ1で正規化 ■N 次元ユークリッド空間からd 次元ユークリッド空間へランダムに写像する空間写像の手法 ■ランダムプロジェクションは,元の空間上における任意の2点間のユークリッド距離が変換後も高い確率で保存されるという性質を持つ : reduced-dimensional vector, : original-dimensional vector, : random matrix, 音声特徴量 (1) MFCC(12dim.) -> RP(12dim.) (2) MFCC+⊿+⊿⊿(36dim.) -> RP(36dim.) (3) MFCC(12dim.) -> Segment(11frame, 132dim.) -> RP(36dim.) (4) Gavor(60dim.) -> RP(36dim.) (5) Gavor+⊿+⊿⊿(180dim.) -> RP(36dim.)        , ランダム写像関数 ,        の任意の2点 RPによる音響モデル変換と特徴量変換 実験条件 自動車内音声認識の評価用データベースCENSREC-3 (Corpus and Environments for Noisy Speech RECognition)・Condition4を使用(16kHz・16bit・Monaural) ■学習データ:アイドリング走行時3608音声 ■評価データ:低速・高速走行時8836音声 □評価データ音声は50単語、学習データ音声は音素バランス文を使用 □単語音声の認識は音素HMMにより行う。それぞれ5状態32混合の分布 □得られた特徴量はあらかじめ平均0・分散1に正規化しておく ■ROVERを用いた音響モデルの線形変換による特徴量統合 Test data Speech feature Random matrix 1 Random matrix 1 Recog. Test data Speech feature Random matrix 2 Random matrix 2 Recog. Speech feature HMM ROVER module Best Result ・・・ ・・・ Training data Test data Speech feature Random matrix N Random matrix N Recog. 実験と考察 ■特徴量に対してランダムプロジェクションを行いHMMを学習 ■学習されたHMMに対してランダムプロジェクションを行いRP特徴量で認識 ■音声特徴量に対してRPを行うことで従来より高い音声認識率が得られた ■ROVERによる統合を行うことで安定して高い認識率が得られた ■学習されたHMMに対してRPを行い学習コストを抑えた場合も、音声特徴量に対してRPを行ったときと同様に効果が確認できた □高次元特徴から作成されたHMMは学習が十分でないため、セグメント特徴量132次元やGAVOR+Δ+ΔΔ特徴量180次元の場合は認識率が低下 →HMMの線形変換後に再学習を行うことで対応可能と考えられる ■今後の予定  ○RPによる特徴量空間の変化に対する考察  ○音声認識に適したランダム写像行列の選 択・生成 (1) (2) (3) (4) (5) (6)