1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討

Slides:



Advertisements
Similar presentations
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
回帰分析.
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
第12章 連続潜在変数 修士 1年 村下 昇平.
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
Specmurtを利用した調波構造行列による 混合楽音解析の検討
独立成分分析 (ICA:Independent Component Analysis )
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
パターン認識特論 カーネル主成分分析 和田俊和.
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討 朴 玄信, 滝口 哲也, 有木 康雄 (神戸大)  研究背景・目的・アプローチ ICAによる音素部分空間の統合 音声認識システムの実用化には、実環境に頑健である必要 実環境に頑健な音声認識システムのための特徴量抽出 アプローチ (データ依存特徴量抽出) 主成分分析(PCA)により、観測信号から音素情報だけを抽出 独立成分分析(ICA)により、互いに独立で、音素間の関係を表わす成分を抽出 音素部分空間とは、各音素データに対してPCAを行うことで得られる、射影行列(基底ベクトル集合) /a/ /i/ /o/ /u/ 観測空間 O Φ/a/ Φ/i/ Φ/u/ Φ/o/ 全音素部分空間 Φ PCA PCAによる特徴量抽出 観測空間上のデータ分布(構造)をうまく表す新たな空間(正規直交基底ベクトル)を求め、観測信号をこの空間へ射影することで、情報抽出ができる O1 O2 Observed data s1 s2 Observed space O ICAを用いて、各音素部分空間の統合を行う。 各音素部分空間(射影行列)をつなげた空間へ観測ベクトルを射影し、射影されたベクトル集合に対してICAを行うことで、各音素部分空間を統合する射影行列Φ`が得られる。 ●共分散行列Sの固有値分解 ●分散(固有値)が大きい基底ベクトルをPから選び、分空間Vとする ●観測ベクトルxを部分空間Vへ射影 ICA 射影されたベクトル集合 統合した空間 Φ’ 全音素部分空間 Φ ICAによる特徴量抽出 特徴量抽出フロー ●お互い独立な成分による観測信号生成モデル xt 音素/a/ PCA 音素/i/ PCA 音素/o/ PCA 音素部分空間 (射影行列 Φ) yta yti yto ICA 統合した空間(射影行列 Φ’) Yt’ HMM 学習と認識 フレーム 処理 FFT |.|2 Mel filter bank log Speech signal 正 規 化 ・ +Δ 統合した固有音素空間は大きい空間(音素数*各部分空間次元)になる。さらにPCAを用いて次元圧縮を図る。 ●観測信号xの集合だけを用い、Aとsを同時に推定 ●復元行列Wにより復元されるベクトルの独立性(非ガウス性)  を最大化することで、sの近似解が求まる ●本研究では、独立性基準をネゲントロピーとし、不動点アルゴリズムを用いて独立成分を推定するFastICAを用いた。 実験条件 実験結果 音声認識タスク 孤立単語認識 音声信号 サンプリング周波数 12kHz フレーム処理 フレーム幅 32ms, 窓シフト 8ms 認識対象話者 4名(男2名、女2名) 学習データ 4x2620単語(クリーン) 評価データ 4x1000単語(x6 残響条件) 音響モデル 54個のモノフォンHMM (3状態、4混合分布) 考察・まとめ 比較特徴量 次元数 元の次元数 (元の特徴量) MFCC 16 32 (FBANK) PCA 音素部分空間 16 x 54 PCA-PCA PCA-ICA 16 x 54 (音素部分空間射影) 提案特徴量PCA-ICAは全ての残響条件において、MFCCより高い認識率を示した。 残響時間が短い場合、PCAやPCA-PCAより性能低下 音素部分空間の最適化が行われなかった。 全ての独立成分を一つのベクトルとし、HMMで学習・評価 予定1 各音素部分空間の最適化 予定2 独立成分のHMMベースモデリング手法の検討

補足 ICAの拡張としての提案手法 生成モデル 従来ICA 提案手法 復元モデル 従来ICA 提案手法 生成モデルで、従来ICAのAは、ノイズの影響で変動 提案手法では、AにV転置行列をかけることで、 変動が抑えられ、音素相関情報が付加される 復元モデルでは、観測信号xを音素部分空間(V)へ射影 観測信号のノイズが除去され、各音素との相関情報が取り出される。そこから独立成分が抽出される。