制約付き非負行列因子分解を用いた音声特徴抽出の検討

Slides:

Advertisements

Similar presentations

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

Advertisements

音響モデルを利用したシングルチャネルによる音源方向推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

雑音重み推定と音声ＧＭＭを用いた雑音除去

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

ランダムプロジェクションを用いた音声特徴量変換

神戸大学工学部松政宏典，滝口哲也，有木康雄追手門学院大学経済学部李義昭神戸大学発達科学部中林稔堯

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討

非負値行列因子分解による構音障害者の声質変換

複数尤度を用いた３次元パーティクルフィルタによる選手の追跡 IS1-39

高次元データの解析－平均ベクトルに関する検定統計量の漸近分布に対する共分散構造の影響－

PCAからICAへ？狩野裕＋清水昌平（大阪大学人間科学部）日本行動計量学会：東京大学　平成12年10月.

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮電子情報通信学科甲藤二郎

音高による音色変化に着目した音源同定に関する研究

音素部分空間の統合による音声特徴量抽出の検討

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

第６章特徴空間の変換６．１特徴選択と特徴空間の変換６．２特徴量の正規化平成１５年５月２３日（金）発表者藤井丈明

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

独立成分分析 (ＩＣＡ：Independent Component Analysis )

Basis vectors generation

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

パターン認識特論担当：和田俊和部屋 A513 主成分分析

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

部分的最小二乗回帰 Partial Least Squares Regression PLS

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

メタモデルと音響モデルの統合による構音障害者の音声認識

非負値行列因子分解に基づく唇動画像からの音声生成

Number of random matrices

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

制約付き非負行列因子分解を用いた音声特徴抽出の検討神戸大学大学院　工学研究科朴　玄信，滝口哲也，有木康雄

発表構成研究背景・目的非負行列因子分解(NMF: Nonnegative Matrix Factorization）提案手法評価実験モデル，初期化，更新ルール，制約提案手法相関情報を用いたNMFの初期化 NMFを用いた音声特徴抽出評価実験 NMFの誤差による評価単語音声認識率による評価まとめ・今後の課題第１０回音声言語シンポジウム

研究背景・目的音声認識システムの性能向上のため，観測信号から重要な音声特徴だけを抽出する手法が必要 PCAやICAなど統計的手法に基づく事前知識を用いたデータ依存型特徴抽出法が有効非負行列因子分解（NMF）は局所的特徴抽出に有効画像などの高次元空間上のデータから局所的基底（パーツ）音源分離などにも応用音声認識のための，NMFを用いた特徴抽出相関情報を用いた，NMFの初期化第１０回音声言語シンポジウム

非負行列因子分解(NMF) 1/2 X W H n本 m次元サンプル r本基底ベクトル n本 r次元係数サンプル第１０回音声言語シンポジウム

非負行列因子分解(NMF) 2/2 目的関数（XとWH間）更新ルール（WとHの要素ごと）スパースネス制約ユークリッド距離，カルバック・ライブラー情報量更新ルール（WとHの要素ごと）加算ルール，乗算ルールスパースネス制約 Wに対して，以下のパースネス尺度を満たすように射影第１０回音声言語シンポジウム

NMFの初期化手法 Random-based Clustering-based SVD-based WとHを，N(0,1)に従うランダム値の絶対値で初期化 Clustering-based (Spherical) K-Means clustering [S.Wild(2004), Y.Xue(2008)] Wをクラスタの中心ベクトルで構成，Hはランダム SVD-based NNDSVD (Non-Negative Double Singular Value Decomposition) [C.Boutsidis(2008)] WとHを，Xの特異ベクトルで構成ただし，負の成分には，０か，Xの平均値を代入第１０回音声言語シンポジウム

相関伝播初期化 (1/2) X W H 相関行列和相関 X0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 H0 = X0 1 0.1 0.2 0.3 0.1 1 0.4 0.1 0.2 0.4 1 0.4 0.3 0.1 0.4 1 0.6 1 0.8 X1 1 0 0 0 1 0 0.2 0.4 0.4 0 0 1 H1 1 0.4 0.6 0.4 1 0.1 0.6 0.1 1 1 0.5 0.7 X2 0.4 0.6 1 0 0.48 0.32 0 1 H2 第１０回音声言語シンポジウム

相関伝播初期化 (2/2) 相関伝播初期化の定式化相関伝播初期化の特徴 d : 最大和相関を持つ次元 c: d次元とl次元間の相関比局所的な初期解（W）ランダム要素なし比較的早い計算スピード第１０回音声言語シンポジウム

Pre-emphasis/ windowing NMFを用いた音声特徴抽出特徴抽出フロー定式化 DCTやPCAの高次特徴も考慮した特徴抽出 Pre-emphasis/ windowing FFT |.|2 Mel filter log DCT NMF Speech signal MFCC Proposed Feature 第１０回音声言語シンポジウム

実験条件データ行列X NMF更新 NMF初期化手法の比較単語音声認識音声特徴抽出法の比較(２４次元（12＋Δ12)，平均０正規化) 24 x 5,075　（対数メルフィルタバンク出力 x ランダムサンプル数）音素と話者のバランスがとれたランダムサンプリング NMF更新乗算ルールとスパースネス制約による，2万回更新スパースネス制約は，０．２～０．７ NMF初期化手法の比較 RANDOM, SKM, NNDSVD, CP 単語音声認識男女１０人から，学習データ26,200単語，テストデータ10,000単語音響モデル：５４個のモノフォンHMM，３状態２０混合音声特徴抽出法の比較(２４次元（12＋Δ12)，平均０正規化) DCT(MFCC), PCA, ICA, NMF 第１０回音声言語シンポジウム

初期化手法による基底Wと誤差初期化 RANDOM SKM NNDSVD CP 誤差 3.5E+06 1.5E+06 2.0E+05 第１０回音声言語シンポジウム

２万回更新後の基底Wの変化第１０回音声言語シンポジウム

２万回更新後の誤差第１０回音声言語シンポジウム

NMFを用いた単語認識第１０回音声言語シンポジウム

特徴抽出手法の比較（変換行列，認識率）第１０回音声言語シンポジウム

まとめ相関伝播初期化は誤差最小化に有効 NMFによる特徴量は，PCAによる特徴量と同等の性能今後の課題中程度スパースネス制約弱いスパースネス制約 -> 局所的より大局的特徴が有効？今後の課題対角分散共分散用いるため，NMFの直交化（離散コサイン変換など）パワースペクトル空間上でのNMF （メルフィルタバンクの代わりとして） NMFの初期化手法と更新ルールとの関係について第１０回音声言語シンポジウム

第１０回音声言語シンポジウム

行列W 初期 MSE DIV SC_W0.2 第１０回音声言語シンポジウム

NMF推定誤差（｜X-WH｜F） ERROR RAND SKM SVD SVDa CP CPa Initial 3.75E+06 1.25E+05 2.78E+02 1.98E+05 2.16E+04 2.04E+06 MSE 23.84 23.88 73.35 23.95 45.45 23.82 DIV 40.45 40.50 127.62 40.65 73.42 40.39 SC_0.2 24.01 24.00 57.06 24.05 23.96 23.99 SC_0.4 123.51 23.87 23.81 第１０回音声言語シンポジウム

単語認識結果 clean RAND SKM SVD SVDa CP CPa MSE 95.4 96.0 93.7 95.7 91.7 96.4 DIV 95.9 93.4 95.6 96.6 SC_0.2 96.1 90.2 96.3 SC_0.4 95.0 94.3 90.9 95.2 第１０回音声言語シンポジウム