音素部分空間の統合による音声特徴量抽出の検討

Slides:



Advertisements
Similar presentations
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
Advertisements

音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
相関分析.
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
雑音環境下における 非負値行列因子分解を用いた声質変換
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
Specmurtを利用した調波構造行列による 混合楽音解析の検討
独立成分分析 (ICA:Independent Component Analysis )
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
Fourier 変換 Mellin変換 演習課題
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Fourier 変換 Mellin変換 演習課題
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

音素部分空間の統合による音声特徴量抽出の検討 神戸大学 朴 玄信,滝口 哲也,有木 康雄

発表構成 研究背景・目的 従来手法 アプローチ PCA・LDAによる部分空間 提案手法(音素部分空間の統合) 音素部分空間解析 孤立単語認識実験 考察・まとめ・今後の予定

研究背景・目的 実環境で音声認識システムの需要が高まる 例:生活家電、ゲーム機、カーナビ など 実環境では様々なノイズの影響で認識率の低下 研究背景・目的   実環境で音声認識システムの需要が高まる 例:生活家電、ゲーム機、カーナビ など 実環境では様々なノイズの影響で認識率の低下 実環境でノイズに頑健な音声認識システムが必要

従来手法(耐雑音) モデルベース 特徴量ベース モデル選択 モデル適応 解析手法による特徴量抽出(事前学習なし) 統計手法による特徴量抽出(事前学習あり)

アプローチ1(音素部分空間統合) 事前学習ありの特徴量抽出法 主成分分析(PCA)、線形判別分析(LDA)を用い、観測空間から音素情報を表わす部分空間を推定 各音素の部分空間推定⇒各音素部分空間統合 PCAによる統合で、音素間の相関情報を特徴量空間に取り入れることを試みる。

アプローチ2(残響フィルタリング) X(i,ω) = S(i,ω)・N1 + N2 X:観測音声 i:フレーム ω:周波数 S:クリーン音声 N1:乗法性雑音 N2:加法性雑音 (残響時間が長い)残響の場合 N1は現在フレームに対する伝達特性(時不変) N2は過去フレームに対する反響音の足し合わせ(時変) logX = logS + log(N1 + N2/S) = logS + logN1 + log(1+N2/SN1) N1はSと無相関、N2にSの相関項の存在を仮定、 N2/SN1はSが打ち消され、Sと無相関 logSに対してPCAを行い、logXからlogSだけ抽出する軸推定

主成分分析(PCA) 共分散行列の 固有値分解による 正規直交基底推定 S1:全体構造、S2:共通性 O2 s1 Observed data 共分散行列の 固有値分解による 正規直交基底推定 S1:全体構造、S2:共通性 本研究では 音素部分空間学習と 部分空間統合に利用 s2 まず、本研究で用いる主成分分析(PCA)の性質について簡単に説明します。 観測空間O上に観測データがこのように分布しているとすると、PCAにより、新たなSの空間が得られます。 ここで、S1は観測データの変動性(全体構造)を表わし、S2は、軸の中心が共通性、外側はノイズ性を表わします。 目的により軸を選び部分空間を設計した後、観測データをこの部分空間へ射影することで、新たな特徴が得られます。 軸の計算は、観測データの共分散行列の固有値分解によって得られます。 本研究では、音素部分空間の推定と、部分空間の統合に用います。 Observed space O O1

線形判別分析(LDA) クラス内共分散 クラス間共分散 の固有値分解 S1:クラス識別空間 本研究では 音素部分空間学習 O2 Class 2 s1 クラス内共分散 クラス間共分散     の固有値分解 S1:クラス識別空間 本研究では 音素部分空間学習 本研究では、音素部分空間の推定にもちいます。 Class 1 Observed space O O1

音素部分空間の学習(PCA) /a/ /i/ /o/ /u/ 観測空間 O Φ/a/ Φ/i/ Φ/u/ Φ/o/ PCAによる音素部分空間 学習により得られる部分空間は、音素数個あり、各音素部分空間の基底数は同じにします。 これらの音素部分空間を原点合わせしてつなげることで、観測空間Oより高次元の、各音素情報を含む空間を学習することができます。

音素部分空間の学習(LDA) /a/ /i/ /o/ /u/ 観測空間 O Φ/a/ Φ/i/ Φ/u/ Φ/o/ LDAによる音素部分空間 PCAによる音素部分空間学習との違いは、各音素部分空間の学習時に、全音素データを用いるところです。 たとえば、/a/音素の部分空間の学習には、/a/クラスと、/a/以外のクラスを識別する2クラスLDAを用います。 PCAは特定音素データだけをみての空間を設計ですが、LDAは特定音素と他の音素との違いをみる空間設計になります。

音素部分空間の統合(PCA) Yt_/a/ Φ/a/ Yt_/a/ Φ/i/ Yt_/i/ Yt_/i/ Xt Φ/u/ Φ’ Yt_/u/ 全音素 データ集合 Yt_/a/ Φ/a/ Yt_/a/ Φ/i/ Yt_/i/ Yt_/i/ Xt Φ/u/ Φ’ Yt_/u/ Yt_/u/ PCA つぎは、音素部分空間の統合です。PCAやLDAにより求めた、各音素部分空間の統合をPCAにより行います。 PCAは次元圧縮や、各次元の無相関化によく用います。 ここでは、全音素データを各音素部分空間へ射影しているので、 全音素データに対して、相関の高い軸はPCAにより圧縮することができる。 こうして得られた軸は各音素の相関情報を表わしていると考えられる。 Φ/o/ Yt_/o/ 音素間の 相関を表わす空間 Yt_/o/ 各音素部分空間を単に繋げた空間へ射影されたベクトルYtの集合に対し PCAを行い、各音素部分空間を統合した空間(Φ’)を推定する。

特徴量抽出の流れ Speech signal 窓処理 FFT |.|2 Mel filter bank log 音素/a/ PCA or LDA yta xt PCA Yt’ 正規化 ・ +Δ 音素/i/ PCA or LDA yti HMM このでは、音声認識システムの学習と認識の入力になる、提案特徴量の抽出流れを説明する。 音声信号を窓処理し、フレームに分割し、フーリエ変換によりパワースペクトルを求めます。 次に、周波数を人間の聴覚特性を考慮したメル周波数に非線形変換して、フィルタバンクを行います。 フィルタバンクの出力エネルギーの対数を、ベースの特徴量とします。 音素/o/ PCA or LDA yto 統合した空間 音素部分空間 学習と認識 従来:DCT, PCA, LDA

評価実験条件 話者(男2女2)ごと学習2620単語、テスト1000単語 学習:クリーン音声 テスト:クリーン、380ms残響音声 学習:クリーン音声   テスト:クリーン、380ms残響音声 サンプリング12kHz、窓幅32ms、窓シフト8ms 比較特徴量 音響モデル(話者特定モデル、4人話者共通モデル)  54個音素HMM 3状態4混合 Log MFB MFCC (DCT) PCA LDA 音素部分空間 (PCA/LDA) 統合空間 (PCA) フレーム数 - 3000 54 x 100 54 x 100 基本係数 32 16 54 x 16

提案手法による部分空間解析 ( PCA ) ( PCA⇒PCA )

提案手法による部分空間解析 ( LDA ) ( LDA⇒PCA )

実験結果 クリーン音声認識 残響(380ms)音声認識 実験結果を示します。左が、クリーン音声認識、右が、380ms残響音声の認識結果です。 グラフの横軸は特徴量で、特定モデルと4人共通モデルに分けられた、縦軸は4人話者の音声認識率の平均です。 特徴量の左3つが従来手法、右二つ(PPCA、PLDA)が提案手法で、PPCAはPCA->PCA、PLDAはLDA->PCAです。 まず、全体の傾向として、特定モデル、クリーン音声の場合認識率が高く、4人共通モデル、残響音声の場合認識率が低いです。 従来手法間の比較では、全体的にPCAが一番いい結果を示しています。LDAは元の32次元上54個クラスを分けるので、認識劣化が起こりました。 次に、提案手法PPCA、PLDAを従来手法と比較してみると、クリーンの場合は同程度、残響の場合はDCTより約4~6%の認識率向上が得られました。

考察 特定話者モデルより、4人共通モデルの場合認識率の低下ー>不特定話者音声認識のためには、話者変動を表わす空間を推定し、除去の必要があるー>多数話者データを用い、音素固有の空間と、話者変動空間を推定 特定話者はPLDA(LDA->PCA)、4人共通はPPCA(PCA->PCA) 多数話者データを用いると、話者変動成分により、 LDAによる音素クラスの分離精度が低下する。 PCAは特定音素部分空間に話者変動成分を含むが、 統合PCAにより音素クラス間共通成分(話者変動成分)が除去される。

まとめ、今後の予定 特徴量空間を音素ごとの部分空間に分け、統合する手法を提案した。 提案手法により、クリーン音声に対しては従来と同程度、残響音声に対しては認識率の改善 今後は、多数話者のデータの用いて実験、 独立成分分析(ICA)やカーネルPCAなどを用いた部分空間推定と統合