ランダムプロジェクションを用いた 音声特徴量変換

Slides:



Advertisements
Similar presentations
果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
Advertisements

知能情報工学 年4月26日 吉川雅博 第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別辞書 (プロトタイプ) 音声や画像 (アナログ信号) 識別 結果 識別が容易な 特徴を抽出 プロトタイプと比較.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
顔表情クラスタリングによる 映像コンテンツへのタギング
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
デザイン情報学科 メディア情報設計 河原英紀
Specmurtを利用した調波構造行列による 混合楽音解析の検討
独立成分分析 (ICA:Independent Component Analysis )
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
マルチ識別器を用いた 花画像検索システムの構築
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
構造的類似性を持つ半構造化文書における頻度分析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

ランダムプロジェクションを用いた 音声特徴量変換 吉井麻里子,滝口哲也,有木康雄(神戸大) Jeff Bilmes (University of Washington)

発表内容 研究背景・目的 ランダムプロジェクション 提案手法 評価実験 まとめ・今後の課題 ランラムプロジェクションを用いた音声特徴量抽出 ROVERを用いた特徴量統合 評価実験 単語音声認識による評価 まとめ・今後の課題

研究背景・目的 音声認識性能の向上のために、観測信号から音声認識に必要な音声特徴のみを取り出す手法が必要 従来のMFCCや、PCA,LDA,ICAなどを用いた手法がある 空間写像を行い,有効な特徴を抽出 ランダムプロジェクション 空間写像の一手法 (画像処理・文書処理等で利用) 変換行列をランダムに与える,変換が容易 距離保存の性質 音声認識のためのランダムプロジェクションを用いた音声特徴量抽出の検討

ランダムプロジェクション ランダムな数値から得られた写像行列 R を用いて空間写像を行う手法 ランダム写像行列Rは,各成分が : reduced-dimensional vector, : original-dimensional vector, : random matrix, Rの例 ランダム写像行列Rは,各成分が 確率的にある値をとる行列として定義

ランダムプロジェクションの性質(1/2) 変換によるベクトル間類似度(内積) RPによりベクトルがそれぞれ n->x,m->y と変換されたとき,変換後の類似度は ここで,    を考える   の列ベクトル  が単位長であるとき,次のように書ける (Iは単位行列,εはN×Nの行列)

ランダムプロジェクションの性質(2/2) と が直交に近くなればなるほど, の要素の分布は0に近くなり,ベクトルの類似度は保存される   と  が直交に近くなればなるほど,  の要素の分布は0に近くなり,ベクトルの類似度は保存される   の分布を平均 0 ,分散1の正規分布であると仮定すると,  の要素の分布の平均は 0 ,分散  は, と書くことができる (dは削減次元数) したがって削減次元数dが大きい ほど,  は 0 に近づき,変換歪 みは保存される

ランダム写像行列の生成 1. 標準正規分布N(0, 1)に従うn×kの行列Rを作成 2. グラムシュミットの直交化手法を用いてRを直交化し,列ベクトルを大きさ1で正規化する

提案手法(1/3) ・・・ ・・・ ランダムプロジェクションによる音声特徴量変換 ROVERを用いたランダムプロジェクション 音声特徴量を入力としてランダムプロジェクションを行い,新たな音声特徴量を生成 ROVERを用いたランダムプロジェクション Speech feature Random matrix ASR Result Random matrix 1 ASR Random matrix 2 ASR rover module Speech feature Best Result ・・・ ・・・ Random matrix N ASR

提案手法(2/3) ROVERを用いたRP特徴量の統合 異なるランダムマトリックスから得られた特徴量を用いて音声認識を行い、その認識結果を投票し、最も投票された認識結果を出力とする J. G. Fiscus “A post-processing system to yield reduced word error rates : Recogniser output voting error reduction (ROVER)”, 1997 RP特徴量 音声認識 認識結果 投票 投票認識結果 RP特徴量1 「コンテンツ」 RP特徴量2 「コンテンツ」 「コンテンツ」 RP特徴量3 「ネットニュース」 ・・・ ・・・ ・・・ RP特徴量N 「コンテンツ」

提案手法(3/3) 音声特徴量 (1) (2) (3) (4) (5) FFT Mel-log Cos MFCC Random Transformation waveform MFCC +⊿+⊿⊿ (2) FFT Mel-log Cos Random Transformation waveform Random Transformation (3) FFT Mel-log Cos MFCC +⊿+⊿⊿ waveform (4) FFT Mel-log Cos Gavor Random Transformation waveform Gavor +⊿+⊿⊿ (5) FFT Mel-log Cos Random Transformation waveform

実験条件(1/2) 自動車内音声認識の評価用データベースCENSREC-3 (Corpus and Environments for Noisy Speech RECognition)・Condition4を使用 学習データ:アイドリング走行時3608音声 (男性202 名,女性91 名) 評価データ:低速・高速走行時8836音声 (男性8 名,女性10 名) 評価データ音声は50単語、学習データ音声は音素バランス文 単語音声の認識は音素HMMにより行う。それぞれ5状態32混合の分布

実験条件(2/2) 特徴量抽出条件 特徴量変換 標本化周波数,語長 16kHz, 16bit 分析窓 Hamming窓 フレーム幅,シフト幅 20ms, 10ms 特徴量次元数 対数メルフィルタバンク(24 dim) MFCC(12 dim) Gavor(60 dim) その他 低周波成分除去(250kHz以下) 特徴量はあらかじめ平均0,分散1に正規化 (1) MFCC(12次元) -> RP(12次元) (2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元) (3) MFCC(12次元) -> RP(12次元)+⊿+⊿⊿(36次元) (4) Gavor(60次元) -> RP(30次元) (5) Gavor+⊿+⊿⊿(180次元) -> RP(30次元)

実験結果(1), (2), (3) RP特徴量を100個使用したときの単語認識率 (3) (2) (1)

実験結果(4), (5) (4) (5)

雑音環境ごとの認識率 (1) (2) (3) (4) (5) (MFCC) (MFCC +⊿+⊿⊿) (Gavor) (Gavor Car speed In-car condition (MFCC) (MFCC +⊿+⊿⊿) (Gavor) (Gavor +⊿+⊿) Low speed Normal 88.21 (82.31) 94.22 (91.16) 93.87 (91.16) 92.92 (85.50) 92.81 (45.05) Fan(low) 86.24 (82.82) 90.82 (89.88) 89.88 (82.35) 90.24 (39.06) Fan(high) 72.63 (71.84) 74.41 (72.40) 74.97 (72.40) 77.21 (67.71) 78.32 (23.46) Audio(on) 62.54 (59.01) 77.03 (73.62) 78.09 (73.62) 67.14 (53.24) 68.43 (26.86) Window(open) 68.78 (64.55) 77.15 (74.25) 78.48 (74.25) 72.13 (63.10) 74.58 (25.75) High speed 79.78 (70.33) 88.67 (83.56) 88.33 (83.56) 89.22 (80.33) 89.67 (37.67) 80.11 (73.89) 86.89 (83.78) 85.89 (83.78) 86.00 (77.00) 87.44 (30.67) 70.33 (68.22) 71.33 (70.00) 73.56 (70.00) 73.11 (64.00) 75.22 (22.11) 57.95 (51.84) 76.20 (73.30) 76.31 (73.30) 69.86 (56.84) 71.64 (24.58) 50.33 (49.22) 52.78 (50.89) 53.90 (50.89) 51.11 (41.98) 51.34 (13.47) Overall 71.57 (67.28) 78.81 (76.14) 79.29 (76.14) 76.75 (67.10) 77.87 (28.73)

まとめ RTの有効性 ランダム写像行列の選び方で認識率に差が生じる Roverにより探求の必要なく高精度の認識が可能 今後の課題 認識に適した特徴量空間 ランダム写像行列の選び方で認識率に差が生じる 音声認識に適したランダムマトリックスの探求 Roverにより探求の必要なく高精度の認識が可能 今後の課題 ランダム写像行列の選択 学習時に選択できれば,認識コスト削減可能 ランダム写像行列ごとの性質の探求

ご清聴ありがとうございました。

音声特徴量空間 音声特徴量の2次元プロット MFCC(12) 2dim 6 4 2 -2 -4 -6 RP(12) 2dim 6 4 2 -2 -4 -6 RP(12) 2dim 6 4 2 -2 -4 -6 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 MFCC(12) 1dim RP(12) 1dim MFCC(12) 12dim 6 4 2 -2 -4 -6 RP(12) 12dim 6 4 2 -2 -4 -6 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 RP(12) 11dim MFCC(12) 11dim

認識率とROVERの関係 (2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元)

特徴量の個数ごとのROVER認識率 [%] (2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元) RP特徴量の個数

ランダム写像行列の直交化 (1) MFCC(12次元) -> RP(12次元) RP特徴量10個 正規分布を要素に持つRM 正規分布を要素に持つ行列に対して直交化 正規分布を要素に持つ行列に対して直交化・列正規化

Random transformation 100 trials of RT for MFCC Random transformation Baseline Vote Max. Mean Min. 71.57% 70.64% 68.68% 66.57% 67.28%

100 trials of RT for MFCC+⊿+⊿⊿ Random transformation Baseline Vote Max. Mean Min. 78.81% 79.20% 76.17% 72.77% 76.14%

100 trials of RT for MFCC, and its⊿ and ⊿⊿ Random transformation Baseline Vote Max. Mean Min. 79.29% 79.33% 76.03% 70.93% 76.14%

Random transformation 100 trials of RT for Gavor Random transformation Baseline Vote Max. Mean Min. 76.75% 74.68% 70.43% 66.24% 67.10%

100 trials of RT for Gavor+⊿+⊿ Random transformation Baseline Vote Max. Mean Min. 77.87% 74.41% 69.90% 64.76% 28.73%