5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

Slides:



Advertisements
Similar presentations
顔表情クラスタリングによる 映像コンテンツへのタギング
Advertisements

Deep learningによる 読唇システム
音響モデルを利用したシングルチャネルに よる音源方向推定
連続音声の音響的性質.
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
ICML2006勉強会 2006年7月29日 局所フィッシャー判別分析 東京工業大学 計算工学専攻 杉山 将.
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
Data Clustering: A Review
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3 対判別フィッシャー重みマップを利用した局所特徴量による音素認識 加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工) 研究概要 実験結果 82.1 99.4 概要 で重み付け 音声信号 時間-周波数平面 局所特徴の行列 行列の特徴量 GMMで識別 認識結果 ハミング窓でFFT シフト幅10[ms] フレーム幅25[ms] 切出した時間周波数平面 35種の局所パターン シフト幅Sフレーム フレーム幅Tフレーム 時間軸方向に切出し 実験条件   同一の話者が発声したラベル付き音声データベース  □5母音・・・学習用、評価用に各音素100個ずつのデータ          (学習データと評価データは別)  □全音素・・・学習用、評価用に計2448個のデータ 研究背景  現在の音声認識システムではMFCC特徴量などが使用されているが、まだ音声の特徴を完璧に捉えた特徴量とはいえない  ⇒そこで、フィッシャー重みマップを利用した局所特徴量による手法を提案   ・局所特徴量・・・幾何学的特長を捉えた特徴量   ・フィッシャー重みマップ・・・どの部分の幾何学的特長が重要か  これを短時間フーリエ変換後の時間‐周波数平面で適用  ⇒これによって、時間‐周波数平面の認識に重要な幾何学的特徴のある場所が強調された特徴量が得られる 群判別の実験結果 普通の周波数 全音素の認識率(wの本数25) 64次元のメル周波数 認識率(%) フレーム幅 シフト幅 1 2 3   1 2 3 4 5 1 2 3 4 5 6 7 3         5         7 73.4% 78.5% 81.5% 81.4% 80.7% 5母音の認識率(wの本数5) フレーム幅5、シフト幅2 wの本数4のとき 提案手法 98.6(%) MFCC 95.8(%) 全音素の認識率(wの本数5) フレーム幅5、シフト幅3 wの本数4のとき 局所特徴量 フィッシャー重みマップ 局所特徴量  時間-スペクトル平面の各点に各局所パターンを適用したもの 提案手法 81.0(%) MFCC 84.6(%) □局所パターンの例 (3×3近傍では35種類) 対判別の実験結果 1 時間方向に連続する 値の大きさ 1 周波数方向 に連続する 値の大きさ 1 周波数の時間遷移の大きさ クラス1 クラス3 クラス2 実験結果(フレーム幅5、シフト幅2、 メル周波数64次元、6子音(pbtdkg)) 実験結果(フレーム幅5、シフト幅2、 メル周波数64次元、5母音) 95.8% 98.6% 時間-スペクトル平面 点(7,2)での15番目の局所パターン □局所特徴の例 局所特徴行列 35種類の 局所パターン 時間-周波数平面の各点 周波数 考察、まとめ ・メル周波数 通常の周波数と同様の認識率 ⇒通常の周波数でも良いのは重みの効果 ・対判別   p,b,t,d,k,gの6音素では群判別より認識率が良いが、母音の認識率は群判別と同じ ⇒似たような音素のグループでは効果はあるが、それ以外だと効果が薄い  時間 時間-スペクトル平面 対判別 □対判別の4クラスでの例 □識別 □学習 A D B C 0.1 0.4 0.3 0.6 0.9 0.7 0.8 0.2 今後の課題  ・全音素での群判別  ⇒音素をクラスタに分けて、クラスタの中で対判別を行なうなど  ・学習データとは違う話者での認識の検討  ・連続音声認識