Number of random matrices

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
顔表情クラスタリングによる 映像コンテンツへのタギング
最大エントロピーモデルに基づく形態素解析と辞書による影響
Deep learningによる 読唇システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
Specmurtを利用した調波構造行列による 混合楽音解析の検討
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
線形判別分析 Linear Discriminant Analysis LDA
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第5回音声ドキュメント処理ワークショップ (2011/3/7)
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

Number of random matrices 1-Q-6b ランダムプロジェクションを用いた 構音障害音声の認識および誤り単語検出 ☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大) NETファイル 研究背景・目的 近年,音声認識が新たな入力インタフェースとして注目されている. 構音障害者の発話スタイルは健常者と大きくことなる ⇒ 認識率10%以下 改善ポイント:①データベース,②音素体系,③特徴量 ランダムプロジェクション: 空間写像の手法.変換行列の各要素がある確率分布に従うランダムな値として定義される. ⇒ 音声特徴量変換に応用.ノイズ音声で効果あり.          ⇒ ランダム写像行列によって認識率にばらつきがある. 提案手法: 複数のRMを用いて特徴量変換.各々の特徴量で学習・認識を行い,各認識結果に対して多数決をとることで最適な認識結果を得る.さらに,その投票結果に基づいて認識結果の自動正誤判定を行う. <構音障害者> <健常者> /a k e g a t a/ ランダムプロジェクション ランダム写像行列 R n次元ユークリッド空間からk次元ユークリッド空間に写像する. 元の空間上における任意の2点間のユークリッド距離が変換後も高い確率で保存されるという性質がある. 標準正規分布N(0,1)に従うn×kの行列Rを作成. Gram-Schmidtの直交化手法を用いてRを直交化. 列ベクトルを大きさ1で正規化. : reduced-dimensional vector, : original-dimensional vector, : random matrix, 提案手法 ランダムプロジェクションによる音声特徴量変換 ROVER法を用いた特徴量統合(投票によって最適な認識結果を得る) 投票結果に基づく正誤判定 正解の場合,  ⇒ 少数の候補に票が集まる. 不正解の場合,⇒ 複数の候補に票がばらける. ⇒ 投票結果の第1候補と第2候補の投票数で正誤判定. 実験条件 Speech feature Random matrix Result ASR 構音障害者1名を対象とした孤立単語認識,および正誤判定実験 実験データ: - ATR音素バランス単語(210単語),各単語5回連続発話 第2~5発話を学習データ,第1発話を評価データに用いる 音響モデル:monophone-HMM(5状態8混合) 音声特徴量: MFCC[12dim.] + ΔMFCC[12dim.] MFCC[12dim.] to RP[12dim.] + ΔMFCC[12dim.] Random matrix 1 ASR ROVER module Speech feature Random matrix 2 ASR Best Result ・・・ ・・・ Random matrix N ASR 実験結果・考察 単語認識実験 ランダム写像行列の数:20, 40, 60, 80, 100と変化 ベースライン:76.67% 平均認識率(Mean.)ではベースラインに及ばない. ROVER用いて認識結果を統合 ⇒ 安定して高い認識率が得られる. 20~40個程度の統合で十分. 正誤判定実験 第2~5発話に対して提案手法②を適用(leave-one-out). 各単語の投票結果を用いて非線形SVMを学習. 第1発話に対して正解か誤りかを判定. Number of random matrices T/P Rate [%] T/N Acc. [%] 20 92.3 42.9 82.4 40 95.8 43.2 84.8 60 92.8 60.5 86.2 80 92.9 58.5 100 56.1 85.2 正解単語に関しては高い精度で分類可能. 不正解単語の場合,分類精度が大きく劣化 ⇒ 投票数だけでは困難? 今後の予定 音声認識に適したランダム写像行列の選択・生成 不正解単語に関する,分類精度の向上