音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景 尤度判定による音源位置推定 従来の音源位置推定法   固定されたマイクロフォンアレーによって各マイクロフォンにおける   観測信号の位相差から音源位置を推定 位置毎に発話された音声を学習し,テストデータに対して,尤度が最も高いモデルの位置を音源位置として出力する. [1] 住田他,音講論 (春),1-P-8,pp. 771-772,2008. 尤度比較 学習 1 30-channel arrays 32-channel arrays 位置毎の 音声GMM 研究の目的   マイク一つで音源位置推定が行えないだろうか? 位置毎に異なる音響伝達特性が位置毎に音声の性質を変形させる 提案手法 音源位置ごとに異なる音響伝達特性 2音源における観測信号 話者(音源)が複数の場合   位置の組み合わせ毎にモデルを作成して尤度を比較する   学習が困難   ・音源数2,位置数3の場合,位置の組み合わせは9通り   ・それぞれの組み合わせについて,同時に発話してもらう必要がある をGMM (Gaussian Mixture Model), をSingle Gaussian Model でそれぞれモデル化し, 研究のゴール   尤度判定による方法で複数音源(2音源)の位置推定を行う モデル合成によりあらゆる組み合わせの観測信号 のモデルを作成する. Clean speech GMM Training data for each position Training data for each position Clean speech GMM 1.話者ごとのクリーン音声GMMをケプストラム領域であらかじめ学習 2.クリーン音声GMMを用いてトレーニングデータから最尤推定法   により音響伝達特性を推定 Estimation of the acoustic transfer function Estimation of the acoustic transfer function Training of the acoustic transfer function model for each position Training of the acoustic transfer function model for each position 3.位置毎の音響伝達特性を正規分布で学習 4.クリーン音声モデルと伝達特性を足し合わせて話者ごとの   残響音声モデルを作成 5.各モデルに逆コサイン変換,指数変換を適用して,ケプストラム   領域からスペクトル領域に変換 IDCT IDCT Exp Exp 6.話者毎の残響音声モデルを足し合わせて観測信号モデルを作成 Log 7.観測信号モデルに対数変換,コサイン変換を適用して,スペクトル   領域からケプストラム領域に変換 DCT 8.全ての位置の組み合わせについて観測信号モデルを作成し,テストデータに対して   最も尤度の高い位置の組み合わせを出力 Composite GMM of observed signal 評価実験 まとめ 単一マイクによる複数音源の 位置推定法の提案を行った. 比較手法と比べて,トレーニングデータが少ない場合において,優位性が顕著に現れた. →学習過程で発話者に負担を   かけさせない 今後の課題 他の手法に比べて優位でも精度は6割程度. 観測信号から音韻特徴を消す方法について検討 比較手法1:X-Model   手順1~4を行わずに,残響音声から直接残響音声モデルを作成   する(クリーン音声モデルの学習が不必要) 比較手法2:O-Model   全ての手順を省き,複数の話者によって同時に発話されたときの   観測信号から直接位置毎の観測信号モデルを作成する 実験条件   特徴量:MFCC 16次元   サンプリング周波数:12kHz   音源数:2個   位置数:3箇所(位置の組み合わせは9通り存在)   クリーン音声モデルの混合数:64混合   その他のモデルの混合数:トレーニングデータの文章数により調節 両方の話者の位置が正解した場合の正解率 少なくとも片方の位置が正解した場合の正解率