非負値行列因子分解に基づく唇動画像からの音声生成

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
符号化のための重み付きジョイントバイラテラルフィルタを用いた 奥行き画像超解像
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
Nonrigid Structure from Motion in Trajectory Space
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
音高による音色変化に着目した音源同定に関する研究
Broad Institute GenePattern
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
複数特徴量の重み付け統合による一般物体認識
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
メタモデルと音響モデルの 統合による構音障害者の音声認識
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
距離空間ピラミッドを用いた LLCによる3次元物体認識
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

非負値行列因子分解に基づく唇動画像からの音声生成 2-Q-38 非負値行列因子分解に基づく唇動画像からの音声生成 真坂 健太, 相原 龍, 滝口 哲也, 有木 康雄 (神戸大) 研究背景 研究目的 ✓音声認識や声質変換といった音声信号処理は、  音響的な特徴量のみに着目されて研究されてきた ✓画像情報からの音声生成を目指す 音声によるコミュニケーションが困難な状況下を想定したツール ✓人間は発話内容を理解する際、様々な情報を   統合的に利用している [1] ”Hearing lips and seeing voices” H. McGurk, 1976 ・騒音環境下でのコミュニケーションツール ・音声が欠落した映像からの発話復元 ・音声障害者のコミュニケーション支援 ✓マルチモーダル信号処理に関する研究が盛んに   行われている [2] “Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments” K. Masaka, 2014 提案手法 ✓唇動動画からの音声生成 非負値行列因子分解 Lip to Audio Synthesis System “ Hello ” “ Hello “ ✓NMF (Non-negative Matrix Factorization) ・入力特徴量は入力辞書行列の基底と重みの集合の  線形結合で表現される ・選択された基底を、対応する出力辞書行列の基底  と置き換えることで、出力特徴量へと変換される ✓辞書構築方法  唇動画像としてハイスピードカメラ画像を使用 L J Source training speech Source training video D Time information Sparse coding Source spectral feature (D × L) Source dictionary (D × J) Copy DCT STRAIGHT Parallel Data Alignment Audio features Visual features d Construction Converted spectral feature (d × L) Target dictionary (d × J) Parallel dictionaries Activity ✓ローカリティ制約の導入  アクティビティのスパース性を高めるため  辞書の基底数を限定する Kullback-Leibler divergence Sparsity constraint 評価実験 ✓実験条件 ✓客観評価実験 ・MCD Audio feature Magnitude spectrum Sampling rate 8 kHz Visual feature DCT Image size 130×80 Number of NMF iterations 300 Image frame rate 1000 fps ✓主観評価実験 ・MOSによる聞き取りやす  さの評価 (5段階評価) ・音声書き取りテスト ✓まとめ・課題 ・NMFに基づく唇動画像から音声生成  を行った ・ローカリティ制約の導入により、  明瞭な音声を生成することができた ・今後はより自然な音声を生成するた   めに、時間制約項の導入を検討する