非負値行列因子分解に基づく唇動画像からの音声生成

非負値行列因子分解に基づく唇動画像からの音声生成
2-Q-38 非負値行列因子分解に基づく唇動画像からの音声生成真坂健太, 相原龍, 滝口哲也, 有木康雄（神戸大）研究背景研究目的 ✓音声認識や声質変換といった音声信号処理は、　音響的な特徴量のみに着目されて研究されてきた ✓画像情報からの音声生成を目指す音声によるコミュニケーションが困難な状況下を想定したツール ✓人間は発話内容を理解する際、様々な情報を　　統合的に利用している [1] ”Hearing lips and seeing voices” H. McGurk, 1976 ・騒音環境下でのコミュニケーションツール・音声が欠落した映像からの発話復元・音声障害者のコミュニケーション支援 ✓マルチモーダル信号処理に関する研究が盛んに　　行われている [2] “Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments” K. Masaka, 2014 提案手法 ✓唇動動画からの音声生成非負値行列因子分解 Lip to Audio Synthesis System “ Hello ” “ Hello “ ✓NMF (Non-negative Matrix Factorization) ・入力特徴量は入力辞書行列の基底と重みの集合の　線形結合で表現される・選択された基底を、対応する出力辞書行列の基底　と置き換えることで、出力特徴量へと変換される ✓辞書構築方法　唇動画像としてハイスピードカメラ画像を使用 L J Source training speech Source training video D Time information Sparse coding Source spectral feature (D × L) Source dictionary (D × J) Copy DCT STRAIGHT Parallel Data Alignment Audio features Visual features d Construction Converted spectral feature (d × L) Target dictionary (d × J) Parallel dictionaries Activity ✓ローカリティ制約の導入　アクティビティのスパース性を高めるため　辞書の基底数を限定する Kullback-Leibler divergence Sparsity constraint 評価実験 ✓実験条件 ✓客観評価実験・MCD Audio feature Magnitude spectrum Sampling rate 8 kHz Visual feature DCT Image size 130×80 Number of NMF iterations 300 Image frame rate 1000 fps ✓主観評価実験・MOSによる聞き取りやす　さの評価（5段階評価）・音声書き取りテスト ✓まとめ・課題・NMFに基づく唇動画像から音声生成　を行った・ローカリティ制約の導入により、　明瞭な音声を生成することができた・今後はより自然な音声を生成するた　　めに、時間制約項の導入を検討する

非負値行列因子分解に基づく唇動画像からの音声生成

Similar presentations

Presentation on theme: "非負値行列因子分解に基づく唇動画像からの音声生成"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

非負値行列因子分解に基づく唇動画像からの音声生成

Similar presentations

Presentation on theme: "非負値行列因子分解に基づく唇動画像からの音声生成"— Presentation transcript:

Similar presentations

About project

フィードバック