Presentation is loading. Please wait.

Presentation is loading. Please wait.

非負値行列因子分解に基づく唇動画像からの音声生成

Similar presentations


Presentation on theme: "非負値行列因子分解に基づく唇動画像からの音声生成"— Presentation transcript:

1 非負値行列因子分解に基づく唇動画像からの音声生成
2-Q-38 非負値行列因子分解に基づく唇動画像からの音声生成 真坂 健太, 相原 龍, 滝口 哲也, 有木 康雄 (神戸大) 研究背景 研究目的 ✓音声認識や声質変換といった音声信号処理は、  音響的な特徴量のみに着目されて研究されてきた ✓画像情報からの音声生成を目指す 音声によるコミュニケーションが困難な状況下を想定したツール ✓人間は発話内容を理解する際、様々な情報を   統合的に利用している [1] ”Hearing lips and seeing voices” H. McGurk, 1976 ・騒音環境下でのコミュニケーションツール ・音声が欠落した映像からの発話復元 ・音声障害者のコミュニケーション支援 ✓マルチモーダル信号処理に関する研究が盛んに   行われている [2] “Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments” K. Masaka, 2014 提案手法 ✓唇動動画からの音声生成 非負値行列因子分解 Lip to Audio Synthesis System “ Hello ” “ Hello “ ✓NMF (Non-negative Matrix Factorization) ・入力特徴量は入力辞書行列の基底と重みの集合の  線形結合で表現される ・選択された基底を、対応する出力辞書行列の基底  と置き換えることで、出力特徴量へと変換される ✓辞書構築方法  唇動画像としてハイスピードカメラ画像を使用 L J Source training speech Source training video D Time information Sparse coding Source spectral feature (D × L) Source dictionary (D × J) Copy DCT STRAIGHT Parallel Data Alignment Audio features Visual features d Construction Converted spectral feature (d × L) Target dictionary (d × J) Parallel dictionaries Activity ✓ローカリティ制約の導入  アクティビティのスパース性を高めるため  辞書の基底数を限定する Kullback-Leibler divergence Sparsity constraint 評価実験 ✓実験条件 ✓客観評価実験 ・MCD Audio feature Magnitude spectrum Sampling rate 8 kHz Visual feature DCT Image size 130×80 Number of NMF iterations 300 Image frame rate 1000 fps ✓主観評価実験 ・MOSによる聞き取りやす  さの評価 (5段階評価) ・音声書き取りテスト ✓まとめ・課題 ・NMFに基づく唇動画像から音声生成  を行った ・ローカリティ制約の導入により、  明瞭な音声を生成することができた ・今後はより自然な音声を生成するた   めに、時間制約項の導入を検討する


Download ppt "非負値行列因子分解に基づく唇動画像からの音声生成"

Similar presentations


Ads by Google