非負値行列因子分解に基づく唇動画像からの音声生成 2-Q-38 非負値行列因子分解に基づく唇動画像からの音声生成 真坂 健太, 相原 龍, 滝口 哲也, 有木 康雄 (神戸大) 研究背景 研究目的 ✓音声認識や声質変換といった音声信号処理は、 音響的な特徴量のみに着目されて研究されてきた ✓画像情報からの音声生成を目指す 音声によるコミュニケーションが困難な状況下を想定したツール ✓人間は発話内容を理解する際、様々な情報を 統合的に利用している [1] ”Hearing lips and seeing voices” H. McGurk, 1976 ・騒音環境下でのコミュニケーションツール ・音声が欠落した映像からの発話復元 ・音声障害者のコミュニケーション支援 ✓マルチモーダル信号処理に関する研究が盛んに 行われている [2] “Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments” K. Masaka, 2014 提案手法 ✓唇動動画からの音声生成 非負値行列因子分解 Lip to Audio Synthesis System “ Hello ” “ Hello “ ✓NMF (Non-negative Matrix Factorization) ・入力特徴量は入力辞書行列の基底と重みの集合の 線形結合で表現される ・選択された基底を、対応する出力辞書行列の基底 と置き換えることで、出力特徴量へと変換される ✓辞書構築方法 唇動画像としてハイスピードカメラ画像を使用 L J Source training speech Source training video D Time information Sparse coding Source spectral feature (D × L) Source dictionary (D × J) Copy DCT STRAIGHT Parallel Data Alignment Audio features Visual features d Construction Converted spectral feature (d × L) Target dictionary (d × J) Parallel dictionaries Activity ✓ローカリティ制約の導入 アクティビティのスパース性を高めるため 辞書の基底数を限定する Kullback-Leibler divergence Sparsity constraint 評価実験 ✓実験条件 ✓客観評価実験 ・MCD Audio feature Magnitude spectrum Sampling rate 8 kHz Visual feature DCT Image size 130×80 Number of NMF iterations 300 Image frame rate 1000 fps ✓主観評価実験 ・MOSによる聞き取りやす さの評価 (5段階評価) ・音声書き取りテスト ✓まとめ・課題 ・NMFに基づく唇動画像から音声生成 を行った ・ローカリティ制約の導入により、 明瞭な音声を生成することができた ・今後はより自然な音声を生成するた めに、時間制約項の導入を検討する