非負値行列因子分解に基づく唇動画像からの音声生成

Slides:

Advertisements

Similar presentations

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

Advertisements

顔表情クラスタリングによる映像コンテンツへのタギング

音響モデルを利用したシングルチャネルによる音源方向推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

符号化のための重み付きジョイントバイラテラルフィルタを用いた奥行き画像超解像

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

Nonrigid Structure from Motion in Trajectory Space

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

車内状況アウェアネスのための感情音データベースの設計と評価

Web画像を用いたマルチモーダル情報による物体認識

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

ランダムプロジェクションを用いた音声特徴量変換

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

Buried Markov Modelを用いた構音障害者の音声認識の検討

非負値行列因子分解による構音障害者の声質変換

複数尤度を用いた３次元パーティクルフィルタによる選手の追跡 IS1-39

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

視点移動カメラにおけるカメラキャリブレーション

音高による音色変化に着目した音源同定に関する研究

Broad Institute GenePattern

Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University)

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定

Specmurtを利用した調波構造行列による混合楽音解析の検討

Basis vectors generation

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

複数特徴量の重み付け統合による一般物体認識

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

メタモデルと音響モデルの統合による構音障害者の音声認識

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

ブースティングとキーワードフィルタリングによるシステム要求検出

HMM音声合成における変分ベイズ法に基づく線形回帰

距離空間ピラミッドを用いた LLCによる3次元物体認識

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響特徴量を用いた自閉症児と定型発達児の識別

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

窪田進太郎有木康雄（神戸大）熊野雅仁（龍谷大）

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

１．２言語処理の諸観点（１）言語処理の利用分野

Presentation transcript:

非負値行列因子分解に基づく唇動画像からの音声生成 2-Q-38 非負値行列因子分解に基づく唇動画像からの音声生成真坂健太, 相原龍, 滝口哲也, 有木康雄（神戸大）研究背景研究目的 ✓音声認識や声質変換といった音声信号処理は、　音響的な特徴量のみに着目されて研究されてきた ✓画像情報からの音声生成を目指す音声によるコミュニケーションが困難な状況下を想定したツール ✓人間は発話内容を理解する際、様々な情報を　　統合的に利用している [1] ”Hearing lips and seeing voices” H. McGurk, 1976 ・騒音環境下でのコミュニケーションツール・音声が欠落した映像からの発話復元・音声障害者のコミュニケーション支援 ✓マルチモーダル信号処理に関する研究が盛んに　　行われている [2] “Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments” K. Masaka, 2014 提案手法 ✓唇動動画からの音声生成非負値行列因子分解 Lip to Audio Synthesis System “ Hello ” “ Hello “ ✓NMF (Non-negative Matrix Factorization) ・入力特徴量は入力辞書行列の基底と重みの集合の　線形結合で表現される・選択された基底を、対応する出力辞書行列の基底　と置き換えることで、出力特徴量へと変換される ✓辞書構築方法　唇動画像としてハイスピードカメラ画像を使用 L J Source training speech Source training video D Time information Sparse coding Source spectral feature (D × L) Source dictionary (D × J) Copy DCT STRAIGHT Parallel Data Alignment Audio features Visual features d Construction Converted spectral feature (d × L) Target dictionary (d × J) Parallel dictionaries Activity ✓ローカリティ制約の導入　アクティビティのスパース性を高めるため　辞書の基底数を限定する Kullback-Leibler divergence Sparsity constraint 評価実験 ✓実験条件 ✓客観評価実験・MCD Audio feature Magnitude spectrum Sampling rate 8 kHz Visual feature DCT Image size 130×80 Number of NMF iterations 300 Image frame rate 1000 fps ✓主観評価実験・MOSによる聞き取りやす　さの評価（5段階評価）・音声書き取りテスト ✓まとめ・課題・NMFに基づく唇動画像から音声生成　を行った・ローカリティ制約の導入により、　明瞭な音声を生成することができた・今後はより自然な音声を生成するた　　めに、時間制約項の導入を検討する