非負値行列因子分解による 構音障害者の声質変換

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
複数の言語情報を用いたCRFによる音声認識誤りの検出
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
Broad Institute GenePattern
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
Basis vectors generation
複数対象への音声入力による行動指示 ~個別行動から共同行動への研究~
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第5回音声ドキュメント処理ワークショップ (2011/3/7)
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

非負値行列因子分解による 構音障害者の声質変換 神戸大学システム情報学研究科  相原龍, 高島遼一, 滝口哲也, 有木康雄

研究背景 聴覚・言語障害者は全国に約34万人 (平成18年度 厚生労働省) 構音障害 言葉を正しく明瞭に発話できない 子音の欠落 (平成18年度 厚生労働省) 構音障害 言葉を正しく明瞭に発話できない 子音の欠落 アテト-ゼ型の脳性麻痺による構音障害者を対象   アテトーゼ=意図的動作時や緊張状態に起こる不随意運動 がいしゅつ 構音障害者の声質変換

声質変換とは? 声質変換 Aさんの声 Bさんの声 障害者音声変換 障害者音声 健常者音声 子音が復元され,聞き取りやすく

従来手法 Gaussian Mixture Model : GMM 障害者と健常者のパラレルデータ 変換音声を平均で推定 Over-smoothing

提案手法・・・非負値行列因子分解とは? NMF基づく声質変換 非負値行列因子分解(Non-negative Matrix Factorization) Sparse性を考慮 Exemplar-based⇒少ないデータでも自然性 L J L D D J 入力パターン系列 (D x L) 辞書 (Exemplars) (D x J) 時系列毎に得られる 各Exemplarに対する重み (Activities) (J x L) (Activity の推定にはスパース制約付きNMFを使用)

アライメント問題 パラレルデータの作成 HMM強制アライメント⇒DPマッチング A Ak aK K Ki kI I 健常者 A Ak aK 障害者

アライメント問題 パラレルデータの作成 HMM強制アライメント⇒DPマッチング A Ak aK K Ki kI I 健常者 A Ak aK 障害者

アライメント問題 パラレルデータの作成 HMM強制アライメント⇒DPマッチング A Ak aK K Ki kI I 健常者 A Ak aK 障害者

提案手法 a k i a b _ k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D D J L パラレルデータ (学習辞書データ) L 健常者音声 a b _ k i D J

提案手法 a k i a b _ k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D D J L パラレルデータ (学習辞書データ) L 健常者音声 a b _ k i D J

提案手法 a k i a b _ k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D D J L パラレルデータ (学習辞書データ) L 健常者音声 a b _ k i D J

提案手法 a k i a b _ k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D D J L パラレルデータ (学習辞書データ) L 健常者音声 a b _ k i D J

提案手法 a k i a b _ k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D D J L パラレルデータ (学習辞書データ) L 健常者音声 a b _ k i D J

提案手法 a k i a b _ k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D D J L パラレルデータ (学習辞書データ) L 健常者音声 a b _ k i D J

提案手法 a k i a b _ k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D D J L パラレルデータ (学習辞書データ) L 健常者音声 a b _ k i D J

提案手法 a k i a b _ k i a k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D L J パラレルデータ (学習辞書データ) 健常者音声 a k i a b _ k i D D J L J L

提案手法 a k i a b _ k i a k i a b _ k i 障害者音声 障害者音声 健常者音声 Sparse Coding D L J パラレルデータ (学習辞書データ) 健常者音声 a k i a b _ k i D D L J J L

実験条件 データベース 聴取実験 健常者:男性音素バランス単語 障害者:男性1名 学習:50単語 変換:(A)Closed (B)Open(One-leave-out法) 聴取実験 成人男女10名による主観評価 「聞き取りやすさ」「子音の明瞭性」 5段階MOS評価    1.非常に聴き取りずらい⇔5.非常に聴き取りやすい

実験結果 外出 がいしゅつ (g ai sh u ts u) 障害者音声 Closed変換音声 Open変換音声 健常者音声

実験結果 t e ch ou 障害者(Source) Closed変換 健常者(Target) Open変換

実験結果 約0.7ポイント上昇 約0.3ポイント上昇

考察 聞き取りやすさ,子音の明瞭さ共に向上 変換ノイズ ⇒セグメント特徴量の導入 欠落した子音は完全には復元されない ⇒辞書行列の変換

非負値行列因子分解による構音障害者の声質変換 APPENDIX

子音の欠落 A Ak aK K Ki kI I 健常者 学習 データ A Ak aK Ki kI I 障害者 A Ak aK Ki kI I 入力データ 障害者

考察 欠落した子音は完全には復元されない A Ak aK K Ki kI I 健常者 学習 データ A Ak aK Ki kI I 障害者 入力データ 障害者

考察 欠落した子音は完全には復元されない A Ak aK K Ki kI I 健常者 学習 データ A Ak aK Ki kI I 障害者 入力データ 障害者