雑音環境下における 非負値行列因子分解を用いた声質変換

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
高精度画像マッチングを用いた SAR衛星画像からの地表変位推定
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
音声からの心的状態の推定における 生理心理学的アプローチの導入
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
非負値行列因子分解による 構音障害者の声質変換
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
Broad Institute GenePattern
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

雑音環境下における 非負値行列因子分解を用いた声質変換 神戸大学大学院システム情報学研究科 情報科学専攻 CS17 有木研究室 藤井 貴生,相原龍,高島遼一,滝口哲也,有木康雄 ARIKI Lab. Kobe Univ.

声質変換とは? 声質変換は、入力音声を音韻情報などは保ったまま、話者性のような特定の情報のみを変換する技術である 話者変換や感情変換、発話支援など様々なタスクへの応用 異なる言語間における話者変換により、ある話者の性質で母国語以外の言語を発声 “いきおい” 入力話者 出力話者 ARIKI Lab. Kobe Univ.

研究背景・研究目的 雑音環境下における声質変換 従来は統計的アプローチによる声質変換がされてきた GMMに基づく声質変換 従来手法は雑音を考慮した定式化がされていない 入力話者 同一発話内容 の学習データ (パラレルデータ) フレーム毎に特徴量抽出 + DTWによりフレームを同期 フレーム毎の 特徴量 同一発話の フレームのペアから 変換関数を学習 出力話者 雑音環境下における声質変換 ARIKI Lab. Kobe Univ.

声質変換システムの流れ “いきおい” 変換 学習 特徴量抽出 パラレル辞書構築 Sparse Coding 変換 GMM学習 入力音声 (雑音重畳) 学習 特徴量抽出 パラレル辞書構築 Sparse Coding 変換 入力話者 GMM学習 GMMに基づく 補正 音声合成 出力音声 出力話者 ARIKI Lab. Kobe Univ.

パラレル辞書 入力話者と出力話者が同じテキストを発話した学習サンプルを用意(パラレルデータ) Dynamic Programmingによるマッチングによりフレーム間の同期を取り、それらの特徴量を並べたものを辞書とする(パラレル辞書) 平滑化 スペクトル 入力話者 辞書 入力話者音声 (source) 特徴量 抽出 フレーム間同期 出力話者 辞書 平滑化 スペクトル 出力話者音声 (target) パラレル辞書 ARIKI Lab. Kobe Univ.

Sparse Codingによる雑音除去・声質変換 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能 雑音辞書は入力の前後の無音区間から構築 平滑化スペクトルは本手法における雑音の分離には適さないため、入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる L J K D 分解 ? 入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅 スペクトル) (D x K) 音声辞書に対する 重みのみをコピー パラレル 辞書 重み行列を推定 (J x L) 内積により 再構成 出力話者辞書 (平滑化スペクトル) (D x J) 変換後の スペクトル系列 (D x L) 入力の 重み行列

Sparse Codingによる雑音除去・声質変換 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能 雑音辞書は入力の前後の無音区間から構築 平滑化スペクトルは本手法における雑音の分離には適さないため、入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる 変換 入力音声 (雑音重畳) 学習 L J K 特徴量抽出 パラレル辞書構築 D 分解 Sparse Coding 変換 ? 入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅 スペクトル) (D x K) 音声辞書に対する 重みのみをコピー パラレル 辞書 GMM学習 GMMに基づく 補正 重み行列を推定 (J x L) 音声合成 内積により 再構成 出力話者辞書 (平滑化スペクトル) (D x J) 変換後の スペクトル系列 (D x L) 出力音声 入力の 重み行列

提案手法 入力系列から推定される重み行列と,実際の目標の スペクトルを表す重み行列には相違がある →Sparse Coding変換後にGMMに基づく補正を行う L J K D 分解 目標となる スペクトル系列 入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅 スペクトル) (D x K) 音声辞書に対する 重みのみをコピー パラレル 辞書 相違がある GMMに基づく 補正 重み行列を推定 (J x L) 目標となる スペクトル系列 出力話者辞書 (平滑化スペクトル) (D x J) 変換後の スペクトル系列 (D x L) 推定されるべき 重み行列 入力の 重み行列

GMM学習 Sparse Coding変換後のスペクトルと目標話者のスペクトルを学習データとしてGMMを学習する →216単語のパラレルデータを用意 L J K D 分解 目標となる スペクトル系列 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅 スペクトル) (D x K) 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 変換モデル生成 出力話者辞書 (平滑化スペクトル) (D x J) 変換後の スペクトル系列 (D x L)

評価実験 雑音重畳音声を入力とする話者性の変換実験 2つの従来手法との比較 変換後の音声と目標音声とのケプストラム距離から変換の精度を算出 GMMに基づく声質変換法 Sparse Codingを用いた声質変換法 変換後の音声と目標音声とのケプストラム距離から変換の精度を算出 入力音声は男性話者の発話した単語・文章 学習データに含まれる50単語(CLOSED) 学習データに含まれていない25文章(OPEN) 辞書構築データ ATRデータベース216単語 入力話者(source) 男性1名 出力話者(target) 女性1名 雑音環境 レストラン(SNR:10dB)

CLOSED・OPENの両条件で提案手法を 実験結果 50単語(CLOSED) 25文章(OPEN) Cepstrum Distance Cepstrum Distance source target GMM SC SC+GMM CLOSED・OPENの両条件で提案手法を 用いた場合が最も目標音声へと近似された ARIKI Lab. Kobe Univ.

まとめ・今後の課題 本研究では雑音重畳音声に対する声質変換の検討を行った 評価実験により、雑音環境下において本提案手法が有効であることが示された Sparse Codingによる重み行列の推定に問題がある →重み行列自身を変換する手法の検討 ARIKI Lab. Kobe Univ.

ご清聴ありがとうございました ARIKI Lab. Kobe Univ.