雑音環境下における非負値行列因子分解を用いた声質変換

Slides:

Advertisements

Similar presentations

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

Advertisements

画像処理学習用RTコンポーネントライブラリ田窪朋仁，大原賢一，吉岡健伸（大阪大学）

高精度画像マッチングを用いた SAR衛星画像からの地表変位推定

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

音声からの心的状態の推定における生理心理学的アプローチの導入

Web画像を用いたマルチモーダル情報による物体認識

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

ランダムプロジェクションを用いた音声特徴量変換

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

非負値行列因子分解による構音障害者の声質変換

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

視点移動カメラにおけるカメラキャリブレーション

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去.

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

音高による音色変化に着目した音源同定に関する研究

多重ベータ分布を用いた音色形状の数理モデリングによる

Broad Institute GenePattern

Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University)

高度情報演習1A “テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第二回演習課題

高度情報演習1C 実践画像処理プログラミング第二回演習課題

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

Basis vectors generation

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

非負値行列因子分解に基づく唇動画像からの音声生成

音声情報とベイジアンネットを用いた感性情報処理システム

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

クロスバリデーションを用いたベイズ基準によるHMM音声合成

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

AdaBoostを用いたシステムへの問い合わせと雑談の判別

ブースティングとキーワードフィルタリングによるシステム要求検出

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し，合成できるインタフェース

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響伝達特性を用いたシングルチャネル音源方向推定

制約付き非負行列因子分解を用いた音声特徴抽出の検討

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

雑音環境下における非負値行列因子分解を用いた声質変換神戸大学大学院システム情報学研究科情報科学専攻　CS17　有木研究室藤井貴生，相原龍，高島遼一，滝口哲也，有木康雄 ARIKI Lab. Kobe Univ.

声質変換とは？声質変換は、入力音声を音韻情報などは保ったまま、話者性のような特定の情報のみを変換する技術である話者変換や感情変換、発話支援など様々なタスクへの応用異なる言語間における話者変換により、ある話者の性質で母国語以外の言語を発声 “いきおい” 入力話者出力話者 ARIKI Lab. Kobe Univ.

研究背景・研究目的雑音環境下における声質変換従来は統計的アプローチによる声質変換がされてきた GMMに基づく声質変換従来手法は雑音を考慮した定式化がされていない入力話者同一発話内容の学習データ（パラレルデータ）フレーム毎に特徴量抽出 + DTWによりフレームを同期フレーム毎の特徴量同一発話のフレームのペアから変換関数を学習出力話者雑音環境下における声質変換 ARIKI Lab. Kobe Univ.

声質変換システムの流れ “いきおい” 変換学習特徴量抽出パラレル辞書構築 Sparse Coding 変換 GMM学習入力音声 (雑音重畳) 学習特徴量抽出パラレル辞書構築 Sparse Coding 変換入力話者 GMM学習 GMMに基づく補正音声合成出力音声出力話者 ARIKI Lab. Kobe Univ.

パラレル辞書入力話者と出力話者が同じテキストを発話した学習サンプルを用意(パラレルデータ) Dynamic Programmingによるマッチングによりフレーム間の同期を取り、それらの特徴量を並べたものを辞書とする(パラレル辞書) 平滑化スペクトル入力話者辞書入力話者音声 (source) 特徴量抽出フレーム間同期出力話者辞書平滑化スペクトル出力話者音声 (target) パラレル辞書 ARIKI Lab. Kobe Univ.

Sparse Codingによる雑音除去・声質変換雑音の辞書を足すことで、入力音声を雑音と音声に分離可能雑音辞書は入力の前後の無音区間から構築平滑化スペクトルは本手法における雑音の分離には適さないため、入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる L J K D 分解？入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 音声辞書に対する重みのみをコピーパラレル辞書重み行列を推定 (J x L) 内積により再構成出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L) 入力の重み行列

Sparse Codingによる雑音除去・声質変換雑音の辞書を足すことで、入力音声を雑音と音声に分離可能雑音辞書は入力の前後の無音区間から構築平滑化スペクトルは本手法における雑音の分離には適さないため、入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる変換入力音声 (雑音重畳) 学習 L J K 特徴量抽出パラレル辞書構築 D 分解 Sparse Coding 変換？入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 音声辞書に対する重みのみをコピーパラレル辞書 GMM学習 GMMに基づく補正重み行列を推定 (J x L) 音声合成内積により再構成出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L) 出力音声入力の重み行列

提案手法入力系列から推定される重み行列と，実際の目標のスペクトルを表す重み行列には相違がある →Sparse Coding変換後にGMMに基づく補正を行う L J K D 分解目標となるスペクトル系列入力系列 (振幅スペクトル) (D x L) 入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 音声辞書に対する重みのみをコピーパラレル辞書相違がある GMMに基づく補正重み行列を推定 (J x L) 目標となるスペクトル系列出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L) 推定されるべき重み行列入力の重み行列

GMM学習 Sparse Coding変換後のスペクトルと目標話者のスペクトルを学習データとしてGMMを学習する →216単語のパラレルデータを用意 L J K D 分解目標となるスペクトル系列入力話者辞書 (振幅スペクトル) (D x J) 雑音辞書 (振幅スペクトル) (D x K) 入力系列 (振幅スペクトル) (D x L) パラレル辞書変換モデル生成出力話者辞書 (平滑化スペクトル) (D x J) 変換後のスペクトル系列 (D x L)

評価実験雑音重畳音声を入力とする話者性の変換実験２つの従来手法との比較変換後の音声と目標音声とのケプストラム距離から変換の精度を算出 GMMに基づく声質変換法 Sparse Codingを用いた声質変換法変換後の音声と目標音声とのケプストラム距離から変換の精度を算出入力音声は男性話者の発話した単語・文章学習データに含まれる50単語(CLOSED) 学習データに含まれていない25文章(OPEN) 辞書構築データ ATRデータベース216単語入力話者(source) 男性１名出力話者(target) 女性１名雑音環境レストラン(SNR:10dB)

CLOSED・OPENの両条件で提案手法を実験結果 50単語(CLOSED) 25文章(OPEN) Cepstrum Distance Cepstrum Distance source target GMM SC SC+GMM CLOSED・OPENの両条件で提案手法を用いた場合が最も目標音声へと近似された ARIKI Lab. Kobe Univ.

まとめ・今後の課題本研究では雑音重畳音声に対する声質変換の検討を行った評価実験により、雑音環境下において本提案手法が有効であることが示された Sparse Codingによる重み行列の推定に問題がある →重み行列自身を変換する手法の検討 ARIKI Lab. Kobe Univ.

ご清聴ありがとうございました ARIKI Lab. Kobe Univ.