亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

Slides:



Advertisements
Similar presentations
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
Advertisements

高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
復習.
音響モデルを利用したシングルチャネルに よる音源方向推定
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
クロストーク成分の相互相関に 着目した音場再生システム
デジタル信号処理①
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
ガウス誤差関数を利用した 収束の速いヒルベルト変換ディジタルフィルタ
(ラプラス変換の復習) 教科書には相当する章はない
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
ー 第3日目 ー ねじれ型振動子のブラウン運動の測定
システムモデルと伝達関数 1. インパルス応答と伝達関数 キーワード : 伝達関数、インパルス応答、 ステップ応答、ランプ応答
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
第7回 フィルタとは.
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
6. ラプラス変換.
Basis vectors generation
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
ー 第3日目 ー ねじれ型振動子のブラウン運動の測定
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
非負値行列因子分解に基づく唇動画像からの音声生成
音声情報とベイジアンネットを 用いた感性情報処理システム
Core Technology Center
音声合成.
4. システムの安定性.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
ソースフィルタモデル.
CSP係数の識別に基づく話者の 頭部方向の推定
Fourier 変換 Mellin変換 演習課題
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所 第12回情報論的学習理論ワークショップ(IBIS2009) IBIS2009 企画セッション「音声・音響処理と機械学習」 スパース表現による音響信号処理 亀岡弘和   日本電信電話株式会社   NTTコミュニケーション科学基礎研究所

スパース表現 低ランクモデル 基底のスパース正則化学習 データ を の形のモデルで表現 がスパース (少数を除きほとんどが0) Dictionary 基底関数 基底関数 データ   を       の形のモデルで表現    がスパース (少数を除きほとんどが0) 低ランクモデル 複雑なデータセットを少ない基底で表現 基底のスパース正則化学習 データに混在する独立な情報を抽出 データ数 基底数

スパース表現による音響信号処理 実世界音響信号処理 メッセージ伝達媒体としての音 音源の仮定とモデル化 ... ... 観測信号から現象を説明することが目的 いかに実世界音響信号の構成音をうまくモデル化できるか メッセージ伝達媒体としての音 離散的なシンボル情報を波形で表現し伝達 音声  音素単位 (/a/, /i/, /u/, ... ) 音楽  音階単位 (ド,レ,ミ,ファ, ...) 各シンボルがどういう波形で表現されるかは 音源に固有(すなわち未知) 音源の仮定とモデル化 実世界音響信号 ... 音源A 音源B ... 要素A 要素B (仮定) 音源信号は限られた種類のシンボル単位に相当する未知の独立成分から成る 少ない基底関数の スパースな重畳

音源モデル化の基本方針:少ない基底関数のスパースな重ね合わせ 発表のアウトライン 音源モデル化の基本方針:少ない基底関数のスパースな重ね合わせ 1. 複素NMF 少数の振幅スペクトルの基底関数によって構成される音響信号モデル モノラル信号分離への適用例の紹介 2. 複合自己回帰系 音声生成モデル(“ソースフィルタモデル”)における ソースとフィルタがそれぞれ少数の基底関数により 構成される音声信号の統計モデル 残響環境下のブラインド音源分離への適用例の紹介

音源モデル化の基本方針:少ない基底関数のスパースな重ね合わせ 発表のアウトライン 音源モデル化の基本方針:少ない基底関数のスパースな重ね合わせ 1. 複素NMF 少数の振幅スペクトルの基底関数によって構成される音響信号モデル モノラル信号分離への適用例の紹介 2. 複合自己回帰系 音声生成モデル(“ソースフィルタモデル”)における ソースとフィルタがそれぞれ少数の基底関数により 構成される音声信号の統計モデル 残響環境下のブラインド音源分離への適用例の紹介

振幅スペクトログラムの分解表現 音響信号 規則性が! :時刻 に周波数 の成分が どれほど含まれているか 非負値行列因子分解 (NMF) 短時間フーリエ変換 (時間周波数分解) 周波数→ 規則性が! 絶対値をとる :時刻 に周波数  の成分が  どれほど含まれているか 時刻→ 各基底の アクティビティ スパース(疎) になる! 非負値行列因子分解 (NMF) 振幅スペクトル基底 低ランクスペクトログラム     基底数10 周波数→ 基底数30 繰り返し生起する 振幅スペクトルパターンが表出 時刻→

「複素NMF」の提案 ? 音響信号 複素NMFモデル :時刻 に周波数 の成分が どれほど含まれているか 複素スペクトログラム をモデル化 (波形同士は加法的) 短時間フーリエ変換 (時間周波数分解) ・・・線形な変換 (もちろん加法的) 絶対値をとる ・・・非線形な変換 :時刻 に周波数  の成分が  どれほど含まれているか (振幅スペクトル 同士は非加法的) NMFモデル 複素NMFモデル 複素スペクトログラム       をモデル化 ? 振幅スペクトル 行列積の形にならない! (新しいクラスのスパース表現モデル)

複素NMFアルゴリズム 定義 最適化問題 複素スペクトログラム 振幅スペクトル基底 位相スペクトログラム ゲイン 音響信号モデル スパース正則化項

複素NMFアルゴリズム 補助関数法 は増加しない! 必ず正値 必ず正値 subject to を満たす任意の定数 回目の反復計算後のパラメータ値: Step 1) 必ず正値 Step 2) 必ず正値 は増加しない!

NMFと等価となる条件 複素NMFはNMFを包含 Step 1) [条件1] を に 初期設定する Step 2)    を       に 初期設定する Step 2)            は Step1, Step2に対して 不動点になっている! [条件2] を満たす任意の定数 Step 3) を実行 Lee & Seungが導出したNMFアルゴリズム [Lee & Seung, Nature’99]と等価!

モノラル信号分離 デモンストレーション

「ソ」以外は音量オフ

「ソ」だけ音量オフ

一部の基底関数に対してのみスペクトル 伸縮変形を施し、混合信号を再構成 (スペクトル伸縮はピッチトランスポーズ に相当。例えばトランスポーズ「-1」は、 半音下げという意味。)

音源モデル化の基本方針:少ない基底関数のスパースな重ね合わせ 発表のアウトライン 音源モデル化の基本方針:少ない基底関数のスパースな重ね合わせ 1. 複素NMF 少数の振幅スペクトルの基底関数によって構成される音響信号モデル モノラル信号分離への適用例の紹介 2. 複合自己回帰系 音声生成モデル(“ソースフィルタモデル”)における ソースとフィルタがそれぞれ少数の基底関数により 構成される音声信号の統計モデル 残響環境下のブラインド音源分離への適用例の紹介

目的: ブラインド音声強調のための音声モデリング 音源分離/残響除去・・・室内伝達系と音声信号が未知 音声信号らしさの規準(モデル)をうまく仮定することが重要 (例) 非ガウス性  独立成分分析に基づくブラインド音源分離 観測モデルの例 (マイクロホン数: M, 音源数: M) 統計モデル       の定義  尤度関数 仮定:   と                 は独立 [吉岡,中谷,三好 音講論(秋)’08] 観測信号の時間周波数成分 残響除去フィルタ ( : 周波数, : 時刻) 瞬時混合信号 分離行列 音源成分 音源分離&残響除去:          の最尤/MAP推定

目的: ブラインド音声強調のための音声モデリング 音源分離/残響除去・・・室内伝達系と音声信号が未知 音声信号らしさの規準(モデル)をうまく仮定することが重要 (例) 非ガウス性  独立成分分析に基づくブラインド音源分離 観測モデルの例 (マイクロホン数: M, 音源数: M) 統計モデル       の定義  尤度関数 仮定:   と                 は独立 音声の統計モデル “複合自己回帰系” の提案 [吉岡,中谷,三好 音講論(秋)’08] 観測信号のSTFT 残響除去フィルタ ( : 周波数, : 時刻) 瞬時混合信号 分離行列 音源成分 音源分離&残響除去:          の最尤/MAP推定

全フレームで高々J種類 の全極モデルを仮定 全フレームで高々I種類 のパワースペクトル密度 音声生成モデル(ソースフィルタモデル) 自己回帰系による短時間フレーム  内の信号モデル 声道特性(音素)に対応 次の全極型モデル 声帯による駆動源に対応 定常Gauss過程 白色性 音声では... 音素の種類は 限られている! framewise自己回帰系 複合自己回帰系 フィルタ 入力 フレームごとに別個 の全極モデル 全フレームで高々J種類 の全極モデルを仮定 音声では... ピッチの範囲は 限られている! パワースペクトル密度 自体がパラメータ 白色性を仮定 (パワースペクトル 密度が平坦) 全フレームで高々I種類 のパワースペクトル密度 パワースペクトル密度(PSD) 実際は違う!

複合自己回帰系による音声信号   のモデル化 駆動源信号 全極型フィルタ アクティベーション 個の 要素信号 Gauss 雑音 スパース化 20

要素信号スペクトルの確率密度関数 ・駆動信号スペクトル : ・声道フィルタ通過後 : ・アクティベート後 : とすると ここで, , 全極型 フィルタ 要素信号 駆動源特性 PSD PSD PSD Gauss雑音 ・駆動信号スペクトル : ・声道フィルタ通過後 : ・アクティベート後 : とすると ここで, ,

音声信号スペクトルの確率密度関数 要素信号 の和を音声信号 と考える と は のとき独立する 音声信号 の統計モデル 通常のスパース表現モデル 要素信号   の和を音声信号   と考える    と   は       のとき独立する logをとって少し式操作すると     と          の板倉斎藤距離になる 音声信号 の統計モデル 但し, アクティベーションのスパースネスを保障する事前確率 (逆ガンマ分布)

EMアルゴリズムによる最適化 M番目の話者の 音声パワースペクトル密度推定値 (Step 1: 音源分離) を固定

Step 3の詳細 Q関数 M-step E-step [駆動源特性] [ゲイン] [自己回帰係数]

残響環境下ブラインド音源分離実験 実験条件 パラメータの推定更新回数: 300回 信号 : 2種類の日本語発話音声 Src#1: 女性話者(8s),Src#2: 女性話者(8s) マイクロホン4本 収音環境: 残響時間0.5ms 信号の混合条件 (Signal-to-Interference Ratio) Src#1 Src#2 Mic#1 Mic#2 Mic#3 Mic#4 -0.59 +0.59 -0.32 +0.32 -0.14 +0.14 -0.57 +0.57 単位: [dB]

残響環境下ブラインド音源分離実験 実験結果 ・混合条件 -0.59 -0.32 -0.14 +0.57 +0.59 +0.32 +0.14 Mic#1 Mic#2 Mic#3 Mic#4 Src#1 -0.59 -0.32 -0.14 +0.57 Src#2 +0.59 +0.32 +0.14 -0.57 単位: [dB] ・Src#1の分離性能 : SIR (Signal-to-Interference ratio) 提案法 従来法 SIR +18.6 dB +17.2 dB ・Src#2の残響除去性能: DRR (Direct-to-Reverberate ratio) 提案法 従来法 DRR +13.5 dB +12.6 dB

まとめ (1/2) 実世界音響信号処理へのアプローチ ... ... 実世界音響信号が何個かの統計的に独立な音源信号に よって構成されると仮定するのと同様に,各音源信号もまた 何らかの離散的なシンボル情報に対応した何個かの独立 成分によって構成される,と仮定 実世界音響信号を階層的に独立 な成分に分解したモデルで簡潔 に記述し,現象をモデルパラメータ 最適化の視点から推論 実世界音響信号 ... 音源A 音源B ... 要素A 要素B

まとめ (2/2) スパース表現の考え方をヒントにした新しい音響信号モデルを提案 1. 複素NMF 2. 複合自己回帰系 音声のソースフィルタモデルを バックボーンとした音声版の スパース表現モデル 低ランク表現 通常のスパース表現モデル: 複素スペクトログラム パワースペクトログラム