Presentation is loading. Please wait.

Presentation is loading. Please wait.

音響信号処理特論 音声信号処理の基礎(その2)

Similar presentations


Presentation on theme: "音響信号処理特論 音声信号処理の基礎(その2)"— Presentation transcript:

1 音響信号処理特論 音声信号処理の基礎(その2)
奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 最初 Thank you, chairman. I‘m Satoshi Kurita, Nagoya University. The title of my talk today is “Blind Signal Separation Using Directivity Pattern”. (2013年5月24日)

2 猿渡担当分の講義資料について http://www.aist-nara.ac.jp/~sawatari/ 講義資料は以下から各自入手すること
(注)PowerPointとプリンタの相性により、配布資料形式では一部数式が文字化けしていることがあるので、必ず上記から資料を入手し「1ページ1枚のモード」でプリントアウトしてみてください。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

3 準備:Z変換 Z変換 離散的な時系列の特性を解析する1手法 準備: は離散時間波形 定義1(正Z変換;時間領域からZ領域へ) ←実数
準備:    は離散時間波形 定義1(正Z変換;時間領域からZ領域へ) 定義2(逆Z変換;Z領域から時間領域へ) ←実数 ←複素数 ここで   は1サンプル時間遅れを表す演算子 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

4 準備:Z変換の諸性質 時間遅れ : 畳み込み演算は、Z領域で積演算になる。
時間遅れ :  畳み込み演算は、Z領域で積演算になる。 システムのインパルス応答    をZ変換したものをシステム伝達関数と呼ぶ。      において とおけばDFT(or フーリエ変換)のように考えることができ、周波数特性がわかる。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

5 準備:Z変換とシステム伝達関数1 システム伝達関数の解析 ←Zの有理多項式 :分子=0となるzの解 (零点) :分母=0となるzの解 (極)
Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. :分子=0となるzの解 (零点) :分母=0となるzの解 (極)

6 準備:Z変換とシステム伝達関数2 極と零点の意味 極 : 分母=0の解 ⇒ H(z)の山 零点: 分子=0の解 ⇒ H(z)の谷 極 零点
対数振幅特性 零点 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

7 準備:Z変換とシステム伝達関数3 極の配置とシステムの安定性 極の位置が単位円内 ⇒ システムは安定 単位円外 ⇒ システムは不安定
極の位置が単位円内 ⇒ システムは安定          単位円外 ⇒ システムは不安定 極が単位円に接近 ⇒ 周波数特性上に強いピーク 対数振幅特性 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

8 音声スペクトルからの情報抽出 音声信号スペクトル 1.スペクトル微細構造 2.スペクトル包絡構造 周期成分 ⇒ 声帯の振動に対応
周期成分 ⇒ 声帯の振動に対応 その人個人が持つ「声の高さ」 2.スペクトル包絡構造 声道・鼻腔における共振・反共振特性   ⇒ 各音韻ごとの違いに対応 音声認識処理などでは、この包絡情報に基づいて識別を行う. Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

9 スペクトル包絡の代表的抽出法 ケプストラム法 線形予測(Linear Prediction)法 モデルを仮定しないノンパラメトリック法の一種
短時間スペクトル上において微細構造と包絡構造とを分ける。 線形予測(Linear Prediction)法 自己回帰モデルに基づくパラメトリック法 声道における共振特性をモデリング Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

10 音声生成に適したモデルとは? 人間の音声生成モデル 声帯での基本振動を声道で音色付ける。 声道
位置によって太さの異なる音響管の連続と見なせる。 音響管における共振現象 ⇒ 自己回帰(AR)過程 声道を模擬した音響管 声帯信号 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 口からの放射 各微小管毎に透過・反射が起きる ⇒ 複雑な共振特性が生じる

11 線形予測と共振モデル 線形予測の原理 過去の波形標本値の組合せで現在の標本値を予測する。 次の線形一次結合が成り立つと仮定:
  ここで    は平均値0、分散   の無相関な確率変数 この    を最小にするように   を決める。    を線形予測係数とよび、    を線形予測残差と呼ぶ。 上式のZ変換は以下で与えられる。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

12 線形予測と共振モデル(続き) (1)式の意味 予測残差 を伝達関数 に通して音声を生成 ←極のみを持つ 声帯信号 口からの放射
予測残差   を伝達関数   に通して音声を生成 ←極のみを持つ Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 声帯信号 口からの放射

13 線形予測と共振モデル(続き) (1)式で与えられる線形予測は、 「声帯信号のパワーを最小化するように声道特性をARモデルによって推定する」
 ことを示している。 推定された     は全極モデル(零点を持たず極だけから構成される伝達関数)であり、その極の値によって共振特性が変化する。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 音声のスペクトル包絡の推定⇒    の推定に帰着 (   の推定問題)

14 線形予測係数の推定1 予測残差の算出 区間 における の2乗和 自己相関関数
区間 における    の2乗和   Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 自己相関関数

15 線形予測係数の推定2 予測残差の最小化 2乗残差和 を最小にする を求める
2乗残差和  を最小にする   を求める   よって、線形予測係数    を算出するには、上記のp個の連立1次方程式を解けばよい。 ⇒ 必ずしも解が存在するとは限らない? Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

16 線形予測係数の推定3 安定に解を求めるには… 自己相関関数 に制約を設ける このとき の2変数に関する関数が1変数 のみの関数となる。
自己相関関数   に制約を設ける    このとき Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.     の2変数に関する関数が1変数     のみの関数となる。

17 線形予測係数の推定4 を使用して連立方程式(2)を解く この行列はテプリッツ型 ⇒ 正定値行列 ⇒ 必ず逆行列が存在する
   を使用して連立方程式(2)を解く この行列はテプリッツ型 ⇒ 正定値行列                 ⇒ 必ず逆行列が存在する Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 利点1.線形予測係数   が必ず求まる。 利点2.高速解法(Durbinの再帰的解法)が利用可能 利点3.求められた全極モデルは絶対安定(極が単位円内)

18 余談:日本人の貢献 日経産業新聞 1999年4月20日掲載
日経産業新聞 1999年4月20日掲載  「音声認識の研究に金を出すことは価値ある投資だろうか。…音声認識の研究とはまさに「錬金術」に等しい――。 」これは、1969年に米国音響学会誌に掲載された寄書の一部である。著者はジョン・ピアス、当時、ベル電話研究所情報通信部門の責任者であった。これを機に、ピアス傘下にあった音声研究部門では、音声認識の研究が全面的に中止された。 トップの確信に満ちた判断で中止された研究をボトムアップで再開するのは容易な ことではない。この再開の主役として登場したのは1人の日本人であった。線形予測理論で世界的脚光を 浴びていた現NTTの板倉文忠(名古屋大名誉教授)を客員研究員として招いた。これがベル研での音声認識研究の再始動をうながしたのである。当時、ベル研の研究室長であり、板倉を招いたジェームス・フラナガン(現米国ラトガース大学副学長)は振り返る。「とても、正面切って音声認識の研究を行える状況ではなかった 。部外者である客員研究員が自主的に研究を始めるという苦肉の策を講じ、これが図に当った」 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

19 線形予測によるパワースペクトル LPCパワースペクトルの定義 ←予測残差のパワー
Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

20 線形予測によるスペクトル包絡 抽出されたスペクトル包絡 ケプストラムよりもピーク重視 であることに注目! DFTスペクトル
Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

21 (参考)ケプストラムによるスペクトル包絡
抽出されたスペクトル包絡 DFTスペクトル Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

22 線形予測によるホルマント抽出 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

23 線形予測分析のまとめ 長所 問題点 高速解法が存在するため比較的単純な操作でスペクトル包絡抽出可能
抽出されたスペクトル包絡において、ホルマント共振がより強調される(c.f. ケプストラム分析) より少ないパラメータ(たかだかp個の予測係数のみ)で音声スペクトル包絡を表現可能 ⇒音声符号化に有利 問題点 線形予測係数   を量子化して伝送をする場合、伝送誤差の影響によってすぐに不安定なフィルタになってしまう。  (例)典型的な電話音声の場合11 bits以上の精度必要 線形予測係数とスペクトルの直観的な関連がないので、スペクトルの補間を行う場合に予測係数補間が不可能。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

24 線形予測分析の拡張1(PARCOR) 量子化誤差対策: PARCOR分析 しかしまだ改善点が…
線形予測による伝達関数⇒音響管の共振モデルに対応 線形予測係数を音響管の各管における反射係数へ一意に変換可能 反射係数が1を超えることは無い⇒伝送エラーなどで歪んでしまった(1以上にバケてしまった)反射係数を近似回復できる。つまり絶対安定な伝達関数を受信側で構成可能 しかしまだ改善点が… より情報圧縮を行いたい場合、とびとびの時間分析フレームのデータのみを伝送し、受手側では時間補間をすることによって復元を行いたい。しかし、LPC係数・PARCOR係数とも、時間軸方向の連続性はあまり明確ではない。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

25 線形予測分析の拡張2(LSP) 係数の時間補間対策: LSP(線スペクトル対)係数 PARCOR係数をさらに周波数領域へマッピング
  ⇒ 絶対安定性を保ちつつスペクトルの時間補間が可能 スペクトル包絡 対応するLSPパラメータ (線スペクトルのペアを縦棒で表現) Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. →f 強い共振ピーク付近に棒線が密集。共振の強さは密集度合で決まる。 伝送するのは線スペクトル(ペア)の周波数位置のみ。

26 LSP係数による時間補間 … →t t2 t1 t3 →f →f 時間t1とt3におけるLSP(線スペクトル対)の
Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. →f →f 時間t1とt3におけるLSP(線スペクトル対)の 推移より時間t2におけるLSP係数を推測・補間できる

27 例題:2次の線形予測モデル推定 音声波形の自己相関関数が以下のように与えられたとする。 (a) 線形予測係数を求めよ。
(b)  LPCパワースペクトルを式で表せ(   は1とする)。 (c)  (b)より極を求めて、z平面に単位円とともに図示せよ。 (d)  LPCパワースペクトルの概略図を書け。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

28 解答: (a)線形予測係数 線形予測係数 は以下を解くことで求まる。 よって
線形予測係数   は以下を解くことで求まる。  よって Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

29 解答: (b)LPCパワースペクトル LPCパワースペクトル は次式で与えられる。
Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

30 解答: (c)極とその配置 の分母多項式の根が極である。よって、 を解くと 極
    の分母多項式の根が極である。よって、   を解くと Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

31 解答: (d)LPCパワースペクトル概略 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.


Download ppt "音響信号処理特論 音声信号処理の基礎(その2)"

Similar presentations


Ads by Google