音響信号処理特論 音声信号処理の基礎(その2)

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

1 線形代数学. 2 履修にあたって 電子情報システム学科 必修 2005 年度1セメスタ開講 担当 草苅良至 (電子情報システム学科) 教官室: G I 511 内線: 2095 質問等は上記のいずれかに行なうこと。 注意計算用のノートを準備すること。
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
コンソールの利用 零点・極と時間応答の関係 安定性 過渡応答の特性
アレー信号処理を用いた ブラインド音源分離の基礎
復習.
10.時系列データの解析 time-series data
プログラミング論 I 補間
4.3 連立1次方程式   Ax = b   (23) と書くことができる。
プロセス制御工学 3.伝達関数と過渡応答 京都大学  加納 学.
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
発声のしくみ -声道の共鳴と音源の生成-.
Extremal Combinatorics 14.1 ~ 14.2
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
東京工業大学 機械制御システム専攻 山北 昌毅
デジタル信号処理③
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
PSOLA法を用いた極低ビットレート音声符号化に関する検討
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ディジタル信号処理 Digital Signal Processing
非線形方程式の近似解 (2分法,はさみうち法,Newton-Raphson法)
デジタル信号処理④
ガウス誤差関数を利用した 収束の速いヒルベルト変換ディジタルフィルタ
(ラプラス変換の復習) 教科書には相当する章はない
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
相関分析.
データ解析 静岡大学工学部 安藤和敏
第6章 連立方程式モデル ー 計量経済学 ー.
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
スペクトル法の一部の基礎の初歩への はじめの一歩
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
デザイン情報学科 メディア情報設計 河原英紀
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
6. ラプラス変換.
ディジタル信号処理 Digital Signal Processing
デザイン情報学科 メディア情報設計 河原英紀
電気回路学Ⅱ コミュニケーションネットワークコース 5セメ 山田 博仁.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
ディジタル信号処理 Digital Signal Processing
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
様々な情報源(4章).
部分的最小二乗回帰 Partial Least Squares Regression PLS
電機制御工学 定量的制御編 清弘 智昭.
Fourier 変換 Mellin変換 演習課題
音声合成.
4. システムの安定性.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ディジタル信号処理 Digital Signal Processing
回帰分析(Regression Analysis)
HMM音声合成における 変分ベイズ法に基づく線形回帰
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
ソースフィルタモデル.
Fourier 変換 Mellin変換 演習課題
Presentation transcript:

音響信号処理特論 音声信号処理の基礎(その2) 奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 最初 Thank you, chairman. I‘m Satoshi Kurita, Nagoya University. The title of my talk today is “Blind Signal Separation Using Directivity Pattern”. (2013年5月24日)

猿渡担当分の講義資料について http://www.aist-nara.ac.jp/~sawatari/ 講義資料は以下から各自入手すること (注)PowerPointとプリンタの相性により、配布資料形式では一部数式が文字化けしていることがあるので、必ず上記から資料を入手し「1ページ1枚のモード」でプリントアウトしてみてください。 http://www.aist-nara.ac.jp/~sawatari/ Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

準備:Z変換 Z変換 離散的な時系列の特性を解析する1手法 準備: は離散時間波形 定義1(正Z変換;時間領域からZ領域へ) ←実数 準備:    は離散時間波形 定義1(正Z変換;時間領域からZ領域へ) 定義2(逆Z変換;Z領域から時間領域へ) ←実数 ←複素数 ここで   は1サンプル時間遅れを表す演算子 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

準備:Z変換の諸性質 時間遅れ : 畳み込み演算は、Z領域で積演算になる。 時間遅れ :  畳み込み演算は、Z領域で積演算になる。 システムのインパルス応答    をZ変換したものをシステム伝達関数と呼ぶ。      において とおけばDFT(or フーリエ変換)のように考えることができ、周波数特性がわかる。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

準備:Z変換とシステム伝達関数1 システム伝達関数の解析 ←Zの有理多項式 :分子=0となるzの解 (零点) :分母=0となるzの解 (極) Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. :分子=0となるzの解 (零点) :分母=0となるzの解 (極)

準備:Z変換とシステム伝達関数2 極と零点の意味 極 : 分母=0の解 ⇒ H(z)の山 零点: 分子=0の解 ⇒ H(z)の谷 極 零点 対数振幅特性 極 零点 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

準備:Z変換とシステム伝達関数3 極の配置とシステムの安定性 極の位置が単位円内 ⇒ システムは安定 単位円外 ⇒ システムは不安定 極の位置が単位円内 ⇒ システムは安定          単位円外 ⇒ システムは不安定 極が単位円に接近 ⇒ 周波数特性上に強いピーク 対数振幅特性 極 極 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

音声スペクトルからの情報抽出 音声信号スペクトル 1.スペクトル微細構造 2.スペクトル包絡構造 周期成分 ⇒ 声帯の振動に対応 周期成分 ⇒ 声帯の振動に対応 その人個人が持つ「声の高さ」 2.スペクトル包絡構造 声道・鼻腔における共振・反共振特性   ⇒ 各音韻ごとの違いに対応 音声認識処理などでは、この包絡情報に基づいて識別を行う. Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

スペクトル包絡の代表的抽出法 ケプストラム法 線形予測(Linear Prediction)法 モデルを仮定しないノンパラメトリック法の一種 短時間スペクトル上において微細構造と包絡構造とを分ける。 線形予測(Linear Prediction)法 自己回帰モデルに基づくパラメトリック法 声道における共振特性をモデリング Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

音声生成に適したモデルとは? 人間の音声生成モデル 声帯での基本振動を声道で音色付ける。 声道 位置によって太さの異なる音響管の連続と見なせる。 音響管における共振現象 ⇒ 自己回帰(AR)過程 声道を模擬した音響管 声帯信号 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 口からの放射 各微小管毎に透過・反射が起きる ⇒ 複雑な共振特性が生じる

線形予測と共振モデル 線形予測の原理 過去の波形標本値の組合せで現在の標本値を予測する。 次の線形一次結合が成り立つと仮定:   ここで    は平均値0、分散   の無相関な確率変数 この    を最小にするように   を決める。    を線形予測係数とよび、    を線形予測残差と呼ぶ。 上式のZ変換は以下で与えられる。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測と共振モデル(続き) (1)式の意味 予測残差 を伝達関数 に通して音声を生成 ←極のみを持つ 声帯信号 口からの放射 予測残差   を伝達関数   に通して音声を生成 ←極のみを持つ Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 声帯信号 口からの放射

線形予測と共振モデル(続き) (1)式で与えられる線形予測は、 「声帯信号のパワーを最小化するように声道特性をARモデルによって推定する」  ことを示している。 推定された     は全極モデル(零点を持たず極だけから構成される伝達関数)であり、その極の値によって共振特性が変化する。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 音声のスペクトル包絡の推定⇒    の推定に帰着 (   の推定問題)

線形予測係数の推定1 予測残差の算出 区間 における の2乗和 自己相関関数 区間 における    の2乗和   Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 自己相関関数

線形予測係数の推定2 予測残差の最小化 2乗残差和 を最小にする を求める 2乗残差和  を最小にする   を求める   よって、線形予測係数    を算出するには、上記のp個の連立1次方程式を解けばよい。 ⇒ 必ずしも解が存在するとは限らない? Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測係数の推定3 安定に解を求めるには… 自己相関関数 に制約を設ける このとき の2変数に関する関数が1変数 のみの関数となる。 自己相関関数   に制約を設ける    このとき Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.     の2変数に関する関数が1変数     のみの関数となる。

線形予測係数の推定4 を使用して連立方程式(2)を解く この行列はテプリッツ型 ⇒ 正定値行列 ⇒ 必ず逆行列が存在する    を使用して連立方程式(2)を解く この行列はテプリッツ型 ⇒ 正定値行列                 ⇒ 必ず逆行列が存在する Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. 利点1.線形予測係数   が必ず求まる。 利点2.高速解法(Durbinの再帰的解法)が利用可能 利点3.求められた全極モデルは絶対安定(極が単位円内)

余談:日本人の貢献 日経産業新聞 1999年4月20日掲載 日経産業新聞 1999年4月20日掲載  「音声認識の研究に金を出すことは価値ある投資だろうか。…音声認識の研究とはまさに「錬金術」に等しい――。 」これは、1969年に米国音響学会誌に掲載された寄書の一部である。著者はジョン・ピアス、当時、ベル電話研究所情報通信部門の責任者であった。これを機に、ピアス傘下にあった音声研究部門では、音声認識の研究が全面的に中止された。 トップの確信に満ちた判断で中止された研究をボトムアップで再開するのは容易な ことではない。この再開の主役として登場したのは1人の日本人であった。線形予測理論で世界的脚光を 浴びていた現NTTの板倉文忠(名古屋大名誉教授)を客員研究員として招いた。これがベル研での音声認識研究の再始動をうながしたのである。当時、ベル研の研究室長であり、板倉を招いたジェームス・フラナガン(現米国ラトガース大学副学長)は振り返る。「とても、正面切って音声認識の研究を行える状況ではなかった 。部外者である客員研究員が自主的に研究を始めるという苦肉の策を講じ、これが図に当った」 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測によるパワースペクトル LPCパワースペクトルの定義 ←予測残差のパワー Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測によるスペクトル包絡 抽出されたスペクトル包絡 ケプストラムよりもピーク重視 であることに注目! DFTスペクトル Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

(参考)ケプストラムによるスペクトル包絡 抽出されたスペクトル包絡 DFTスペクトル Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測によるホルマント抽出 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測分析のまとめ 長所 問題点 高速解法が存在するため比較的単純な操作でスペクトル包絡抽出可能 抽出されたスペクトル包絡において、ホルマント共振がより強調される(c.f. ケプストラム分析) より少ないパラメータ(たかだかp個の予測係数のみ)で音声スペクトル包絡を表現可能 ⇒音声符号化に有利 問題点 線形予測係数   を量子化して伝送をする場合、伝送誤差の影響によってすぐに不安定なフィルタになってしまう。  (例)典型的な電話音声の場合11 bits以上の精度必要 線形予測係数とスペクトルの直観的な関連がないので、スペクトルの補間を行う場合に予測係数補間が不可能。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測分析の拡張1(PARCOR) 量子化誤差対策: PARCOR分析 しかしまだ改善点が… 線形予測による伝達関数⇒音響管の共振モデルに対応 線形予測係数を音響管の各管における反射係数へ一意に変換可能 反射係数が1を超えることは無い⇒伝送エラーなどで歪んでしまった(1以上にバケてしまった)反射係数を近似回復できる。つまり絶対安定な伝達関数を受信側で構成可能 しかしまだ改善点が… より情報圧縮を行いたい場合、とびとびの時間分析フレームのデータのみを伝送し、受手側では時間補間をすることによって復元を行いたい。しかし、LPC係数・PARCOR係数とも、時間軸方向の連続性はあまり明確ではない。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

線形予測分析の拡張2(LSP) 係数の時間補間対策: LSP(線スペクトル対)係数 PARCOR係数をさらに周波数領域へマッピング   ⇒ 絶対安定性を保ちつつスペクトルの時間補間が可能 スペクトル包絡 対応するLSPパラメータ (線スペクトルのペアを縦棒で表現) Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. →f 強い共振ピーク付近に棒線が密集。共振の強さは密集度合で決まる。 伝送するのは線スペクトル(ペア)の周波数位置のみ。

LSP係数による時間補間 … →t t2 t1 t3 →f →f 時間t1とt3におけるLSP(線スペクトル対)の Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method. →f →f 時間t1とt3におけるLSP(線スペクトル対)の 推移より時間t2におけるLSP係数を推測・補間できる

例題:2次の線形予測モデル推定 音声波形の自己相関関数が以下のように与えられたとする。 (a) 線形予測係数を求めよ。 (b)  LPCパワースペクトルを式で表せ(   は1とする)。 (c)  (b)より極を求めて、z平面に単位円とともに図示せよ。 (d)  LPCパワースペクトルの概略図を書け。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

解答: (a)線形予測係数 線形予測係数 は以下を解くことで求まる。 よって 線形予測係数   は以下を解くことで求まる。  よって Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

解答: (b)LPCパワースペクトル LPCパワースペクトル は次式で与えられる。 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

解答: (c)極とその配置 の分母多項式の根が極である。よって、 を解くと 極     の分母多項式の根が極である。よって、   を解くと 極 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.

解答: (d)LPCパワースペクトル概略 Blind signal separation, BSS for short, is the approach to estimate original source signals using only the information of the mixed signals observed in each input channel. Our research goal is to realize the high quality hands-free telecommunication systems and the robust speech recognition using this BSS method.