ソースフィルタモデル
ソースフィルタモデル 線形システム (フィルタ) 音源信号 (ソース) 音声信号 線形予測モデル
連続信号と離散信号のフーリエ変換
Z変換
フィルタ
たたみこみ演算
インパルス応答 例2 例1
有理関数形式のZ変換 収束 発散
デジタルフィルタの入出力関係
デジタルフィルタのタイプ 線形予測フィルタ
デジタルフィルタの極と零点 を零点(下図の )といい、 を極(下図の )という Z平面 Im 共役複素根 単位円 Re 実根 を零点(下図の )といい、 を極(下図の )という Z平面 Im 共役複素根 単位円 1 Re 実根 フィルタが安定であるための条件は
デジタルフィルタの周波数特性
フィルタの周波数特性と極の関係 Z平面 Im 共役複素根 単位円 Freq. 1 Re 正の実根 負の実根 Freq. Freq.
線形予測フィルタのスペクトル 周波数領域 時間領域 、 P次の線形予測フィルタのスペクトルは高々p/2個の極(スペクトルピーク)をもつ
スペクトル包絡と微細構造 = + T T: ピッチ周期 音声 スペクトル フィルタ スペクトル包絡 Fi: 極周波数 f0 : ピッチ周波数 f0=1/T スペクトル スペクトル包絡 微細構造 (調波構造) F1 F2 F3 F4 T: ピッチ周期 Fi: 極周波数 f0 : ピッチ周波数 + = 音声 フィルタ 音源
有声音と無声音のスペクトル 有声音 無声音 周期性なし 周期性あり 調波構造あり 調波構造なし
音声信号モデル スペクトル包絡 音声スペクトル パルス音源スペクトル 音声合成 フィルタ T ノイズ音源スペクトル 音源パラメータ
音声の基本パラメータ
音声合成デジタルフィルタ 線形予測係数 (スペクトルパラメータ) 音声信号 音源信号
音声合成の特徴 少ない数の音声パラメータから自然な音声を合成 音韻(声の音色)と韻律(声の高さ)を別の音声パ ラメータで制御できる 人間の音声生成過程に対応した合成 音声波形を再現するのではなく、音声スペクトルを 再現(人間の聴覚特性を利用)
原音声と合成音声の波形 音声波形 合成音声波形
線形予測分析(1) A z ( ) 周波数領域 時間領域 定式化 、 予測残差電力 が最小 予測残差のスペクトルが平坦 解法 予測残差電力 が最小 予測残差のスペクトルが平坦 A z ( ) 解法 ただし、自己相関関数 周波数
最尤スペクトル推定
線形予測分析(2)
線形予測分析(3)
線形予測分析(計算例)
スペクトル分析の特徴
音源分析 スペクトル 波形 自己相関係数 音声 T T 予測残差 ピーク値が大きい時 は有声、小さい時は 無声 ピッチ周期 予測残差の 平均振幅
音声分析合成系 7bit 40bit 5bit 1bit 分析フレームを20msとすると、ビットレートは (40+5+1+7)×50フレーム=2650bit/sec
音声分析合成法の利点と問題点 少ない情報量で音声を伝達できる 音声波形をそのまま送る(PCM方式)と毎秒64000ビット の情報量が必要になるのに対して、音声のパラメータだけ を送る音声合成法では毎秒2650ビットの情報量ですむ 同じ通信回線で20人が話すことができる 音声に特化しすぎている 声以外の音を伝えることができない、 周囲騒音があると音声の品質が劣化する 人によって音声の品質がばらつく 通信用途にはそのまま使えない