Presentation is loading. Please wait.

Presentation is loading. Please wait.

PSOLA法を用いた極低ビットレート音声符号化に関する検討

Similar presentations


Presentation on theme: "PSOLA法を用いた極低ビットレート音声符号化に関する検討"— Presentation transcript:

1 PSOLA法を用いた極低ビットレート音声符号化に関する検討
胡紅兵†  鈴木基之††  伊藤彰則††  牧野正三†† † 東北大学大学院情報科学研究科 †† 東北大学大学院工学研究科 

2 はじめに 研究の目的 極低ビットレート符号化に関する研究 1kbit/s以下の極低ビットレート音声符号化の実現を目的
LZ符号化を応用したスペクトル情報(LSP係数)の効率的なセグメント量子化(三ツ屋ら)  「LZ符号化方式を用いた音声符号化に関する検討」,2002年春季音講論 ->1.9kbit/s で品質が高い音声が得られるが,更にビットレートを下げる必要がある HMMに基づく音声符号化(広井ら)   「HMMに基づいた極低ビットレート音声符号化」,信学会論文誌 ->音素ボコーダを用いて数百bit/sのビットレートで音声を符号化する 

3 接続型音声合成を用いた音声符号化 HMMに基づく音声符号化 波形接続型音声合成を利用した音声符号化を提案する
HMM音声合成方法を用いてHMMモデルからメルケプストラム列を生成し、復号音声を求める 音質の向上が必要 PSOLA法音声合成による高品質の復元音声を求める 波形接続型音声合成を利用した音声符号化を提案する 音素ボコーダを用いて音声を音素単位に分割 感情音声等を含めた様々なスタイル音声の合成が可能

4 提案する音声符号化の概要 HMMで音声特徴パラメータを音素認識し、音素系列と時間継続長情報を復号化側へ伝送
音声素片波形データベースから各音素に対応する最適な音声波形素片を選択 PSOLAによる音声波形素片を接続して音声合成

5 音声認識 HMMに基づく音素ボコーダで音素認識 文脈依存を考慮するtriphone HMMモデルの利用
言語情報は音素対の出現確率(音素バイグラム) モデルの学習条件 学習用データ 480文章(ATR 日本語データベース) 話者 男性話者1名 プリエンフィス 0.97 特徴パラメータ MFCC(16次元)+ΔMFCC(16次元) +pow+Δpow (計34次元) 分析窓長 20ms 窓間隔 5ms

6 音声波形素片データベースの作成 PSOLA法は音声素片を接続して音声合成 音素に対応する音声波形素片 データベースの作成方法
各音素に対応音声波形素片が必要 音素に対応する音声波形素片 音素モデルの状態に対応する音声波形素片 音素モデルに対応する音声波形素片 合成音声の品質に影響する接続歪が少ない データベースの作成方法 HMMモデルで学習データの音素認識を行い,認識音素に対応する音声波形素片を求める 各音素には複数の波形素片が対応する

7 素片選択とPSOLA法音声合成 音素の時間継続長、パワーで波形素片の選択 PSOLA法でピッチ、時間継続長の修正
ピッチマークを中心とした波形の間引き、繰返しによる時間継続長の伸縮 ピッチ修正で,素片の平均ピッチでピッチの修正度を決める ピッチ差の小さい素片(0.9<ピッチ差<1.1)はピッチ修正しない

8 主観評価 提案方式はDMOSによる主観評価を行った 比較対象はメルケプストラムのベクトル量子化 DMOS評価(差分平均オピニオンスコア)
評価値 評価語 5 (音質の劣化)わからない 4 (音質の劣化)わかるが気にならない 3 (音質の劣化)気になるが邪魔にならない 2 (音質の劣化)邪魔になる 1 (音質の劣化)非常に邪魔である

9 実験条件 波形素片データベース作成の条件 主観評価条件 提案方式のビットレート
音素系列の平均レートが9.56音素/sで,音素情報が6ビット、音素時間継続長が7ビットで,全体のビットレートが125bit/s 話者 男性話者1名 学習用データ ATR 日本語データベース 480文章 話者 同一話者 テストデータ 3文章 被験者 健聴者6名

10 主観評価結果 メルケプストラムベクトル量子化との比較結果 両方式のビットレート(ピッチ情報が含まれていない) テスト文章 提案方式
文章1 2.17 2.67 文章2 2 文章3 1.67 2.5 平均DMOS 1.94 2.61 提案方式 ベクトル量子化 ビットレート 125bit/s 200bit/s 提案方式は、パワー情報が含まれていない メルケプストラムVQは、コードブックサイズが256

11 実験結果の考察 復元音声の内容が聞き取れるが,音質の改善が必要 音質劣化の原因 素片の選択基準 接続部分で不連続が大きい
時間継続長、パワーだけを利用した ピッチ情報の利用、接続部分のコストを考慮した選択基準が必要 接続部分で不連続が大きい 接続部分における素片の位相修正、スペクトル補間等が必要

12 まとめ PSOLA法を用いた極低ビットレート符号化の可能性について検討を行った 数百bit/s程度ビットレートの音声符号化が実現可能
素片の選択基準、合成方法を改善し,音質の向上が必要 今後の予定 不特定話者への拡張を検討する ピッチ情報の符号化を含めて全体ビットレートの低減 HMM音声合成と比較し、提案方式の有効性を示す


Download ppt "PSOLA法を用いた極低ビットレート音声符号化に関する検討"

Similar presentations


Ads by Google