PSOLA法を用いた極低ビットレート音声符号化に関する検討

Slides:



Advertisements
Similar presentations
効率的に計算可能な 加法的誤りの訂正可能性 安永 憲司 九州先端科学技術研究所 SITA 2012 @ 別府湾ロイヤルホテル
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
日本人学習者による英語音声の 韻律に関する研究
電子透かしにおける マスキング効果の主観評価
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
音声からの心的状態の推定における 生理心理学的アプローチの導入
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
4Y-4 印象に残りやすい日本語パスワードの合成法
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
文字から声をつくる仕組み.
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
ランダムプロジェクションを用いた 音声特徴量変換
ワイヤレス通信におけるMIMO伝送技術.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
音声処理ソフトPraatの使い方.
実時間動画像マルチキャストのための フィルタリング手法の実装と評価
コンテンツ配信 エンコード (符号化) CBR (Constant Bit Rate) VBR (Variable Bit Rate)
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
第3回: 今日の目標 平均情報量を説明し、計算できる シャノンの通信モデルを説明できる 情報源符号化の条件を示せる
非負値行列因子分解による 構音障害者の声質変換
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
NTTコミュニケーション科学基礎研究所 村山 立人
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
バイトコードを単位とするJavaスライスシステムの試作
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
音声合成.
福岡工業大学 情報工学部 情報工学科 種田研究室 于 聡
秘匿リストマッチングプロトコルとその応用
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
実験計画法 Design of Experiments (DoE)
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
CSP係数の識別に基づく話者の 頭部方向の推定
線形符号(10章).
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
AAMと回帰分析による視線、顔方向同時推定
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
第5章 伝送理論と伝送技術 5.1 電気通信設備の概要 5.2 アナログ伝送方式 5.3 ディジタル伝送方式 5.4 データ伝送方式
Presentation transcript:

PSOLA法を用いた極低ビットレート音声符号化に関する検討 胡紅兵†  鈴木基之††  伊藤彰則††  牧野正三†† † 東北大学大学院情報科学研究科 †† 東北大学大学院工学研究科 

はじめに 研究の目的 極低ビットレート符号化に関する研究 1kbit/s以下の極低ビットレート音声符号化の実現を目的 LZ符号化を応用したスペクトル情報(LSP係数)の効率的なセグメント量子化(三ツ屋ら)  「LZ符号化方式を用いた音声符号化に関する検討」,2002年春季音講論 ->1.9kbit/s で品質が高い音声が得られるが,更にビットレートを下げる必要がある HMMに基づく音声符号化(広井ら)   「HMMに基づいた極低ビットレート音声符号化」,信学会論文誌 ->音素ボコーダを用いて数百bit/sのビットレートで音声を符号化する 

接続型音声合成を用いた音声符号化 HMMに基づく音声符号化 波形接続型音声合成を利用した音声符号化を提案する HMM音声合成方法を用いてHMMモデルからメルケプストラム列を生成し、復号音声を求める 音質の向上が必要 PSOLA法音声合成による高品質の復元音声を求める 波形接続型音声合成を利用した音声符号化を提案する 音素ボコーダを用いて音声を音素単位に分割 感情音声等を含めた様々なスタイル音声の合成が可能

提案する音声符号化の概要 HMMで音声特徴パラメータを音素認識し、音素系列と時間継続長情報を復号化側へ伝送 音声素片波形データベースから各音素に対応する最適な音声波形素片を選択 PSOLAによる音声波形素片を接続して音声合成

音声認識 HMMに基づく音素ボコーダで音素認識 文脈依存を考慮するtriphone HMMモデルの利用 言語情報は音素対の出現確率(音素バイグラム) モデルの学習条件 学習用データ 480文章(ATR 日本語データベース) 話者 男性話者1名 プリエンフィス 0.97 特徴パラメータ MFCC(16次元)+ΔMFCC(16次元) +pow+Δpow (計34次元) 分析窓長 20ms 窓間隔 5ms

音声波形素片データベースの作成 PSOLA法は音声素片を接続して音声合成 音素に対応する音声波形素片 データベースの作成方法 各音素に対応音声波形素片が必要 音素に対応する音声波形素片 音素モデルの状態に対応する音声波形素片 音素モデルに対応する音声波形素片 合成音声の品質に影響する接続歪が少ない データベースの作成方法 HMMモデルで学習データの音素認識を行い,認識音素に対応する音声波形素片を求める 各音素には複数の波形素片が対応する

素片選択とPSOLA法音声合成 音素の時間継続長、パワーで波形素片の選択 PSOLA法でピッチ、時間継続長の修正 ピッチマークを中心とした波形の間引き、繰返しによる時間継続長の伸縮 ピッチ修正で,素片の平均ピッチでピッチの修正度を決める ピッチ差の小さい素片(0.9<ピッチ差<1.1)はピッチ修正しない

主観評価 提案方式はDMOSによる主観評価を行った 比較対象はメルケプストラムのベクトル量子化 DMOS評価(差分平均オピニオンスコア) 評価値 評価語 5 (音質の劣化)わからない 4 (音質の劣化)わかるが気にならない 3 (音質の劣化)気になるが邪魔にならない 2 (音質の劣化)邪魔になる 1 (音質の劣化)非常に邪魔である

実験条件 波形素片データベース作成の条件 主観評価条件 提案方式のビットレート 音素系列の平均レートが9.56音素/sで,音素情報が6ビット、音素時間継続長が7ビットで,全体のビットレートが125bit/s 話者 男性話者1名 学習用データ ATR 日本語データベース 480文章 話者 同一話者 テストデータ 3文章 被験者 健聴者6名

主観評価結果 メルケプストラムベクトル量子化との比較結果 両方式のビットレート(ピッチ情報が含まれていない) テスト文章 提案方式 文章1 2.17 2.67 文章2 2 文章3 1.67 2.5 平均DMOS 1.94 2.61 提案方式 ベクトル量子化 ビットレート 125bit/s 200bit/s 提案方式は、パワー情報が含まれていない メルケプストラムVQは、コードブックサイズが256

実験結果の考察 復元音声の内容が聞き取れるが,音質の改善が必要 音質劣化の原因 素片の選択基準 接続部分で不連続が大きい 時間継続長、パワーだけを利用した ピッチ情報の利用、接続部分のコストを考慮した選択基準が必要 接続部分で不連続が大きい 接続部分における素片の位相修正、スペクトル補間等が必要

まとめ PSOLA法を用いた極低ビットレート符号化の可能性について検討を行った 数百bit/s程度ビットレートの音声符号化が実現可能 素片の選択基準、合成方法を改善し,音質の向上が必要 今後の予定 不特定話者への拡張を検討する ピッチ情報の符号化を含めて全体ビットレートの低減 HMM音声合成と比較し、提案方式の有効性を示す