Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis
コーパスに基づくテキスト音声変換用の韻律モデリング電子情報工学専攻広瀬･峯松研究室博士課程３年桜井　淳宏

概要研究の背景・概要 Phase I: データベース作成（韻律情報のラベリング） Phase II: 韻律情報の統計的モデル化
考察・まとめ

ＴＴＳ（テキスト音声変換） TTS技術の応用 TTS(Text-to-Speech) TTS System 現在将来入力文出力音声
の自動読み上げ手足が忙しいときの自動読み上げ WWWコンテンツの読み上げ文章作成の支援ツール言語教育お年寄りや障害者の支援ツール自動車環境内のヒューマンインタフェース将来対話システム（音声認識システムとの組合わせ）自動通訳システム

分節的特徴＆韻律的特徴分節的特徴（segmental features）：
音韻記号（phonological symbol）に置き換えられる韻律的特徴（prosodic features）：声の抑揚を表し、物理的には次の特徴量として表現される基本周波数パターン（F0パターン）音素の持続時間の推移パワーパターン（韻律的特徴は超分節的特徴ともいわれる）

TTSシステムの流れ入力文テキスト解析形態素解析構文解析単語辞書文法音韻処理・韻律処理音韻記号列＋韻律記号列の生成読み
音声合成波形編集またはフォルマント合成単語辞書文法読み形態素情報アクセント型アクセント辞書韻律ルール音韻記号列韻律記号列音声データベース音声信号

統計的手法に基づくイントネーションモデル
規則音声合成の問題点イントネーションに関するルールにはヒューリスティックスによるものが多いルールの作成が困難ルール間の干渉統計的な手法の導入ヒューリスティックスを統計的手法で置き換える規則化できない部分も学習可能データベースの充実度が上昇中

統計的手法に基づくイントネーションモデル
1) 学習 Prosodic Database Text Speech Linguistic features Prosodic features TTS intonation model Statistical Training 2) 合成 Text TTS System F0 contour (intonation) TTS Intonation Model

Phase I: データベース作成韻律データベース 1) Text data: text in electronic format
2) Speech data: digital recording, phonetic transcription 3) Linguistic features: part-of-speech tags, pronunciation, accent types, etc. 4) Prosodic features: F0 contours, duration patterns, power contours, etc. Q: How to represent prosodic features?

ToBI (Tones and Break Indices)
定量的な記述は一切含まれていない。したがって、物理量への変換が難しいラベル付与にかかる労力（＝コスト）が高い

韻律データベースにおける韻律情報の記述提案：F0モデルの利用問題点：ToBIと同様、自動ラベリングが不可能物理量と直接的な関係
統語構造をある程度反映問題点：ToBIと同様、自動ラベリングが不可能

F0パターンモデル

F0パターンモデル（具体例）「そちらの国際会議に論文を投稿したいとおもうんですが」

F0モデルパラメータの自動ラベリング Phrase Bound. Detection F0 Parameter F0 Model
（アイデア：音声認識用に開発された統語境界検出法を適用 Phrase Bound. Detection F0 Contour Model Assignment Parameter Adjustment F0 Model Accent Bound. Detection (partial AbS) Linguistic information フレーズ境界検出にはローパスフィルタを用いる[Sakurai/Hirose, ICSLP’96] アクセント境界検出にはF0パターンの微分パターンを利用 [Fujisaki et.al, ASJ, 92-3]

フレーズ指令検出 Phrase + accent d(Phrase) dt

フレーズ境界検出の具体例

F0モデルパラメータ推定の具体例

評価実験 (a) Phrase commands (number of phrase commands: 104)
(b) Accent commands (number of accent commands: 228) (25 sentences from ATR continuous speech database; comparison with hand-labeled data)

アクセント変形タイプ複合名詞の第二要素による分類 A型：第二要素の第一拍まで高い（アソビア‘イテ＝遊び相手）
B型：第一要素の最終拍まで高い（セイフ‘アン＝政府案） B*型：第一要素の最終拍の前まで高い（ゲンゼ‘イアン＝減税案） F型：平板型（アキタケン＝秋田犬）

アクセント変形タイプ推定システム F0 Contour Phoneme Labels and timing Error = MSE
Error A Phoneme Labels and timing Type A Model A Error B Type B Model B Error = MSE between extracted and calculated F0 contours Error B* Model B* Type B* Error F Model F Type F Hypothesizer Partial Abs

複合名詞の近似モデル（初期値） Command Ap1 Ap2 Aa1 t01 t02 t1 t2 t (s) 1.0 0.08
２つのフレーズ指令を利用すれば、連続音声での複合名詞の位置として考えられるすべての可能性を網羅できる文の先頭または休止を伴うフレーズ境界の後 (Ap1=0,Ap2>0) 休止を伴わないフレーズ境界の後 (Ap1>0,Ap2>0) 非フレーズ境界 (Ap1>0,Ap2=0) Ap1 Ap2 Aa1 t01 t02 t1 t2 t (s) 1.0 0.08

評価実験 Speech material： ATR Continuous Speech Database （MAU and MHT)
Phoneme labeling by HTK speech recognizer in forced alignment mode

Phase II: 統計的手法に基づく韻律情報のモデリング
韻律データベースを作成した後、次は統計的学習の手法が必要第１手法：ニューラルネットワークとF0モデルに基づくF0パターンのモデル化第２手法：モーラ遷移離散隠れマルコフモデルに基づくF0パターンのモデル化

方式１）ニューラルネットワークとF0モデルに基づく F0パターンのモデリング
物理量と直接的な関係統語構造と対応問題点パラメータ同士の非線形な関係正解には曖昧性があるニューラルネットワークが適切

ニューラルネットワーク構造 (a) Elman network (b) Jordan network Input Layer Hidden
Output Layer Input Layer Hidden Layer Output Layer State Layer Context Layer

ニューラルネットワーク構造（つづき） (c) Multi-layer perceptron (MLP) Input Layer Hidden
Output Layer

入力特徴クラス数入力特徴 18 韻律語の位置 15 韻律語のモーラ数 9 韻律語のアクセント型 8 韻律語の単語数 37,7,7
最初の単語の品詞・活用型・活用形最後の単語の品詞・活用型・活用形

入力特徴の例 “ニューヨークヲ” Isshuukanbakari nyuuyookuo shuzaishita.
（一週間ばかりニューヨークを取材した） “ニューヨークヲ” 韻律語の位置：モーラ数: アクセント型：単語数：最初の単語の品詞・活用型・活用形：最後の単語の品詞・活用型・活用形：２６３名詞・０・０格助詞・０・０

出力特徴種類出力特徴 Continuous Phrase command magnitude (Ap)
Binary Phrase command magnitude (Ap) Accent command amplitude (Aa) Phrase command delay (t0 off) Accent command onset delay (t1 off) Accent command reset delaty (t2 off) Phrase command flag

学習データベース学習データ：388の例文（2803の韻律語） Validation data：50の例文（317の韻律語）
テストデータ：48の例文（262の韻律語）学習量：epoch（サイクル数）=15～30 文境界に擬似アイテムを挿入

フレーズ指令の有無の推定

フレーズ指令パラメータの推定

アクセント指令パラメータの推定

自然音声から抽出した F0 パターンとの誤差

具体例「小さなうなぎ屋に熱気のようなものがみなぎる」 0.0 1.0 2.0 3.0 TIME [s] WAVEFORM
mhtsdj01.syn ch i,i s a n u g i,y i pau e kk o y o,u m r LABEL 40.0 100.0 800.0 FREQUENCY [Hz] PROSODIC COMMAND 具体例「小さなうなぎ屋に熱気のようなものがみなぎる」

本手法に関する考察ニューラルネットワークによるモデリングの長所：不完全なルールによる問題を回避聴取実験による最終結果が良好問題点
韻律情報のモデル化に関する真の知識が得られないニューラルネットワークのパラメータの最適化が難しい今後の課題他の方式と比較（２分木など）実際のTTSシステムに組み込む出力特性によってニューラルネットワークを使い分ける手法を検討

方式２：モーラ遷移HMMに基づく F0パターンのモデル化
何故モーラ遷移ＨＭＭ？日本語のイントネーションはモーラ単位の時系列として近似的に表現できる韻律境界検出という用途で同様のHMMが利用され、良好な結果が得られた HMMを生成モードで利用すれば、F0パターンを生成できる

離散隠れマルコフモデル（ＨＭＭ） a12 a23 a34 a22 a33 b(1|1)~b(K|1) b(1|2)~b(K|2)
Symbols: 1,2, ..., K モデルと出力記号列を繰り返し対応させることによって、モデルのパラメータ（遷移確率及び出力確率）をそれらの記号列の特徴に適応させることができる（学習）

モーラ遷移ＨＭＭに基づくイントネーションモデル
韻律語（accentual phrase）状態遷移モーラ遷移出力記号（shape,deltaF0） shape: モーラ単位F0パターンのクラスタに対応するコード（３２種類） deltaF0：先行モーラの平均値との差分（３２の値）

モーラ遷移ＨＭＭに基づくイントネーションモデル
Example: ‘watashino jinsei’ ta shi no ji N se i wa F0 wa ta shi, no, ji N se, i ｔ

ステップ１：データベース作成 ATRの連続音声データベースを使用（５００文，話者MHT) モーラ単位に分割モーララベルの付与
F0パターンを抽出 LBG法によるクラスタリング全データベースにクラスタクラスを付与

ステップ２：HMMの作成（１） (a) 平板型、頭高型 (a) 中高型

ステップ２：HMMの作成（２）単位：韻律語（intonational phrase）モデル化する情報位置＝１（先頭）
韻律語の位置アクセント型位置＝１（先頭）アクセント型＝３例：「あらゆる」＝PH1_3

ステップ３：HMMの学習通常のFBアルゴリズムを使用 Entropic社のHTK ATRの連続音声データベース（話者MHT)
Pentium IIクラスの計算機で数秒間

ステップ４：HMMに基づく F0パターンの生成
A) 認識 Likelihood Best path output sequence B) 合成 Best output sequence Best path

通常のＶｉｔｅｒｂｉアルゴリズム for t=2,3,...,T for it=1,2,...,S
Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)] +[-log b(y(t)| it)]} (t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)] next it next t

最適出力符号の生成を目的としたＶｉｔｅｒｂｉアルゴリズム
for t=2,3,...,T for it=1,2,...,S Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)] +[-log b(ymax(t)| it)]} (t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)] next it next t

Ｂｉｇｒａｍの導入 for t=2,3,...,T for it=1,2,...,S
Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)] +[-log b(ymax(t)| it)]+[-log bigram(y(t)|y(t-1))]} (t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)] next it next t

Accent Type Modeling Using HMM

Phrase Boundary Level Modeling Using HMM
J-TOBI B.I. Pause Y/N Bound. Level 3 2 Y N 1 2 3

Bigramの効果 PH1_0.original PH1_0.bigram PH1_1.original PH1_1.bigram

本手法に関する考察問題点学習データが少ない TTSシステムへの組込みにはさらなる工夫が必要今後の課題Ｆ０モデルの利用を検討
データ不足を克服するための工夫（クラスタリング等）モデルの接続に関する検討

まとめコーパスに基づく韻律情報のモデル化に関する手法の一連を提案 Phase I: データベース作成（韻律情報のラベリング）
Phase II: 韻律情報の統計的モデル化ニューラルネットワークに基づくF0パターンの生成モーラ遷移HMMに基づくF0パターンの生成

今後の課題ニューラルネットワークと F0 モデルを用いたＦ０パターン生成手法他の手法との比較を行う聴取実験を行う
他のネットワーク構造の利用を検討出力特性によってニューラルネットワークを使い分ける手法を検討ルールの導入モーラ遷移HMMを用いたF0 パターン生成手法データ不足の問題を回避する手法を検討モデルの接続に関する検討Ｆ０モデルとの組み合わせ

規則音声合成音韻記号韻律記号音声入力文韻律結合音韻結合フレーズ境界決定形態素解析音声合成むかし普通名詞０型はなし
単語辞書アクセント型辞書読み形態素アクセント型音韻記号韻律記号音声入力文韻律結合音韻結合フレーズ境界決定形態素解析音声合成むかし普通名詞０型はなし「昔話」 P1 mu DH ka shi ba A0 na shi P0 P1, FL, A0: 韻律記号 mu, ka, shi, ba, na: 音韻記号構文解析

複合名詞のアクセント変形タイプの推定言語情報（品詞クラス、アクセント型等）を有効に利用すれば自動ラベリングが可能になる
ここでは、復号名詞におけるアクセント変形の現象を取り上げる連続音声データベースから自動的にアクセント変形タイプを推定するアルゴリズムを提案

アクセント変形複数の名詞が複合名詞を構成するとき、もともとのアクセントがなくなり、複合名詞のアクセント核が移動・消失する
[NHK編日本語発音アクセント辞典]によれば、複合名詞のアクセント型は（2つの名詞からできた複合名詞の場合）第二要素の性質によってほぼ決定される複合名詞の第二要素は4種類に分類することができる

部分AbSによるパラメータ調整広範囲の調整微調整（大きさのみ）（すべてのパラメータ）タイミング実測F0パタパラメータ
の初期値広範囲の調整実測F0パターンとの距離を計算微調整（大きさのみ）（すべてのパラメータ）

３名詞以上からなる複合名詞の場合アクセント変形パターン = 韻律語の構成のしかた
長い復号名詞の場合、ルールによるアクセント変形の推定が難しい本手法を３以上の名詞の複合名詞に一般化

３名詞以上からなる復号名詞の場合 H1:So’oru goriNkoohose’Nshu
H2: ChuugokujiNuNte’Nshu H2’: ChuugokujiN uNte’Nshu S1 S2

F0モデルパラメータの割当て S o o r u g o r i N k o o h o s e N sh u H1:
C h u u g o k u j i N u N t e N sh u H2: C h u u g o k u j i N u N t e N sh u H2’:

実験結果 AbS Error (x 10-2) Correct I1 I1’ I2 I2’ 3.50 3.00 2.50 2.00
H2’ 3.00 H2 2.50 H1’ H2 H1 2.00 Correct Incorrect 1.50 H2’ 1.00 H1’ H1 0.50 0.00 I1 I1’ I2 I2’

Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Similar presentations

Presentation on theme: "Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Similar presentations

Presentation on theme: "Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis"— Presentation transcript:

Similar presentations

About project

フィードバック