TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

黒岩・堀内 研究室 音と画像(視聴覚)によるコミュニケーション ・ AI (Artificial Intelligence) ・ HCI (Human Computer Interaction) 黒岩 眞吾 ・話者認識・音声認識・音信号処理 ・会話ロボット(失語症者支援) ・機械学習・多メディア情報検索.
日本人学習者による英語音声の 韻律に関する研究
東京工科大学 コンピュータサイエンス学部 亀田弘之
卒研のようなもの 圧縮ちーむ 2008.4.22 鴫原、山本、齋藤.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
コンパイラ 2011年10月17日
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
Verilog HDL 12月21日(月).
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
東京工科大学 コンピュータサイエンス学部 亀田弘之
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
PSOLA法を用いた極低ビットレート音声符号化に関する検討
文字から声をつくる仕組み.
形態素解析および係り受け解析・主語を判別
ランダムプロジェクションを用いた 音声特徴量変換
コンパイラ 2012年10月15日
音声処理ソフトPraatの使い方.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
音韻論⑤ ----.
非負値行列因子分解による 構音障害者の声質変換
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis
多重ベータ分布を用いた音色形状の数理モデリングによる
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
雑音環境下における 非負値行列因子分解を用いた声質変換
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
岩村雅一 知能情報工学演習I 第13回(後半第7回) 岩村雅一
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
テキストマイニング, データマイニングと 社会活動のトレース
非負値行列因子分解に基づく唇動画像からの音声生成
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
東京工科大学 コンピュータサイエンス学部 亀田弘之
音声合成.
東京工科大学 コンピュータサイエンス学部 亀田弘之
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
ブースティングとキーワードフィルタリング によるシステム要求検出
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
自然言語処理2015 Natural Language Processing 2015
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
コンパイラ 2012年10月11日
形態素解析と構文解析 金子邦彦.
skill-net(MILESTONE CAI,笈川他,1982)[Fortranの課題選択など]
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号 桜井 淳宏 06/30/2000 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号 7. 規則音声合成 8. 統計的手法に基づくイントネーションモデル 9. Tone Sequence Theory 10. ToBI及びJ-ToBI 11. 音声合成 12. 合成方式 13. 波形編集方式 14. PSOLA 15. フォルマント合成方式 16. TTS技術の評価 17. TTS技術の現在と未来

TTS(テキスト音声変換) TTS技術の応用 TTS(Text-to-Speech) TTS System 現在 将来 入力文 出力音声 E-mailの自動読み上げ 手足が忙しいときの自動読み上げ WWWコンテンツの読み上げ 文章作成の支援ツール 言語教育 お年寄りや障害者の支援ツール 自動車環境内のヒューマンインタフェース 将来 対話システム(音声認識システムとの組合わせ) 自動通訳システム テキスト 概念

TTSシステムの流れ 入力文 テキスト解析 形態素解析 構文解析 単語辞書 文法 音韻処理・韻律処理 音韻記号列+ 韻律記号列の生成 読み 音声合成 波形編集または フォルマント合成 単語辞書 文法 読み 形態素情報 アクセント型 アクセント辞書 韻律ルール 音韻記号列 韻律記号列 音声データベース 音声信号

基本概念(1):モーラ、アクセント型 0型 平板型 トモダチ フジサン 1型 中高型 イロガミ 2型 カガリビ 3型 オトート 4型 尾高型

基本概念(2):分節的特徴&韻律的特徴 分節的特徴(segmental features): 音韻記号(phonological symbol)に置き換えられる 韻律的特徴(prosodic features): 声の抑揚を表し、物理的には次の特徴量として表現される 基本周波数パターン(F0パターン) 音素の持続時間の推移 パワーパターン (韻律的特徴は超分節適特徴ともいわれる) マイクロプロソディ: 観測できるが、聴覚的には意味のない小さな変動

Easy Q&A 質問Q1:What is アクセント核(accent nucleus)? 質問Q2 :モーラ数がnのとき、アクセント型は何個あり得ますか?

F0 Contour Model

韻律記号

規則音声合成 音韻記号 韻律記号 音声 入力文 韻律結合 音韻結合 フレーズ境界決定 形態素解析 音声合成 むかし 普通名詞 0型 はなし 単語辞書 アクセント型辞書 読み 形態素 アクセント型 音韻記号 韻律記号 音声 入力文 韻律結合 音韻結合 フレーズ境界決定 形態素解析 音声合成 むかし 普通名詞 0型 はなし 「昔話」 P1 mu DH ka shi ba A0 na shi P0 P1, FL, A0: 韻律記号 mu, ka, shi, ba, na: 音韻記号 構文解析

演習問題 長崎は今日も雨だった

統計的手法に基づく イントネーションモデル 規則音声合成の問題点 イントネーションに関するルールにはヒューリスティックな部分が大きい ルールの作成が困難 新しいシステムの作成に伴うコストが高い 統計的な手法の導入 ヒューリスティックスを統計的手法に置き換える 規則化できない部分も学習可能

統計的手法に基づく イントネーションモデル 1) Training Prosodic Database Text Speech Linguistic features Prosodic features TTS intonation model Statistical Training 2) Synthesis Text TTS System F0 contour (intonation) TTS Intonation Model

Tone Sequence Theory Initial boundary tones Pitch accent tones Phrase accent tones Final boundary tones H* L* H% %H H- H*+L H+L* L- %L L% L*+H L+H* Prosodic word (BI=2) Intermediate phrase (BI=3) Intonational phrase (BI=4)

ToBI及びJ-ToBI 韻律的特徴の記述法 記述はあくまでも定性的 4つの層 orthographic tier tone tier break index tier miscellaneous tier ToBIに基づくイントネーションモデル まずデータベースを作成 統計的な手法でF0 rangeを求める ToBIに基づく韻律イベントとF0 rangeをもとに、target pointを決定 Target pointを直線、スプラインなどで補完する 問題点 ラべリング作業が大変 F0パターンを生成できるが、物理的根拠がない

音声合成 韻律記号 合成器 音声 音韻記号 歴史 1791年:von Kempelenによる機械式音声合成器 1939年:DudleyによるVoder 1970年:Klattによるフォルマント合成器 1984年:F0生成モデル(藤崎&広瀬) 1986年:PSOLA(Charpentier, F. and Moulines, E.) 1995年:CHATR(Black,A. and Campbell,N.)

合成方式 フォルマント合成方式 音声信号の共振周波数を実現する方式 波形編集方式 波形データベースから音声を切り取ってつなぐ方式 その他 声道アナログ合成方式 パラメータ結合方式(LPC) Sinusoidal Modeling

波形編集方式 音韻環境(前後の音素) 接続環境(F0,パワー) 韻律記号 音韻記号 音声単位の加工、 接続(PSOLA等) 音声単位選択 音声データベース

PSOLA Pitch-Synchronous Overlap-Add a) Original b) F0 increase c) Duration increase 利点: 簡単 速い 欠点: Pitch Markingが必要 合成単位の接続にクリップ音が生じる

フォルマント合成方式 F0 AN NASAL PATH GLOTTAL GENERATOR AG + VOWEL PATH AA + OUTPUT FRICATIVE GENERATOR AF FRICATIVE PATH IMPULSE GENERATOR AS STOP PATH

TTS技術の評価 ガイドライン: JEIDA Guideline for Speech Synthesizer Evaluation, 3/95 テキスト解析の評価 漢字かな変換 形態素解析の誤り 明瞭制 音素・単語・文 自然性 韻律的特徴 分節的特徴 好ましさ

TTS技術の現在と未来 形態素解析とテキスト分析 コーパスを用いた音韻・韻律情報の生成 合成単位の選択・接続方式 入力文 テキスト分析 形態素解析 構文解析 音韻処理・韻律処理 音韻記号列や 韻律記号列の生成 音声合成 波形編集または フォルマント合成 音声信号 読み 形態素情報 アクセント型 単語辞書 文法 アクセント辞書 韻律ルール 音声データベース 音韻記号列 韻律記号列 形態素解析とテキスト分析 コーパスを用いた音韻・韻律情報の生成 合成単位の選択・接続方式 音声分析と生成モデル(フォルマント方式) 対話音声の韻律的特徴(感情、卓立など) アプリケーション(対話システム、音声認識技術との組合わせ) 評価 etc., etc.