創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳

創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳
Statistical Models of Machine Translation, Speech Recognition, and Speech Synthesis for Speech-to-Speech Translation 音声翻訳のための機械翻訳，音声認識，音声合成の統計モデル創成シミュレーション工学専攻計算システム工学分野　徳田・李研究室橋本佳

背景（1/3）音声翻訳システムある言語の音声を異なる言語の音声に直接翻訳（Speech-to-Speech Translation）
音声を入出力とした自然なコミュニケーション言語の壁を越えた円滑なコミュニケーション日本語英語こんにちは。 Hello.

背景（2/3）音声翻訳システムの構成人間の知識に基づく手法統計モデルに基づく手法入出力に関する人間の知識を導入
入出力の関係を完全に表現することは困難統計モデルに基づく手法学習データから入出力の関係を効率よく学習多量の学習データ・高性能な計算機が必要音声認識機械翻訳音声合成

背景（3/3）統計モデルに基づく音声翻訳理論的枠組みは言語によらず同一 ⇒ あらゆる言語のシステムを構築可能
各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化音声認識機械翻訳音声合成

現状の性能機械翻訳音声認識音声合成旅行会話を対象としたシステム ⇒ TOEIC600点翻訳対象によって翻訳性能が低下
静音状況における特定話者 ⇒ 認識率90%以上雑音・話者・内容によって認識性能が低下音声合成発話内容が限定 ⇒ 高品質な合成音声発話内容によって合成音声の品質が劣化 [Sugaya et al., ’01]

目的音声翻訳システムの高性能化各要素の高性能化要素の統合手法音声認識機械翻訳音声合成構文情報を用いた統計的機械翻訳
ベイズ基準による音声合成・音声認識要素の統合手法機械翻訳・音声合成の影響の調査および分析音声認識機械翻訳音声合成

機械翻訳ルールベース型機械翻訳統計的機械翻訳 [Brown et al., ’93] 適切なルールを大量に用意することで高性能化
言語対ごとに新たにルールを作成翻訳ルールを人手で作成新たな言語への対応が困難統計的機械翻訳 [Brown et al., ’93] 翻訳データから統計モデルを自動学習同様の枠組みからシステム構築が可能新たな言語への対応が容易

統計的機械翻訳翻訳モデル・言語モデルから構成 [Brown et al., ’93] : 出力言語の単語列 : 入力言語の単語列
: 翻訳モデル（2言語間の翻訳対応） : 言語モデル（出力言語の単語の並び）

単語ベースの統計的機械翻訳単語対単語の翻訳モデル[Brown et al., ’93] 熟語などの翻訳が困難
単語の並び替えが困難（長文ほど困難） Nice to meet you. 良いこと会うあなたに。 ⇒ I go to ABC. わたしは行くへ ABC 。 ⇒

フレーズベースの統計的機械翻訳隣接する複数の単語 ⇒ フレーズフレーズ対フレーズの翻訳モデル [Koehn et al., 2003]
熟語などの翻訳が可能単語の並び替え性能が改善現在の標準的な手法文全体を考慮した単語並び替え手法が必要 Nice to meet you. はじめまして。 ⇒ I go to ABC. わたしはへ行く ABC 。 ⇒

構文木を制約とした統計的機械翻訳 IST-ITG[Yamamoto et al., ’08] 仮定：入力文の構文木を回転させることにより
(Imposing Source Tree on Inversion Transduction Grammar) ⇒ どのような回転が最適かは表現不可能仮定：入力文の構文木を回転させることにより出力文の構文を表現可能 This is a pen ⇒ これは _ ペンです

構文木の回転モデル構文木の回転を品詞を用いてモデル化英語-日本語翻訳実験入力構文木部分木 This is a pen
NP S VP AUX DT NN This is a pen = S+NP+VP = VP+AUX+NP = NP+DT+NN 単語並び替え確率 Baseline IST-ITG Proposed BLEU-4 27.87 29.31 29.80

翻訳結果例 Source: From results of the consideration, it was pointed that radiation from the loop elements was weak. Reference: 考察結果より，ループ素子からの放射が弱いことを指摘する。 IST-ITG: 考察の結果から，ことを指摘し，ループの要素からの放射は弱かった。 Proposed: 考察の結果から，ループ素子からの放射は弱いことを示した。

音声合成素片接続型音声合成 [Black et al., ’96] 統計モデルに基づく音声合成 [Tokuda et al., ’00]
素片に分割された音声データをつなぎ音声を合成高品質だが大量の音声データが必要統計モデルに基づく音声合成 [Tokuda et al., ’00] 統計モデルを用いて音声をモデル化（音響モデル）多様な音声を合成可能少量の音声データからモデルの学習が可能 ⇒ 合成音声の品質は音響モデルに強く依存

音響モデル隠れマルコフモデル（Hidden Markov Model; HMM）コンテキスト依存モデル[Lee, ’90]
時間による変動を考慮したモデル ⇒ 音声に適したモデルコンテキスト依存モデル[Lee, ’90] 音響的特徴は文脈要因（コンテキスト）に影響先行音素，後続音素，品詞，音節の数，アクセント等コンテキストを考慮したモデル詳細な音響的特徴をモデル化各モデルに割り当てられる学習データは減少 ⇒ モデル推定精度が低下

コンテキストクラスタリング[Young, ’94]
決定木に基づくクラスタリング手法コンテキストに関する質問を適用リーフノードごとに音響モデルを共有品詞は名詞? 当該音素は母音? 先行音素は破裂音? yes no 決定木の大きさ学習データ量モデルの表現能力小さい多量低い大きい少量高い

モデル学習基準尤度最大化（Maximum Likelihood; ML）基準ベイズ基準音響モデルの学習基準として広く利用
モデルパラメータを点推定 ⇒ 学習データが少量の場合に過学習ベイズ基準モデルパラメータの事後分布を推定事前情報を利用可能データ量を考慮したモデル構造（決定木）選択が可能 ⇒ 学習データが少量の場合にも高い汎化性能 ⇒ 多くのコンテキストを考慮することが可能

ベイズ基準による音声合成（1/2）モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ
: 合成ラベル : 学習ラベル : 学習データ : 合成データ

ベイズ基準による音声合成（2/2）ベイズ基準における予測分布（周辺尤度関数）変分ベイズ法による近似 [Attias; ’99]
: 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布変分ベイズ法による近似 [Attias; ’99]

変分ベイズ法（1/2）対数周辺尤度の下限を定義下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定
対数周辺尤度の下限を定義（Jensenの不等式）：に関する期待値 : 近似事後分布下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定

変分ベイズ法（2/2）近似事後分布の独立性を仮定変分法による事後分布推定 : 正規化項交互に更新することでを最大化

主観評価実験による提案法の評価ベイズ基準の特徴ごとに分析モデルパラメータの事後分布推定データ量を考慮したモデル構造選択評価者10人
20文を自然性について5段階評価モデル学習基準モデル構造選択基準 ML-MDL ML基準 MDL基準 Bayes-MDL ベイズ基準 ML-Bayes Bayes-Bayes

ベイズ基準を用いることで合成音声の品質を改善
主観評価実験リーフノード数 1,128 1,128 9,485 9,485 ベイズ基準を用いることで合成音声の品質を改善

ベイズ基準を用いることで高精度な音響モデルを推定
音素認識実験リーフノード数 5,429 5,429 14,610 14,610 ベイズ基準を用いることで高精度な音響モデルを推定

学習・合成過程の統合モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ : 合成ラベル
: 学習ラベル : 学習データ : 合成データ

従来の事後分布推定変分ベイズ法による事後分布推定事後分布は合成データに依存 ⇒ 合成データは観測されていない
事後分布　　　は合成データに依存 ⇒ 合成データは観測されていない ⇒ 直接計算することは困難学習データのみからを推定

ベイズ音声合成の性質を十分に表現できていない
近似を用いたベイズ音声合成事後分布　　　　の更新（学習データの隠れ変数系列）学習データ事後分布　　　　の更新（モデルパラメータ）学習部合成部事後分布　　　　の更新（合成データの隠れ変数系列）合成データ　　の生成合成データベイズ音声合成の性質を十分に表現できていない

学習・合成過程が統合されたベイズ音声合成
提案法事後分布　　　　の更新（学習データの隠れ変数系列）学習データ事後分布　　　　の更新（モデルパラメータ）事後分布　　　　の更新（合成データの隠れ変数系列）合成データ　　の生成合成データ学習・合成過程が統合されたベイズ音声合成

更新回数の比較事後分布・合成データの更新回数の比較事後分布推定に用いる合成データは1発話事後分布推定に用いたデータ
Iteration0 学習データ Iteration1 学習データとIteration0の合成データ Iteration2 学習データとIteration1の合成データ Iteration3 学習データとIteration2の合成データ

学習・合成過程の統合により合成音声の品質を改善
主観評価実験事後分布・合成データの更新回数の比較学習・合成過程の統合により合成音声の品質を改善

音声翻訳のための統合手法音声認識と機械翻訳の統合[Ney, ’99] 機械翻訳と音声合成の統合統計的アプローチ
複数の認識結果と統計モデルのスコアを利用 ⇒ 翻訳結果を大きく改善機械翻訳と音声合成の統合合成音声の品質は音声翻訳システムに大きく影響音声合成部を考慮した統合手法が必要 ⇒ 各要素がどのように影響しているかを分析

主観評価実験 Amazon Mechanical Turkを用いて実験 Section 1: 音声合成の評価
合成音声の自然性（Naturalness） Section 2: 音声翻訳の評価単語聞き取り誤り率（WER）聞き取った翻訳文の妥当性（S2ST-Adequacy）聞き取った翻訳文の流暢性（S2ST-Fluency） Section 3: 機械翻訳の評価翻訳文の妥当性（MT-Adequacy）翻訳文の流暢性（MT-Fluency）評価者150人

システム音声翻訳システム（Finnish-to-English）音声認識部機械翻訳部音声合成部入力文として100文使用
正解認識結果を出力すると仮定機械翻訳部 HiFST (統計的機械翻訳システム) 865,732翻訳文による学習機械翻訳部は上位20位までの翻訳候補を出力音声合成部統計モデルに基づく音声合成単一男性話者による8,129発話による学習入力文として100文使用

システム出力例翻訳候補（上位5位）とその合成音声 N-best MT output sentence Speech 1
We support what you have said. 2 We support what you said. 3 We are in favour of what you have said. 4 We support what you said about. 5 We are in favour of what you said. 正解翻訳文 We can support what you said.

機械翻訳との相関合成音声の自然性との相関係数評価者の単語聞き取り誤り率との相関係数翻訳文の流暢性との相関がより高い
MT-Adequacy MT-Fluency Naturalness 0.12 0.24 MT-Adequacy MT-Fluency WER －0.17 －0.25

合成音声機械翻訳の流暢性と合成音声の自然性

単語聞き取り誤り率機械翻訳の流暢性と単語聞き取り誤り率

単語N-gramと流暢性の相関単語N-gram 単語N-gramと翻訳文の流暢性との相関直前のN-1単語が与えられた際の単語出現確率
P（天気|今日，の）=0.3 P（献立|今日，の）=0.2 1-gram 2-gram 3-gram 4-gram 5-gram MT-Fluency 0.28 0.39 0.42 0.43 0.44

単語5-gram 単語5-gramごとの流暢性の平均相関係数: 0.87

音素N-gramと合成音声の相関合成音声の品質は発話内容に大きく影響音素N-gramと合成音声の自然性の相関
発話内容が学習データに近いとき高い自然性口語調，文語調新聞記事，小説音素N-gramによる学習データとの類似度評価音素N-gramと合成音声の自然性の相関音素N-gramは音声合成部の学習データから推定 1-gram 2-gram 3-gram 4-gram 5-gram Naturalness 0.05 0.15 0.19 0.20 0.18

音素4-gram 音素4-gramごとの自然性の平均相関係数: 0.81

分析結果のまとめ機械翻訳部と音声合成部の関係客観評価値による主観評価値の予測翻訳文の流暢性が音声合成部に強く影響
高品質な合成音声高い聞き取り精度客観評価値による主観評価値の予測単語N-gramのスコア ⇒ 翻訳文の流暢性の予測に利用可能音素N-gramのスコア ⇒ 合成音声の自然性の予測に利用可能

むすび音声翻訳システムの性能改善今後の課題構文情報を用いた統計的機械翻訳ベイズ基準による音声合成・音声認識
先行研究からBLEUを0.49改善ベイズ基準による音声合成・音声認識従来法よりも高精度な音響モデルを推定機械翻訳・音声合成の評価および分析翻訳文の流暢性が合成音声の品質に大きく影響今後の課題音声合成部を考慮した統合手法の検討音声翻訳システム全体を考慮した最適化手法

創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳

Similar presentations

Presentation on theme: "創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳

Similar presentations

Presentation on theme: "創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳"— Presentation transcript:

Similar presentations

About project

フィードバック

創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳

Presentation on theme: "創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳"— Presentation transcript: