創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳 Statistical Models of Machine Translation, Speech Recognition, and Speech Synthesis for Speech-to-Speech Translation 音声翻訳のための機械翻訳,音声認識, 音声合成の統計モデル 創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
背景(1/3) 音声翻訳システム ある言語の音声を異なる言語の音声に直接翻訳 (Speech-to-Speech Translation) 音声を入出力とした自然なコミュニケーション 言語の壁を越えた円滑なコミュニケーション 日本語 英語 こんにちは。 Hello.
背景(2/3) 音声翻訳システムの構成 人間の知識に基づく手法 統計モデルに基づく手法 入出力に関する人間の知識を導入 入出力の関係を完全に表現することは困難 統計モデルに基づく手法 学習データから入出力の関係を効率よく学習 多量の学習データ・高性能な計算機が必要 音声認識 機械翻訳 音声合成
背景(3/3) 統計モデルに基づく音声翻訳 理論的枠組みは言語によらず同一 ⇒ あらゆる言語のシステムを構築可能 各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化 音声認識 機械翻訳 音声合成
現状の性能 機械翻訳 音声認識 音声合成 旅行会話を対象としたシステム ⇒ TOEIC600点 翻訳対象によって翻訳性能が低下 静音状況における特定話者 ⇒ 認識率90%以上 雑音・話者・内容によって認識性能が低下 音声合成 発話内容が限定 ⇒ 高品質な合成音声 発話内容によって合成音声の品質が劣化 [Sugaya et al., ’01]
目的 音声翻訳システムの高性能化 各要素の高性能化 要素の統合手法 音声認識 機械翻訳 音声合成 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 要素の統合手法 機械翻訳・音声合成の影響の調査および分析 音声認識 機械翻訳 音声合成
機械翻訳 ルールベース型機械翻訳 統計的機械翻訳 [Brown et al., ’93] 適切なルールを大量に用意することで高性能化 言語対ごとに新たにルールを作成 翻訳ルールを人手で作成 新たな言語への対応が困難 統計的機械翻訳 [Brown et al., ’93] 翻訳データから統計モデルを自動学習 同様の枠組みからシステム構築が可能 新たな言語への対応が容易
統計的機械翻訳 翻訳モデル・言語モデルから構成 [Brown et al., ’93] : 出力言語の単語列 : 入力言語の単語列 : 翻訳モデル(2言語間の翻訳対応) : 言語モデル(出力言語の単語の並び)
単語ベースの統計的機械翻訳 単語対単語の翻訳モデル[Brown et al., ’93] 熟語などの翻訳が困難 単語の並び替えが困難(長文ほど困難) Nice to meet you. 良い こと 会う あなたに 。 ⇒ I go to ABC. わたしは 行く へ ABC 。 ⇒
フレーズベースの統計的機械翻訳 隣接する複数の単語 ⇒ フレーズ フレーズ対フレーズの翻訳モデル [Koehn et al., 2003] 熟語などの翻訳が可能 単語の並び替え性能が改善 現在の標準的な手法 文全体を考慮した単語並び替え手法が必要 Nice to meet you. はじめまして。 ⇒ I go to ABC. わたしは へ 行く ABC 。 ⇒
構文木を制約とした統計的機械翻訳 IST-ITG[Yamamoto et al., ’08] 仮定:入力文の構文木を回転させることにより (Imposing Source Tree on Inversion Transduction Grammar) ⇒ どのような回転が最適かは表現不可能 仮定:入力文の構文木を回転させることにより 出力文の構文を表現可能 This is a pen ⇒ これは _ ペン です
構文木の回転モデル 構文木の回転を品詞を用いてモデル化 英語-日本語翻訳実験 入力構文木 部分木 This is a pen NP S VP AUX DT NN This is a pen = S+NP+VP = VP+AUX+NP = NP+DT+NN 単語並び替え確率 Baseline IST-ITG Proposed BLEU-4 27.87 29.31 29.80
翻訳結果例 Source: From results of the consideration, it was pointed that radiation from the loop elements was weak. Reference: 考察結果より,ループ素子からの放射が弱いことを指摘する。 IST-ITG: 考察の結果から,ことを指摘し,ループの要素からの放射は弱かった。 Proposed: 考察の結果から,ループ素子からの放射は弱いことを示した。
目的 音声翻訳システムの高性能化 各要素の高性能化 要素の統合手法 音声認識 機械翻訳 音声合成 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 要素の統合手法 機械翻訳・音声合成の影響の調査および分析 音声認識 機械翻訳 音声合成
音声合成 素片接続型音声合成 [Black et al., ’96] 統計モデルに基づく音声合成 [Tokuda et al., ’00] 素片に分割された音声データをつなぎ音声を合成 高品質だが大量の音声データが必要 統計モデルに基づく音声合成 [Tokuda et al., ’00] 統計モデルを用いて音声をモデル化(音響モデル) 多様な音声を合成可能 少量の音声データからモデルの学習が可能 ⇒ 合成音声の品質は音響モデルに強く依存
音響モデル 隠れマルコフモデル(Hidden Markov Model; HMM) コンテキスト依存モデル[Lee, ’90] 時間による変動を考慮したモデル ⇒ 音声に適したモデル コンテキスト依存モデル[Lee, ’90] 音響的特徴は文脈要因(コンテキスト)に影響 先行音素,後続音素,品詞,音節の数,アクセント等 コンテキストを考慮したモデル 詳細な音響的特徴をモデル化 各モデルに割り当てられる学習データは減少 ⇒ モデル推定精度が低下
コンテキストクラスタリング[Young, ’94] 決定木に基づくクラスタリング手法 コンテキストに関する質問を適用 リーフノードごとに音響モデルを共有 品詞は名詞? 当該音素は母音? 先行音素は破裂音? yes no 決定木の大きさ 学習データ量 モデルの表現能力 小さい 多量 低い 大きい 少量 高い
モデル学習基準 尤度最大化(Maximum Likelihood; ML)基準 ベイズ基準 音響モデルの学習基準として広く利用 モデルパラメータを点推定 ⇒ 学習データが少量の場合に過学習 ベイズ基準 モデルパラメータの事後分布を推定 事前情報を利用可能 データ量を考慮したモデル構造(決定木)選択が可能 ⇒ 学習データが少量の場合にも高い汎化性能 ⇒ 多くのコンテキストを考慮することが可能
ベイズ基準による音声合成(1/2) モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ : 合成ラベル : 学習ラベル : 学習データ : 合成データ
ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 変分ベイズ法による近似 [Attias; ’99] : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法による近似 [Attias; ’99]
変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定
変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化
主観評価実験による提案法の評価 ベイズ基準の特徴ごとに分析 モデルパラメータの事後分布推定 データ量を考慮したモデル構造選択 評価者10人 20文を自然性について5段階評価 モデル学習基準 モデル構造選択基準 ML-MDL ML基準 MDL基準 Bayes-MDL ベイズ基準 ML-Bayes Bayes-Bayes
ベイズ基準を用いることで合成音声の品質を改善 主観評価実験 リーフノード数 1,128 1,128 9,485 9,485 ベイズ基準を用いることで合成音声の品質を改善
ベイズ基準を用いることで高精度な音響モデルを推定 音素認識実験 リーフノード数 5,429 5,429 14,610 14,610 ベイズ基準を用いることで高精度な音響モデルを推定
学習・合成過程の統合 モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ : 合成ラベル : 学習ラベル : 学習データ : 合成データ
従来の事後分布推定 変分ベイズ法による事後分布推定 事後分布 は合成データに依存 ⇒ 合成データは観測されていない 事後分布 は合成データに依存 ⇒ 合成データは観測されていない ⇒ 直接計算することは困難 学習データのみから を推定
ベイズ音声合成の性質を十分に表現できていない 近似を用いたベイズ音声合成 事後分布 の更新 (学習データの隠れ変数系列) 学習データ 事後分布 の更新 (モデルパラメータ) 学習部 合成部 事後分布 の更新 (合成データの隠れ変数系列) 合成データ の生成 合成データ ベイズ音声合成の性質を十分に表現できていない
学習・合成過程が統合されたベイズ音声合成 提案法 事後分布 の更新 (学習データの隠れ変数系列) 学習データ 事後分布 の更新 (モデルパラメータ) 事後分布 の更新 (合成データの隠れ変数系列) 合成データ の生成 合成データ 学習・合成過程が統合されたベイズ音声合成
更新回数の比較 事後分布・合成データの更新回数の比較 事後分布推定に用いる合成データは1発話 事後分布推定に用いたデータ Iteration0 学習データ Iteration1 学習データとIteration0の合成データ Iteration2 学習データとIteration1の合成データ Iteration3 学習データとIteration2の合成データ
学習・合成過程の統合により合成音声の品質を改善 主観評価実験 事後分布・合成データの更新回数の比較 学習・合成過程の統合により合成音声の品質を改善
目的 音声翻訳システムの高性能化 各要素の高性能化 要素の統合手法 音声認識 機械翻訳 音声合成 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 要素の統合手法 機械翻訳・音声合成の影響の調査および分析 音声認識 機械翻訳 音声合成
音声翻訳のための統合手法 音声認識と機械翻訳の統合[Ney, ’99] 機械翻訳と音声合成の統合 統計的アプローチ 複数の認識結果と統計モデルのスコアを利用 ⇒ 翻訳結果を大きく改善 機械翻訳と音声合成の統合 合成音声の品質は音声翻訳システムに大きく影響 音声合成部を考慮した統合手法が必要 ⇒ 各要素がどのように影響しているかを分析
主観評価実験 Amazon Mechanical Turkを用いて実験 Section 1: 音声合成の評価 合成音声の自然性(Naturalness) Section 2: 音声翻訳の評価 単語聞き取り誤り率(WER) 聞き取った翻訳文の妥当性(S2ST-Adequacy) 聞き取った翻訳文の流暢性(S2ST-Fluency) Section 3: 機械翻訳の評価 翻訳文の妥当性(MT-Adequacy) 翻訳文の流暢性(MT-Fluency) 評価者150人
システム 音声翻訳システム(Finnish-to-English) 音声認識部 機械翻訳部 音声合成部 入力文として100文使用 正解認識結果を出力すると仮定 機械翻訳部 HiFST (統計的機械翻訳システム) 865,732翻訳文による学習 機械翻訳部は上位20位までの翻訳候補を出力 音声合成部 統計モデルに基づく音声合成 単一男性話者による8,129発話による学習 入力文として100文使用
システム出力例 翻訳候補(上位5位)とその合成音声 N-best MT output sentence Speech 1 We support what you have said. 2 We support what you said. 3 We are in favour of what you have said. 4 We support what you said about. 5 We are in favour of what you said. 正解翻訳文 We can support what you said.
機械翻訳との相関 合成音声の自然性との相関係数 評価者の単語聞き取り誤り率との相関係数 翻訳文の流暢性との相関がより高い MT-Adequacy MT-Fluency Naturalness 0.12 0.24 MT-Adequacy MT-Fluency WER -0.17 -0.25
合成音声 機械翻訳の流暢性と合成音声の自然性
単語聞き取り誤り率 機械翻訳の流暢性と単語聞き取り誤り率
単語N-gramと流暢性の相関 単語N-gram 単語N-gramと翻訳文の流暢性との相関 直前のN-1単語が与えられた際の単語出現確率 P(天気|今日,の)=0.3 P(献立|今日,の)=0.2 1-gram 2-gram 3-gram 4-gram 5-gram MT-Fluency 0.28 0.39 0.42 0.43 0.44
単語5-gram 単語5-gramごとの流暢性の平均 相関係数: 0.87
音素N-gramと合成音声の相関 合成音声の品質は発話内容に大きく影響 音素N-gramと合成音声の自然性の相関 発話内容が学習データに近いとき高い自然性 口語調,文語調 新聞記事,小説 音素N-gramによる学習データとの類似度評価 音素N-gramと合成音声の自然性の相関 音素N-gramは音声合成部の学習データから推定 1-gram 2-gram 3-gram 4-gram 5-gram Naturalness 0.05 0.15 0.19 0.20 0.18
音素4-gram 音素4-gramごとの自然性の平均 相関係数: 0.81
分析結果のまとめ 機械翻訳部と音声合成部の関係 客観評価値による主観評価値の予測 翻訳文の流暢性が音声合成部に強く影響 高品質な合成音声 高い聞き取り精度 客観評価値による主観評価値の予測 単語N-gramのスコア ⇒ 翻訳文の流暢性の予測に利用可能 音素N-gramのスコア ⇒ 合成音声の自然性の予測に利用可能
むすび 音声翻訳システムの性能改善 今後の課題 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 先行研究からBLEUを0.49改善 ベイズ基準による音声合成・音声認識 従来法よりも高精度な音響モデルを推定 機械翻訳・音声合成の評価および分析 翻訳文の流暢性が合成音声の品質に大きく影響 今後の課題 音声合成部を考慮した統合手法の検討 音声翻訳システム全体を考慮した最適化手法