Presentation is loading. Please wait.

Presentation is loading. Please wait.

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University 1 1 2 2 2 1 3 3.

Similar presentations


Presentation on theme: "音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University 1 1 2 2 2 1 3 3."— Presentation transcript:

1

2 音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University 1 1 2 2 2 1 3 3

3 背景( 1/2 )  音声翻訳システム  各要素が独立 ⇒ 1-best のみを利用  前段要素のエラーによって後段要素の性能低下  音声認識と機械翻訳の統合 [Ney, ’99]  複数の認識候補とスコアを機械翻訳に利用 ⇒ 翻訳性能の改善  音声合成部が考慮されていない  音声合成部を考慮した統合手法が必要 2 音声認識機械翻訳音声合成

4  機械翻訳・音声合成の性能評価および分析  主観評価実験による評価 聞き取り精度 合成音声の自然性 翻訳文の妥当性 翻訳文の流暢性  各主観評価値の関係を分析  客観評価値と主観評価値の関係を分析 背景( 2/2 ) 3 音声認識機械翻訳音声合成 機械翻訳と音声合成の統合手法の指針を示す

5 システム  音声翻訳システム( Finnish-to-English )  音声認識部 正解認識結果を出力すると仮定  機械翻訳部 HiFST ( 統計的機械翻訳システム ) EuroParl 865,732 翻訳文による学習 上位 20 位までの翻訳候補を出力  音声合成部 HMM 音声合成システム 単一男性話者による 8,129 発話による学習 4

6 システム出力例  翻訳候補(上位 5 位)とその合成音声 5 N-bestMT output sentenceSpeech 1We support what you have said. 2We support what you said. 3We are in favour of what you have said. 4We support what you said about. 5We are in favour of what you said. 正解翻訳文 We can support what you said.

7 主観評価実験  Amazon Mechanical Turk を利用  Section 1: 音声合成の評価 合成音声の自然性( Naturalness )  Section 2: 音声翻訳の評価 単語聞き取り誤り率( WER ) 聞き取った翻訳文の妥当性( S2ST-Adequacy ) 聞き取った翻訳文の流暢性( S2ST-Fluency )  Section 3: 機械翻訳の評価 翻訳文の妥当性( MT-Adequacy ) 翻訳文の流暢性( MT-Fluency )  評価者 150 人 6

8 機械翻訳との相関  機械翻訳の評価尺度  妥当性 ⇒ 翻訳としての正しさ  流暢性 ⇒ 単語・文法の正しさ  合成音声の自然性との相関係数  評価者の単語聞き取り誤り率との相関係数 ⇒ 翻訳文の流暢性との相関がより高い 7 妥当性流暢性 聞き取り誤り 率 - 0.17 - 0.25 妥当性流暢性 自然性 0.120.24

9 合成音声の自然性  合成音声の自然性と翻訳文の流暢性 8

10 単語聞き取り誤り率  単語聞き取り誤り率と翻訳文の流暢性 9

11 単語 N-gram と翻訳文の流暢性  単語 N-gram  直前の N - 1 単語が与えられた際の単語出現確率  単語 N-gram のスコア ⇒ 文の流暢性  単語 N-gram と翻訳文の流暢性との相関  機械翻訳部の学習データ 865,732 文から推定  SRILM toolkit (Kneser-Ney smoothing) 10 1-gram2-gram3-gram4-gram5-gram MT-Fluency0.280.390.420.430.44

12 単語 5-gram による流暢性の予測  単語 5-gram のスコアごとに流暢性を平均化 相関係数 : 0.87 11

13 音素 N-gram と合成音声の自然性  合成音声の品質は発話内容に大きく影響  発話内容が学習データに近いとき高い自然性  学習データから推定した音素 N-gram のスコア ⇒ 学習データとの類似度  音素 N-gram と合成音声の自然性の相関  音声合成部の学習データ 8,129 文から推定  SRILM toolkit (Kneser-Ney smoothing) 12 1-gram2-gram3-gram4-gram5-gram Naturalness0.050.150.190.200.18

14 音素 4-gram による自然性の予測  音素 4-gram のスコアごとに自然性を平均化 相関係数 : 0.81 13

15 むすび  機械翻訳・音声合成の性能評価および分析  翻訳文の流暢性が音声合成部に強く影響 高品質な合成音声 高い聞き取り精度  客観評価値による主観評価値の予測 単語 N-gram ⇒ 翻訳文の流暢性 音素 N-gram ⇒ 合成音声の自然性  今後の課題  音声合成部を考慮した統合手法の検討  音声翻訳システム全体の統合手法の検討 14

16 背景( 3/3 )  統計モデルに基づく音声翻訳  学習データから統計モデルを自動学習  各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化 15 :入力音声 :出力音声:出力単語列 :入力単語列 音声認識機械翻訳音声合成

17 単語 5-gram と流暢性  翻訳文ごとの流暢性スコアの散布図 相関係数 : 0.44 16

18  音声翻訳システム  ある言語の音声を異なる言語の音声に直接翻訳 ( Speech-to-Speech Translation )  音声を入出力とした自然なコミュニケーション  言語の壁を越えた円滑なコミュニケーション 背景( 1/2 ) 17 日本語英語 こんにちは。 Hello.

19 背景( 2/2 )  統計モデルに基づく音声翻訳  理論的枠組みは言語によらず同一 ⇒ あらゆる言語のシステムを構築可能  各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化 18 音声認識機械翻訳音声合成


Download ppt "音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University 1 1 2 2 2 1 3 3."

Similar presentations


Ads by Google