創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳

Slides:

Advertisements

Similar presentations

PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

Advertisements

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

日本人学習者による英語音声の韻律に関する研究

最大エントロピーモデルに基づく形態素解析と辞書による影響

整数計画法を用いたフレーズ対応最適化による翻訳システムの改良

国内線で新千歳空港を利用している航空会社はどこですか？

Pattern Recognition and Machine Learning 1.5 決定理論

実験関数・記号付き文型パターンを用いた機械翻訳の試作と評価石上真理子水田理夫徳久雅人村上仁一池原悟（鳥取大） ◎評価方法１

部分木に基づくマルコフ確率場と言語解析への適用

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

4Y-4 印象に残りやすい日本語パスワードの合成法

雑音重み推定と音声ＧＭＭを用いた雑音除去

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--

確率モデルによる画像処理技術入門 --- ベイズ統計と確率的画像処理 ---

ランダムプロジェクションを用いた音声特徴量変換

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

Semi-Supervised QA with Generative Domain-Adaptive Nets

Buried Markov Modelを用いた構音障害者の音声認識の検討

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

複数の言語情報を用いたCRFによる音声認識誤りの検出

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

決定木とランダムフォレスト和田　俊和.

統計的機械翻訳におけるフレーズ対応最適化を用いた翻訳候補のリランキング

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

あらましアンサンブル学習の大きな特徴として，多数決などで生徒を組み合わせることにより，単一の生徒では表現できない入出力関係を実現できることがあげられる．その意味で，教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い．そこで本研究では，教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する．メトロポリス法により汎化誤差を計算した結果，ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること，パーセプトロン学習では

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

分子生物情報学(2) 配列のマルチプルアライメント法

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6

非負値行列因子分解に基づく唇動画像からの音声生成

音声情報とベイジアンネットを用いた感性情報処理システム

Number of random matrices

第3章　線形回帰モデル修士1年山田　孝太郎.

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

確率的画像処理アルゴリズム入門東北大学大学院情報科学研究科田中和之

クロスバリデーションを用いたベイズ基準によるHMM音声合成

ブースティングとキーワードフィルタリングによるシステム要求検出

東北大情報科学田中和之,吉池紀子山口大工庄野逸理化学研究所岡田真人

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

人工知能特論II　第8回二宮　崇.

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

ポッツスピン型隠れ変数による画像領域分割

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

クラスタリングを用いたベイズ学習モデルを動的に更新するソフトウェア障害検知手法

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

制約付き非負行列因子分解を用いた音声特徴抽出の検討

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

CSP係数の識別に基づく話者の頭部方向の推定

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

１．２言語処理の諸観点（１）言語処理の利用分野

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳 Statistical Models of Machine Translation, Speech Recognition, and Speech Synthesis for Speech-to-Speech Translation 音声翻訳のための機械翻訳，音声認識，音声合成の統計モデル創成シミュレーション工学専攻計算システム工学分野　徳田・李研究室橋本佳

背景（1/3）音声翻訳システムある言語の音声を異なる言語の音声に直接翻訳（Speech-to-Speech Translation）音声を入出力とした自然なコミュニケーション言語の壁を越えた円滑なコミュニケーション日本語英語こんにちは。 Hello.

背景（2/3）音声翻訳システムの構成人間の知識に基づく手法統計モデルに基づく手法入出力に関する人間の知識を導入入出力の関係を完全に表現することは困難統計モデルに基づく手法学習データから入出力の関係を効率よく学習多量の学習データ・高性能な計算機が必要音声認識機械翻訳音声合成

背景（3/3）統計モデルに基づく音声翻訳理論的枠組みは言語によらず同一 ⇒ あらゆる言語のシステムを構築可能各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化音声認識機械翻訳音声合成

現状の性能機械翻訳音声認識音声合成旅行会話を対象としたシステム ⇒ TOEIC600点翻訳対象によって翻訳性能が低下静音状況における特定話者 ⇒ 認識率90%以上雑音・話者・内容によって認識性能が低下音声合成発話内容が限定 ⇒ 高品質な合成音声発話内容によって合成音声の品質が劣化 [Sugaya et al., ’01]

目的音声翻訳システムの高性能化各要素の高性能化要素の統合手法音声認識機械翻訳音声合成構文情報を用いた統計的機械翻訳ベイズ基準による音声合成・音声認識要素の統合手法機械翻訳・音声合成の影響の調査および分析音声認識機械翻訳音声合成

機械翻訳ルールベース型機械翻訳統計的機械翻訳 [Brown et al., ’93] 適切なルールを大量に用意することで高性能化言語対ごとに新たにルールを作成翻訳ルールを人手で作成新たな言語への対応が困難統計的機械翻訳 [Brown et al., ’93] 翻訳データから統計モデルを自動学習同様の枠組みからシステム構築が可能新たな言語への対応が容易

統計的機械翻訳翻訳モデル・言語モデルから構成 [Brown et al., ’93] : 出力言語の単語列 : 入力言語の単語列 : 翻訳モデル（2言語間の翻訳対応） : 言語モデル（出力言語の単語の並び）

単語ベースの統計的機械翻訳単語対単語の翻訳モデル[Brown et al., ’93] 熟語などの翻訳が困難単語の並び替えが困難（長文ほど困難） Nice to meet you. 良いこと会うあなたに。 ⇒ I go to ABC. わたしは行くへ ABC 。 ⇒

フレーズベースの統計的機械翻訳隣接する複数の単語 ⇒ フレーズフレーズ対フレーズの翻訳モデル [Koehn et al., 2003] 熟語などの翻訳が可能単語の並び替え性能が改善現在の標準的な手法文全体を考慮した単語並び替え手法が必要 Nice to meet you. はじめまして。 ⇒ I go to ABC. わたしはへ行く ABC 。 ⇒

構文木を制約とした統計的機械翻訳 IST-ITG[Yamamoto et al., ’08] 仮定：入力文の構文木を回転させることにより (Imposing Source Tree on Inversion Transduction Grammar) ⇒ どのような回転が最適かは表現不可能仮定：入力文の構文木を回転させることにより出力文の構文を表現可能 This is a pen ⇒ これは _ ペンです

構文木の回転モデル構文木の回転を品詞を用いてモデル化英語-日本語翻訳実験入力構文木部分木 This is a pen NP S VP AUX DT NN This is a pen = S+NP+VP = VP+AUX+NP = NP+DT+NN 単語並び替え確率 Baseline IST-ITG Proposed BLEU-4 27.87 29.31 29.80

翻訳結果例 Source: From results of the consideration, it was pointed that radiation from the loop elements was weak. Reference: 考察結果より，ループ素子からの放射が弱いことを指摘する。 IST-ITG: 考察の結果から，ことを指摘し，ループの要素からの放射は弱かった。 Proposed: 考察の結果から，ループ素子からの放射は弱いことを示した。

目的音声翻訳システムの高性能化各要素の高性能化要素の統合手法音声認識機械翻訳音声合成構文情報を用いた統計的機械翻訳ベイズ基準による音声合成・音声認識要素の統合手法機械翻訳・音声合成の影響の調査および分析音声認識機械翻訳音声合成

音声合成素片接続型音声合成 [Black et al., ’96] 統計モデルに基づく音声合成 [Tokuda et al., ’00] 素片に分割された音声データをつなぎ音声を合成高品質だが大量の音声データが必要統計モデルに基づく音声合成 [Tokuda et al., ’00] 統計モデルを用いて音声をモデル化（音響モデル）多様な音声を合成可能少量の音声データからモデルの学習が可能 ⇒ 合成音声の品質は音響モデルに強く依存

音響モデル隠れマルコフモデル（Hidden Markov Model; HMM）コンテキスト依存モデル[Lee, ’90] 時間による変動を考慮したモデル ⇒ 音声に適したモデルコンテキスト依存モデル[Lee, ’90] 音響的特徴は文脈要因（コンテキスト）に影響先行音素，後続音素，品詞，音節の数，アクセント等コンテキストを考慮したモデル詳細な音響的特徴をモデル化各モデルに割り当てられる学習データは減少 ⇒ モデル推定精度が低下

コンテキストクラスタリング[Young, ’94] 決定木に基づくクラスタリング手法コンテキストに関する質問を適用リーフノードごとに音響モデルを共有品詞は名詞? 当該音素は母音? 先行音素は破裂音? yes no 決定木の大きさ学習データ量モデルの表現能力小さい多量低い大きい少量高い

モデル学習基準尤度最大化（Maximum Likelihood; ML）基準ベイズ基準音響モデルの学習基準として広く利用モデルパラメータを点推定 ⇒ 学習データが少量の場合に過学習ベイズ基準モデルパラメータの事後分布を推定事前情報を利用可能データ量を考慮したモデル構造（決定木）選択が可能 ⇒ 学習データが少量の場合にも高い汎化性能 ⇒ 多くのコンテキストを考慮することが可能

ベイズ基準による音声合成（1/2）モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ : 合成ラベル : 学習ラベル : 学習データ : 合成データ

ベイズ基準による音声合成（2/2）ベイズ基準における予測分布（周辺尤度関数）変分ベイズ法による近似 [Attias; ’99] : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布変分ベイズ法による近似 [Attias; ’99]

変分ベイズ法（1/2）対数周辺尤度の下限を定義下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定対数周辺尤度の下限を定義（Jensenの不等式）：に関する期待値 : 近似事後分布下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定

変分ベイズ法（2/2）近似事後分布の独立性を仮定変分法による事後分布推定 : 正規化項交互に更新することでを最大化

主観評価実験による提案法の評価ベイズ基準の特徴ごとに分析モデルパラメータの事後分布推定データ量を考慮したモデル構造選択評価者10人 20文を自然性について5段階評価モデル学習基準モデル構造選択基準 ML-MDL ML基準 MDL基準 Bayes-MDL ベイズ基準 ML-Bayes Bayes-Bayes

ベイズ基準を用いることで合成音声の品質を改善主観評価実験リーフノード数 1,128 1,128 9,485 9,485 ベイズ基準を用いることで合成音声の品質を改善

ベイズ基準を用いることで高精度な音響モデルを推定音素認識実験リーフノード数 5,429 5,429 14,610 14,610 ベイズ基準を用いることで高精度な音響モデルを推定

学習・合成過程の統合モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ : 合成ラベル : 学習ラベル : 学習データ : 合成データ

従来の事後分布推定変分ベイズ法による事後分布推定事後分布は合成データに依存 ⇒ 合成データは観測されていない事後分布　　　は合成データに依存 ⇒ 合成データは観測されていない ⇒ 直接計算することは困難学習データのみからを推定

ベイズ音声合成の性質を十分に表現できていない近似を用いたベイズ音声合成事後分布　　　　の更新（学習データの隠れ変数系列）学習データ事後分布　　　　の更新（モデルパラメータ）学習部合成部事後分布　　　　の更新（合成データの隠れ変数系列）合成データ　　の生成合成データベイズ音声合成の性質を十分に表現できていない

学習・合成過程が統合されたベイズ音声合成提案法事後分布　　　　の更新（学習データの隠れ変数系列）学習データ事後分布　　　　の更新（モデルパラメータ）事後分布　　　　の更新（合成データの隠れ変数系列）合成データ　　の生成合成データ学習・合成過程が統合されたベイズ音声合成

更新回数の比較事後分布・合成データの更新回数の比較事後分布推定に用いる合成データは1発話事後分布推定に用いたデータ Iteration0 学習データ Iteration1 学習データとIteration0の合成データ Iteration2 学習データとIteration1の合成データ Iteration3 学習データとIteration2の合成データ

学習・合成過程の統合により合成音声の品質を改善主観評価実験事後分布・合成データの更新回数の比較学習・合成過程の統合により合成音声の品質を改善

目的音声翻訳システムの高性能化各要素の高性能化要素の統合手法音声認識機械翻訳音声合成構文情報を用いた統計的機械翻訳ベイズ基準による音声合成・音声認識要素の統合手法機械翻訳・音声合成の影響の調査および分析音声認識機械翻訳音声合成

音声翻訳のための統合手法音声認識と機械翻訳の統合[Ney, ’99] 機械翻訳と音声合成の統合統計的アプローチ複数の認識結果と統計モデルのスコアを利用 ⇒ 翻訳結果を大きく改善機械翻訳と音声合成の統合合成音声の品質は音声翻訳システムに大きく影響音声合成部を考慮した統合手法が必要 ⇒ 各要素がどのように影響しているかを分析

主観評価実験 Amazon Mechanical Turkを用いて実験 Section 1: 音声合成の評価合成音声の自然性（Naturalness） Section 2: 音声翻訳の評価単語聞き取り誤り率（WER）聞き取った翻訳文の妥当性（S2ST-Adequacy）聞き取った翻訳文の流暢性（S2ST-Fluency） Section 3: 機械翻訳の評価翻訳文の妥当性（MT-Adequacy）翻訳文の流暢性（MT-Fluency）評価者150人

システム音声翻訳システム（Finnish-to-English）音声認識部機械翻訳部音声合成部入力文として100文使用正解認識結果を出力すると仮定機械翻訳部 HiFST (統計的機械翻訳システム) 865,732翻訳文による学習機械翻訳部は上位20位までの翻訳候補を出力音声合成部統計モデルに基づく音声合成単一男性話者による8,129発話による学習入力文として100文使用

システム出力例翻訳候補（上位5位）とその合成音声 N-best MT output sentence Speech 1 We support what you have said. 2 We support what you said. 3 We are in favour of what you have said. 4 We support what you said about. 5 We are in favour of what you said. 正解翻訳文 We can support what you said.

機械翻訳との相関合成音声の自然性との相関係数評価者の単語聞き取り誤り率との相関係数翻訳文の流暢性との相関がより高い MT-Adequacy MT-Fluency Naturalness 0.12 0.24 MT-Adequacy MT-Fluency WER －0.17 －0.25

合成音声機械翻訳の流暢性と合成音声の自然性

単語聞き取り誤り率機械翻訳の流暢性と単語聞き取り誤り率

単語N-gramと流暢性の相関単語N-gram 単語N-gramと翻訳文の流暢性との相関直前のN-1単語が与えられた際の単語出現確率 P（天気|今日，の）=0.3 P（献立|今日，の）=0.2 1-gram 2-gram 3-gram 4-gram 5-gram MT-Fluency 0.28 0.39 0.42 0.43 0.44

単語5-gram 単語5-gramごとの流暢性の平均相関係数: 0.87

音素N-gramと合成音声の相関合成音声の品質は発話内容に大きく影響音素N-gramと合成音声の自然性の相関発話内容が学習データに近いとき高い自然性口語調，文語調新聞記事，小説音素N-gramによる学習データとの類似度評価音素N-gramと合成音声の自然性の相関音素N-gramは音声合成部の学習データから推定 1-gram 2-gram 3-gram 4-gram 5-gram Naturalness 0.05 0.15 0.19 0.20 0.18

音素4-gram 音素4-gramごとの自然性の平均相関係数: 0.81

分析結果のまとめ機械翻訳部と音声合成部の関係客観評価値による主観評価値の予測翻訳文の流暢性が音声合成部に強く影響高品質な合成音声高い聞き取り精度客観評価値による主観評価値の予測単語N-gramのスコア ⇒ 翻訳文の流暢性の予測に利用可能音素N-gramのスコア ⇒ 合成音声の自然性の予測に利用可能

むすび音声翻訳システムの性能改善今後の課題構文情報を用いた統計的機械翻訳ベイズ基準による音声合成・音声認識先行研究からBLEUを0.49改善ベイズ基準による音声合成・音声認識従来法よりも高精度な音響モデルを推定機械翻訳・音声合成の評価および分析翻訳文の流暢性が合成音声の品質に大きく影響今後の課題音声合成部を考慮した統合手法の検討音声翻訳システム全体を考慮した最適化手法