創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳

Slides:



Advertisements
Similar presentations
PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
日本人学習者による英語音声の 韻律に関する研究
最大エントロピーモデルに基づく形態素解析と辞書による影響
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
国内線で新千歳空港を利用している航空会社はどこですか?
Pattern Recognition and Machine Learning 1.5 決定理論
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
部分木に基づくマルコフ確率場と言語解析への適用
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
4Y-4 印象に残りやすい日本語パスワードの合成法
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
Semi-Supervised QA with Generative Domain-Adaptive Nets
Buried Markov Modelを用いた 構音障害者の音声認識の検討
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
決定木とランダムフォレスト 和田 俊和.
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
分子生物情報学(2) 配列のマルチプルアライメント法
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
非負値行列因子分解に基づく唇動画像からの音声生成
音声情報とベイジアンネットを 用いた感性情報処理システム
Number of random matrices
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
確率的画像処理アルゴリズム入門 東北大学 大学院情報科学研究科 田中 和之
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
ブースティングとキーワードフィルタリング によるシステム要求検出
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
CSP係数の識別に基づく話者の 頭部方向の推定
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1.2 言語処理の諸観点 (1)言語処理の利用分野
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳 Statistical Models of Machine Translation, Speech Recognition, and Speech Synthesis for Speech-to-Speech Translation 音声翻訳のための機械翻訳,音声認識, 音声合成の統計モデル 創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳

背景(1/3) 音声翻訳システム ある言語の音声を異なる言語の音声に直接翻訳 (Speech-to-Speech Translation) 音声を入出力とした自然なコミュニケーション 言語の壁を越えた円滑なコミュニケーション 日本語 英語 こんにちは。 Hello.

背景(2/3) 音声翻訳システムの構成 人間の知識に基づく手法 統計モデルに基づく手法 入出力に関する人間の知識を導入 入出力の関係を完全に表現することは困難 統計モデルに基づく手法 学習データから入出力の関係を効率よく学習 多量の学習データ・高性能な計算機が必要 音声認識 機械翻訳 音声合成

背景(3/3) 統計モデルに基づく音声翻訳 理論的枠組みは言語によらず同一 ⇒ あらゆる言語のシステムを構築可能 各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化 音声認識 機械翻訳 音声合成

現状の性能 機械翻訳 音声認識 音声合成 旅行会話を対象としたシステム ⇒ TOEIC600点 翻訳対象によって翻訳性能が低下 静音状況における特定話者 ⇒ 認識率90%以上 雑音・話者・内容によって認識性能が低下 音声合成 発話内容が限定 ⇒ 高品質な合成音声 発話内容によって合成音声の品質が劣化 [Sugaya et al., ’01]

目的 音声翻訳システムの高性能化 各要素の高性能化 要素の統合手法 音声認識 機械翻訳 音声合成 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 要素の統合手法 機械翻訳・音声合成の影響の調査および分析 音声認識 機械翻訳 音声合成

機械翻訳 ルールベース型機械翻訳 統計的機械翻訳 [Brown et al., ’93] 適切なルールを大量に用意することで高性能化 言語対ごとに新たにルールを作成 翻訳ルールを人手で作成 新たな言語への対応が困難 統計的機械翻訳 [Brown et al., ’93] 翻訳データから統計モデルを自動学習 同様の枠組みからシステム構築が可能 新たな言語への対応が容易

統計的機械翻訳 翻訳モデル・言語モデルから構成 [Brown et al., ’93] : 出力言語の単語列 : 入力言語の単語列 : 翻訳モデル(2言語間の翻訳対応) : 言語モデル(出力言語の単語の並び)

単語ベースの統計的機械翻訳 単語対単語の翻訳モデル[Brown et al., ’93] 熟語などの翻訳が困難 単語の並び替えが困難(長文ほど困難) Nice to meet you. 良い こと 会う あなたに 。 ⇒ I go to ABC. わたしは 行く へ ABC 。 ⇒

フレーズベースの統計的機械翻訳 隣接する複数の単語 ⇒ フレーズ フレーズ対フレーズの翻訳モデル [Koehn et al., 2003] 熟語などの翻訳が可能 単語の並び替え性能が改善 現在の標準的な手法 文全体を考慮した単語並び替え手法が必要 Nice to meet you. はじめまして。 ⇒ I go to ABC. わたしは へ 行く ABC 。 ⇒

構文木を制約とした統計的機械翻訳 IST-ITG[Yamamoto et al., ’08] 仮定:入力文の構文木を回転させることにより (Imposing Source Tree on Inversion Transduction Grammar) ⇒ どのような回転が最適かは表現不可能 仮定:入力文の構文木を回転させることにより 出力文の構文を表現可能 This is a pen ⇒ これは _ ペン です

構文木の回転モデル 構文木の回転を品詞を用いてモデル化 英語-日本語翻訳実験 入力構文木 部分木 This is a pen NP S VP AUX DT NN This is a pen = S+NP+VP = VP+AUX+NP = NP+DT+NN 単語並び替え確率 Baseline IST-ITG Proposed BLEU-4 27.87 29.31 29.80

翻訳結果例 Source: From results of the consideration, it was pointed that radiation from the loop elements was weak. Reference: 考察結果より,ループ素子からの放射が弱いことを指摘する。 IST-ITG: 考察の結果から,ことを指摘し,ループの要素からの放射は弱かった。 Proposed: 考察の結果から,ループ素子からの放射は弱いことを示した。

目的 音声翻訳システムの高性能化 各要素の高性能化 要素の統合手法 音声認識 機械翻訳 音声合成 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 要素の統合手法 機械翻訳・音声合成の影響の調査および分析 音声認識 機械翻訳 音声合成

音声合成 素片接続型音声合成 [Black et al., ’96] 統計モデルに基づく音声合成 [Tokuda et al., ’00] 素片に分割された音声データをつなぎ音声を合成 高品質だが大量の音声データが必要 統計モデルに基づく音声合成 [Tokuda et al., ’00] 統計モデルを用いて音声をモデル化(音響モデル) 多様な音声を合成可能 少量の音声データからモデルの学習が可能 ⇒ 合成音声の品質は音響モデルに強く依存

音響モデル 隠れマルコフモデル(Hidden Markov Model; HMM) コンテキスト依存モデル[Lee, ’90] 時間による変動を考慮したモデル ⇒ 音声に適したモデル コンテキスト依存モデル[Lee, ’90] 音響的特徴は文脈要因(コンテキスト)に影響 先行音素,後続音素,品詞,音節の数,アクセント等 コンテキストを考慮したモデル 詳細な音響的特徴をモデル化 各モデルに割り当てられる学習データは減少 ⇒ モデル推定精度が低下

コンテキストクラスタリング[Young, ’94] 決定木に基づくクラスタリング手法 コンテキストに関する質問を適用 リーフノードごとに音響モデルを共有 品詞は名詞? 当該音素は母音? 先行音素は破裂音? yes no 決定木の大きさ 学習データ量 モデルの表現能力 小さい 多量 低い 大きい 少量 高い

モデル学習基準 尤度最大化(Maximum Likelihood; ML)基準 ベイズ基準 音響モデルの学習基準として広く利用 モデルパラメータを点推定 ⇒ 学習データが少量の場合に過学習 ベイズ基準 モデルパラメータの事後分布を推定 事前情報を利用可能 データ量を考慮したモデル構造(決定木)選択が可能 ⇒ 学習データが少量の場合にも高い汎化性能 ⇒ 多くのコンテキストを考慮することが可能

ベイズ基準による音声合成(1/2) モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ : 合成ラベル : 学習ラベル : 学習データ : 合成データ

ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) 変分ベイズ法による近似 [Attias; ’99] : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法による近似 [Attias; ’99]

変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定

変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化

主観評価実験による提案法の評価 ベイズ基準の特徴ごとに分析 モデルパラメータの事後分布推定 データ量を考慮したモデル構造選択 評価者10人 20文を自然性について5段階評価 モデル学習基準 モデル構造選択基準 ML-MDL ML基準 MDL基準 Bayes-MDL ベイズ基準 ML-Bayes Bayes-Bayes

ベイズ基準を用いることで合成音声の品質を改善 主観評価実験 リーフノード数 1,128 1,128 9,485 9,485 ベイズ基準を用いることで合成音声の品質を改善

ベイズ基準を用いることで高精度な音響モデルを推定 音素認識実験 リーフノード数 5,429 5,429 14,610 14,610 ベイズ基準を用いることで高精度な音響モデルを推定

学習・合成過程の統合 モデル学習・音声合成基準 ML Bayes ⇒ 学習 ⇒ 合成 ⇒ 学習・合成 : モデルパラメータ : 合成ラベル : 学習ラベル : 学習データ : 合成データ

従来の事後分布推定 変分ベイズ法による事後分布推定 事後分布 は合成データに依存 ⇒ 合成データは観測されていない 事後分布    は合成データに依存 ⇒ 合成データは観測されていない ⇒ 直接計算することは困難 学習データのみから を推定

ベイズ音声合成の性質を十分に表現できていない 近似を用いたベイズ音声合成 事後分布    の更新 (学習データの隠れ変数系列) 学習データ 事後分布    の更新 (モデルパラメータ) 学習部 合成部 事後分布    の更新 (合成データの隠れ変数系列) 合成データ  の生成 合成データ ベイズ音声合成の性質を十分に表現できていない

学習・合成過程が統合されたベイズ音声合成 提案法 事後分布    の更新 (学習データの隠れ変数系列) 学習データ 事後分布    の更新 (モデルパラメータ) 事後分布    の更新 (合成データの隠れ変数系列) 合成データ  の生成 合成データ 学習・合成過程が統合されたベイズ音声合成

更新回数の比較 事後分布・合成データの更新回数の比較 事後分布推定に用いる合成データは1発話 事後分布推定に用いたデータ Iteration0 学習データ Iteration1 学習データとIteration0の合成データ Iteration2 学習データとIteration1の合成データ Iteration3 学習データとIteration2の合成データ

学習・合成過程の統合により合成音声の品質を改善 主観評価実験 事後分布・合成データの更新回数の比較 学習・合成過程の統合により合成音声の品質を改善

目的 音声翻訳システムの高性能化 各要素の高性能化 要素の統合手法 音声認識 機械翻訳 音声合成 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 要素の統合手法 機械翻訳・音声合成の影響の調査および分析 音声認識 機械翻訳 音声合成

音声翻訳のための統合手法 音声認識と機械翻訳の統合[Ney, ’99] 機械翻訳と音声合成の統合 統計的アプローチ 複数の認識結果と統計モデルのスコアを利用 ⇒ 翻訳結果を大きく改善 機械翻訳と音声合成の統合 合成音声の品質は音声翻訳システムに大きく影響 音声合成部を考慮した統合手法が必要 ⇒ 各要素がどのように影響しているかを分析

主観評価実験 Amazon Mechanical Turkを用いて実験 Section 1: 音声合成の評価 合成音声の自然性(Naturalness) Section 2: 音声翻訳の評価 単語聞き取り誤り率(WER) 聞き取った翻訳文の妥当性(S2ST-Adequacy) 聞き取った翻訳文の流暢性(S2ST-Fluency) Section 3: 機械翻訳の評価 翻訳文の妥当性(MT-Adequacy) 翻訳文の流暢性(MT-Fluency) 評価者150人

システム 音声翻訳システム(Finnish-to-English) 音声認識部 機械翻訳部 音声合成部 入力文として100文使用 正解認識結果を出力すると仮定 機械翻訳部 HiFST (統計的機械翻訳システム) 865,732翻訳文による学習 機械翻訳部は上位20位までの翻訳候補を出力 音声合成部 統計モデルに基づく音声合成 単一男性話者による8,129発話による学習 入力文として100文使用

システム出力例 翻訳候補(上位5位)とその合成音声 N-best MT output sentence Speech 1 We support what you have said. 2 We support what you said. 3 We are in favour of what you have said. 4 We support what you said about. 5 We are in favour of what you said. 正解翻訳文 We can support what you said.

機械翻訳との相関 合成音声の自然性との相関係数 評価者の単語聞き取り誤り率との相関係数 翻訳文の流暢性との相関がより高い MT-Adequacy MT-Fluency Naturalness 0.12 0.24 MT-Adequacy MT-Fluency WER -0.17 -0.25

合成音声 機械翻訳の流暢性と合成音声の自然性

単語聞き取り誤り率 機械翻訳の流暢性と単語聞き取り誤り率

単語N-gramと流暢性の相関 単語N-gram 単語N-gramと翻訳文の流暢性との相関 直前のN-1単語が与えられた際の単語出現確率 P(天気|今日,の)=0.3 P(献立|今日,の)=0.2 1-gram 2-gram 3-gram 4-gram 5-gram MT-Fluency 0.28 0.39 0.42 0.43 0.44

単語5-gram 単語5-gramごとの流暢性の平均 相関係数: 0.87

音素N-gramと合成音声の相関 合成音声の品質は発話内容に大きく影響 音素N-gramと合成音声の自然性の相関 発話内容が学習データに近いとき高い自然性 口語調,文語調 新聞記事,小説 音素N-gramによる学習データとの類似度評価 音素N-gramと合成音声の自然性の相関 音素N-gramは音声合成部の学習データから推定 1-gram 2-gram 3-gram 4-gram 5-gram Naturalness 0.05 0.15 0.19 0.20 0.18

音素4-gram 音素4-gramごとの自然性の平均 相関係数: 0.81

分析結果のまとめ 機械翻訳部と音声合成部の関係 客観評価値による主観評価値の予測 翻訳文の流暢性が音声合成部に強く影響 高品質な合成音声 高い聞き取り精度 客観評価値による主観評価値の予測 単語N-gramのスコア ⇒ 翻訳文の流暢性の予測に利用可能 音素N-gramのスコア ⇒ 合成音声の自然性の予測に利用可能

むすび 音声翻訳システムの性能改善 今後の課題 構文情報を用いた統計的機械翻訳 ベイズ基準による音声合成・音声認識 先行研究からBLEUを0.49改善 ベイズ基準による音声合成・音声認識 従来法よりも高精度な音響モデルを推定 機械翻訳・音声合成の評価および分析 翻訳文の流暢性が合成音声の品質に大きく影響 今後の課題 音声合成部を考慮した統合手法の検討 音声翻訳システム全体を考慮した最適化手法