整数計画法を用いたフレーズ対応最適化による翻訳システムの改良

Slides:

Advertisements

Similar presentations

北海道大学 Hokkaido University 1 情報理論講義資料 2016/06/22 情報エレクトロニクス学科共通科目・２年次・第 1 学期〔必修科目〕講義「情報理論」第 5 回第 3 章情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.

Advertisements

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

最大エントロピーモデルに基づく形態素解析と辞書による影響

XHTML構文検証手法におけるスクリプト要素の静的解析アルゴリズム

ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.5 節主・双対法 pp

ラベル付き区間グラフを列挙するBDDとその応用

コンパイラ 2011年10月17日

国内線で新千歳空港を利用している航空会社はどこですか？

4. 順序回路五島正裕.

モード付き並列機械におけるオンラインスケジューリング

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

土木計画学第１１回（１２月２１日）土木計画と説明責任計画における代替案の作成1 担当：榊原　弘之.

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

リンクパワーオフによる光ネットワークの省電力化

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

述語項構造に基づいた統計翻訳における語句の並べ替え

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

マイクロシミュレーションにおける可変属性セル問題と解法

統計翻訳におけるフレーズ対応最適化を利用した翻訳候補のリランキング

コンパイラ 2012年10月15日

メソッド名とその周辺の識別子の相関ルールに基づくメソッド名変更支援手法

日本語解析済みコーパス管理ツール「茶器」

シミュレーション演習 G. 総合演習（Mathematica演習）システム創成情報工学科

検索エンジンを利用した Covert Channelの検出

オントロジーを使用したプログラム開発支援システムの提案

割当て問題 • 割当問題の記法・定式化 • 拡張 • 特殊ケース（マッチング） • ３種類のものを割当てる問題.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究

統計的機械翻訳におけるフレーズ対応最適化を用いた翻訳候補のリランキング

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Online Decoding of Markov Models under Latency Constraints

音高による音色変化に着目した音源同定に関する研究

確率伝搬法と量子系の平均場理論田中和之東北大学大学院情報科学研究科

量子系における確率推論の平均場理論田中和之東北大学大学院情報科学研究科

2009年12月4日 ○ 前田康成（北見工業大学）吉田秀樹（北見工業大学）鈴木正清（北見工業大学）松嶋敏泰（早稲田大学）

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

統計的機械翻訳におけるフレーズ対応最適化を用いた翻訳候補のリランキング

連続領域におけるファジィ制約充足問題の反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.

ファジィ制約充足問題への連続領域の導入 Introducing continuous domains to

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

バイトコードを単位とするJavaスライスシステムの試作

知能情報システム特論 Introduction

適応的近傍を持つシミュレーテッドアニーリングの性能

論文紹介: “Joint Embedding of Words and Labels for Text Classification”

知識科学研究科知識システム構築論講座林研究室佛明智

Number of random matrices

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

サポートベクターマシン Support Vector Machine SVM

クロスバリデーションを用いたベイズ基準によるHMM音声合成

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

大規模ネットワークに対する実用的クラスタ発見アルゴリズムの開発

HMM音声合成における変分ベイズ法に基づく線形回帰

プログラミング入門２第13回、14回　総合演習情報工学科　篠埜　功.

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

人工知能特論II　第8回二宮　崇.

ベイズ音声合成における事前分布とモデル構造の話者間共有

分枝カット法に基づいた線形符号の復号法に関する一考察

発表者: 稲葉一浩複雑ネットワーク・地図グラフセミナー 2017/1/19

コストのついたグラフの探索分枝限定法 A*アルゴリズム.

ソフトウェア理解支援を目的とした辞書の作成法

Webページタイプによるクラスタリングを用いた検索支援システム

コンパイラ 2012年10月11日

識別子の読解を目的とした名詞辞書の作成方法の一試案

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

雑音環境下における Sparse Coding声質変換 3-P-49d

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

整数計画法を用いたフレーズ対応最適化による翻訳システムの改良システム情報工学研究科　１年学籍番号：200820634 氏名：越川満指導教員：山本幹雄

機械翻訳に対する需要現在、ウェブ上には膨大なテキスト情報が存在機械翻訳システム言語別webページ数様々な言語で表現統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめ機械翻訳に対する需要現在、ウェブ上には膨大なテキスト情報が存在様々な言語で表現翻訳手段の一つ：機械翻訳機械翻訳システムルールベース手法　　 1960年代～ excite翻訳など性能は頭打ち状態統計的手法　　　　　　 1990年代～ google翻訳近年著しく性能向上,　未だルールベースの性能には追いつけず 2004-2006年言語別webページ数童芳, 平手,山名. 2008. 全世界のWebサイトの言語分布と日本語を含む Webサイトのリンク・地理的位置の解析, DEWS2008.

統計的機械翻訳対訳コーパスから確率的翻訳規則を自動学習　　　研究の目的　　提案手法　　評価実験　　まとめ対訳コーパス：同じ意味をもつ異なる言語の文対集合対訳コーパスから確率的翻訳規則を自動学習原言語文fが与えられたとき、あらゆる目的言語文の中から翻訳として最も確率の高い目的言語文eを求める原言語　：翻訳元言語　 foreign language 目的言語：翻訳先言語 english ＾原言語文 f：　it is rainy today . 対訳コーパス it is fine today. 今日は天気がよい。 fig.9 is the flowchart … 図9はフローチャート… ・統計的機械翻訳システム翻訳候補　　　確率今日は雨です　 0.45 今日それは雨です。 0.12 　　　・・・　　　　　　　　・・・確率的翻訳規則学習目的言語文 e：　今日は雨です。＾

フレーズベース翻訳フレーズを翻訳の最小単位とする原言語文 f it is rainy today . it is rainy today 統計的機械翻訳フレーズベース翻訳　　　研究の目的　　提案手法　　評価実験　　まとめフレーズを翻訳の最小単位とするフレーズ：連続する1単語以上の単語列原言語文 f it is rainy today . フレーズ単位に分割フレーズ f2 f3 f1 f4 it is rainy today . 各原言語フレーズを目的言語側のフレーズに翻訳です雨今日は。 c2 c1 c3 歪み c4 フレーズの並び替え目的言語文 e 今日は雨です。 e1 e2 e3 e4

フレーズベース翻訳フレーズを翻訳の最小単位とする原言語文 f it is rainy today . 統計的機械翻訳フレーズベース翻訳　　　研究の目的　　提案手法　　評価実験　　まとめフレーズを翻訳の最小単位とするフレーズ：連続する1単語以上の単語列原言語文 f it is rainy today . フレーズ単位に分割フレーズ f2 f3 f1 フレーズベースモデルでは fに対するeの翻訳確率を各フレーズごとの翻訳確率の積で近似する f4 it is rainy today . 各原言語フレーズを目的言語側のフレーズに翻訳です雨今日は。 c2 c1 c3 歪み c4 フレーズの並び替え目的言語文 e 今日は雨です。 e1 e2 e3 e4

統計的機械翻訳システム it is rainy today . 今日は雨です。 it is rainy today . 今日は雨　　　研究の目的　　提案手法　　評価実験　　まとめ統計的機械翻訳システム目的言語文 e 語順変化 c 原言語文 f it is rainy today . 今日は雨です。 c1 c3 c2 c4 原言語文 f it is rainy today . c1 c3 語順変化 c c4 c2 今日は雨です　。目的言語文 e 適切なフレーズ対応に確率が集中 → Σcをmaxcで近似デコーダ(ヒューリスティック探索) 与えられたfに対する翻訳としてあらゆるeを確率で順位付け、最も確率の高いeを出力＾ max’: 近似解のmax

統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめ研究の目的デコーダの問題点ヒューリスティック探索を用いているため、フレーズ区切り・対応について確率が最大化されていない本研究の目的各翻訳候補に対してより適切なフレーズ区切り・対応を適用し(maxc)、デコーダの探索エラーを減少させる　→ 翻訳精度の改善デコーダ

提案手法翻訳候補の再順位付け(reranking) 整数計画法を用いたフレーズ対応最適化統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめ提案手法翻訳候補の再順位付け(reranking) デコーダの順位付けた翻訳候補上位n個についてフレーズ区切り・対応を最適化整数計画法を用いたフレーズ対応最適化数理計画法として対訳文の最適なフレーズ対応を求める問題を定式化

翻訳候補のreranking 1 1 2 2 0.35 デコーダの順位付けた翻訳候補上位n個フレーズ区切り・対応を最適化し、確率を再計算統計的機械翻訳翻訳候補のreranking 　　　研究の目的　　提案手法　　評価実験　　まとめデコーダの順位付けた翻訳候補上位n個フレーズ区切り・対応を最適化し、確率を再計算翻訳候補のrerankingを行う確率最大の候補を翻訳結果として出力翻訳候補上位n個フレーズ対応最適化後順位翻訳候補確率順位翻訳候補確率 1 1 it is fine today . it is fine today . 0.21 0.21 今日それは晴れだ。今日それは晴れだ。 2 2 it is fine today . it is fine today . 0.35 0.13 今日はよい天気です。今日はよい天気です。・・・・・・・・・・・・・・・・・・

フレーズ対応の最適化フレーズ対応フレーズ対応取得問題対訳文の各単語を一度ずつ被覆するフレーズ対の組合せ統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめフレーズ対応の最適化フレーズ対応対訳文の各単語を一度ずつ被覆するフレーズ対の組合せフレーズ対応取得問題対訳文およびフレーズ対とその翻訳確率が与えられたとき、フレーズ区切り・対応の候補の中から、確率最大の候補を求める問題解を求めるシステム：フレーズアライナ対訳文：同じ意味をもつ原言語文と目的言語文のペア f1　 f2　 f3　 f4 f1　 f2　 f3　 f4 f1　 f2　 f3　 f4 e1　 e2　 e3 e1　 e2　 e3 e1　 e2　 e3 フレーズ対応が成立フレーズ対応が不成立

整数計画法を用いた定式化(１) ・＝フレーズ対kを使うか？使う：xk=1 原言語側使わない：xk=0 フレーズ対集合統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめ整数計画法を用いた定式化(１) フレーズ対集合フレーズ対kを使うか？　使う　：xk=1 　使わない：xk=0 原言語側フレーズ対番号・＝各単語が一度だけ被覆されることを表す各フレーズが被覆する単語位置を 1として表す0-1行列

フレーズアライナの定式化(１) 目的関数制約条件 max Σxklog pk Fx = 1 ・・・原言語側単語の被覆条件統計的機械翻訳フレーズアライナの定式化(１) 　　　研究の目的　　提案手法　　評価実験　　まとめ関連研究　John DeNero and Dan Klein, 2008 　“The complexity of phrase alignment 　 problems”, 　Proceedings of ACL08, pp.25-28 目的関数 max Σxklog pk 制約条件 Fx = 1 ・・・原言語側単語の被覆条件 Ex = 1 ・・・目的言語側単語の被覆条件 xk ∈ {0,1} (∀k∈K) ・・・各フレーズ対の使用変数 k∈K

フレーズアライナの定式化(１) 目的関数制約条件 max Σxklog pk Fx = 1 ・・・原言語側単語の被覆条件統計的機械翻訳フレーズアライナの定式化(１) 　　　研究の目的　　提案手法　　評価実験　　まとめ関連研究　John DeNero and Dan Klein, 2008 　“The complexity of phrase alignment 　 problems”, 　Proceedings of ACL08, pp.25-28 目的関数 max Σxklog pk 制約条件 Fx = 1 ・・・原言語側単語の被覆条件 Ex = 1 ・・・目的言語側単語の被覆条件 xk ∈ {0,1} (∀k∈K) ・・・各フレーズ対の使用変数 k∈K 個々のフレーズ対の使用変数xでは (1次の項として) フレーズ対同士の位置関係(歪み)を表すことができない

整数計画法を用いた定式化(２) 有向グラフフレーズ対集合フレーズ対の原言語側についてグラフ化フレーズ対番号 f1 f2 f3 f4 統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめ整数計画法を用いた定式化(２) フレーズ対集合フレーズ対の原言語側についてグラフ化有向グラフフレーズ対番号 f1 f2 f3 f4 1 目的言語側に　ついても同様 3 5 6 s 4 2 g

フレーズ対応と有向グラフ原言語側目的言語側原言語側グラフと目的言語側グラフのどちらでも開始ノードsから終端ノードgへの統計的機械翻訳フレーズ対応と有向グラフ　　　研究の目的　　提案手法　　評価実験　　まとめ原言語側フレーズ対番号フレーズ対応 f1 f2 f3 f4 1 フレーズ対4 フレーズ対6 3 5 6 f1 f2 f3 f4 e1 e2 e3 s 4 2 g 原言語側グラフと目的言語側グラフのどちらでも開始ノードsから終端ノードgへのパスになっている場合がフレーズ対応フレーズ対5 目的言語側 e1 e2 e3 1 3 4 6 s 5 2 g

有向グラフと語順変化原言語側目的言語側目的言語側で隣接している統計的機械翻訳有向グラフと語順変化　　　研究の目的　　提案手法　　評価実験　　まとめ原言語側フレーズ対番号フレーズ対応 f1 f2 f3 f4 1 フレーズ対4 フレーズ対6 3 5 6 f1 f2 f3 f4 e1 e2 e3 s 目的言語側で隣接しているフレーズ対ペアに対する歪み(語順変化)確率は目的言語側の枝に割り当てられる（目的言語側で隣接しないフレーズ対ペアは考慮しない） 4 2 g フレーズ対5 目的言語側 e1 e2 e3 1 3 4 6 s 5 2 g

フレーズアライナの定式化(２) 目的関数制約条件 max Σxklog pk +Σze log de 統計的機械翻訳フレーズアライナの定式化(２) 　　　研究の目的　　提案手法　　評価実験　　まとめ目的関数 max Σxklog pk +Σze log de 制約条件 My = b ・・・原言語側でパスとなっている制約 x = Ny ・・・原言語側の仮変数yからxを導出 M’z = b’ ・・・目的言語側でパスとなっている制約 x = N’z ・・・目的言語側の仮変数zからxを導出 xk ∈ {0,1} (∀k∈K) ・・・各フレーズの使用変数 ye ∈ {0,1} (∀e∈E) ・・・原言語側の枝変数 ze ∈ {0,1} (∀e∈E) ・・・目的言語側の枝変数 k∈K e∈E 歪み確率を表す項

評価実験実験条件ベースライン：Mosesデコーダ学習データ：特許対訳文 180万文ペアテストデータ： 899文統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめ評価実験実験条件ベースライン：Mosesデコーダ学習データ：特許対訳文 180万文ペア約10年分の特許データテストデータ： 899文翻訳精度の評価基準：BLEU 正解例との一致率 100[%]に近いほどよい翻訳 reranking対象：Mosesの翻訳候補上位100個提案手法(Solver：CPLEX11.0)を用いてrerankingを行う

統計的機械翻訳　　　研究の目的　　提案手法　　評価実験　　まとめ実験結果翻訳精度：良翻訳精度：悪

翻訳例 (確率は改善されたが、BLEUは改善されなかった例) 原言語文：統計的機械翻訳翻訳例　　　研究の目的　　提案手法　　評価実験　　まとめ　 (確率は改善されたが、BLEUは改善されなかった例) 原言語文：　 the use of a robot for deburring work is a known prior art . 正解文：　バリ取り作業にロボットを利用することは従来より公知の技術である。ベースライン：　バリ取り作業用ロボットを用いて従来技術が知られている。提案手法：　従来技術のバリ取り作業用のロボットが知られている。

まとめと今後の課題本研究で提案した手法評価実験今後の課題整数計画法を用いたフレーズ対応の最適化統計的機械翻訳まとめと今後の課題　　　研究の目的　　提案手法　　評価実験　　まとめ本研究で提案した手法整数計画法を用いたフレーズ対応の最適化フレーズアライナを用いた翻訳候補のreranking 評価実験ベースラインの翻訳精度を改善することはできなかった翻訳候補の確率の最大化とBLEUの向上は等価とは言えないフレーズアライナの確率計算部分に誤りがある可能性今後の課題実験結果の検証定式化1と定式化2の融合によるアライナの高速化