整数計画法を用いたフレーズ対応最適化による翻訳システムの改良

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
最大エントロピーモデルに基づく形態素解析と辞書による影響
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.5 節 主・双対法 pp
ラベル付き区間グラフを列挙するBDDとその応用
コンパイラ 2011年10月17日
国内線で新千歳空港を利用している航空会社はどこですか?
4. 順序回路 五島 正裕.
モード付き並列機械における オンラインスケジューリング
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
土木計画学 第11回(12月21日) 土木計画と説明責任 計画における代替案の作成1 担当:榊原 弘之.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
リンクパワーオフによる光ネットワークの省電力化
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
述語項構造に基づいた統計 翻訳における語句の並べ替え
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
マイクロシミュレーションにおける 可変属性セル問題と解法
統計翻訳における フレーズ対応最適化を利用した 翻訳候補のリランキング
コンパイラ 2012年10月15日
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
日本語解析済みコーパス管理ツール 「茶器」
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
検索エンジンを利用した Covert Channelの検出
オントロジーを使用した プログラム開発支援システムの提案
割当て問題 • 割当問題の記法・定式化 • 拡張 • 特殊ケース(マッチング) • 3種類のものを割当てる問題.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
音高による音色変化に着目した音源同定に関する研究
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
ファジィ制約充足問題への 連続領域の導入 Introducing continuous domains to
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
バイトコードを単位とするJavaスライスシステムの試作
知能情報システム特論 Introduction
適応的近傍を持つ シミュレーテッドアニーリングの性能
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
Number of random matrices
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
大規模ネットワークに対する 実用的クラスタ発見アルゴリズムの開発
HMM音声合成における 変分ベイズ法に基づく線形回帰
プログラミング入門2 第13回、14回 総合演習 情報工学科 篠埜 功.
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
分枝カット法に基づいた線形符号の復号法に関する一考察
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
ソフトウェア理解支援を目的とした 辞書の作成法
Webページタイプによるクラスタ リングを用いた検索支援システム
コンパイラ 2012年10月11日
識別子の読解を目的とした名詞辞書の作成方法の一試案
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
雑音環境下における Sparse Coding声質変換 3-P-49d
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

整数計画法を用いたフレーズ対応最適化による翻訳システムの改良 システム情報工学研究科 1年 学籍番号:200820634 氏名:越川 満 指導教員:山本 幹雄

機械翻訳に対する需要 現在、ウェブ上には膨大なテキスト情報が存在 機械翻訳システム 言語別webページ数 様々な言語で表現 統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ 機械翻訳に対する需要 現在、ウェブ上には膨大なテキスト情報が存在 様々な言語で表現 翻訳手段の一つ:機械翻訳 機械翻訳システム ルールベース手法    1960年代~ excite翻訳など 性能は頭打ち状態 統計的手法       1990年代~ google翻訳 近年著しく性能向上, 未だルールベースの性能には追いつけず 2004-2006年 言語別webページ数 童芳, 平手,山名. 2008. 全世界のWebサイトの 言語分布と日本語を含む Webサイトのリンク・地理 的位置の解析, DEWS2008.

統計的機械翻訳 対訳コーパスから確率的翻訳規則を自動学習    研究の目的   提案手法   評価実験   まとめ 対訳コーパス:同じ意味をもつ異なる言語の文対集合 対訳コーパスから確率的翻訳規則を自動学習 原言語文fが与えられたとき、あらゆる目的言語文の中から翻訳として最も確率の高い目的言語文eを求める 原言語  :翻訳元言語  foreign language 目的言語 :翻訳先言語 english ^ 原言語文 f: it is rainy today . 対訳コーパス it is fine today. 今日は天気がよい。 fig.9 is the flowchart … 図9はフローチャート… ・ 統計的機械翻訳システム 翻訳候補    確率 今日は雨です  0.45 今日それは雨です。 0.12    ・・・         ・・・ 確率的 翻訳規則 学習 目的言語文 e: 今日は雨です。 ^

フレーズベース翻訳 フレーズを翻訳の最小単位とする 原言語文 f it is rainy today . it is rainy today 統計的機械翻訳 フレーズベース翻訳    研究の目的   提案手法   評価実験   まとめ フレーズを翻訳の最小単位とする フレーズ:連続する1単語以上の単語列 原言語文 f it is rainy today . フレーズ単位に分割 フレーズ f2 f3 f1 f4 it is rainy today . 各原言語フレーズを 目的言語側の フレーズに翻訳 です 雨 今日 は 。 c2 c1 c3 歪み c4 フレーズの並び替え 目的言語文 e 今日 は 雨 です 。 e1 e2 e3 e4

フレーズベース翻訳 フレーズを翻訳の最小単位とする 原言語文 f it is rainy today . 統計的機械翻訳 フレーズベース翻訳    研究の目的   提案手法   評価実験   まとめ フレーズを翻訳の最小単位とする フレーズ:連続する1単語以上の単語列 原言語文 f it is rainy today . フレーズ単位に分割 フレーズ f2 f3 f1 フレーズベースモデルでは fに対するeの翻訳確率を 各フレーズごとの翻訳確率の積で近似する f4 it is rainy today . 各原言語フレーズを 目的言語側の フレーズに翻訳 です 雨 今日 は 。 c2 c1 c3 歪み c4 フレーズの並び替え 目的言語文 e 今日 は 雨 です 。 e1 e2 e3 e4

統計的機械翻訳システム it is rainy today . 今日 は 雨 です 。 it is rainy today . 今日 は 雨    研究の目的   提案手法   評価実験   まとめ 統計的機械翻訳システム 目的言語文 e 語順変化 c 原言語文 f it is rainy today . 今日 は 雨 です 。 c1 c3 c2 c4 原言語文 f it is rainy today . c1 c3 語順変化 c c4 c2 今日 は 雨 です 。 目的言語文 e 適切なフレーズ対応に確率が集中 → Σcをmaxcで近似 デコーダ(ヒューリスティック探索) 与えられたfに対する翻訳としてあらゆるeを確率で順位付け、最も確率の高いeを出力 ^ max’: 近似解のmax

統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ 研究の目的 デコーダの問題点 ヒューリスティック探索を用いているため、フレーズ区切り・対応について確率が最大化されていない 本研究の目的 各翻訳候補に対してより適切なフレーズ区切り・対応を適用し(maxc)、デコーダの探索エラーを減少させる  → 翻訳精度の改善 デコーダ

提案手法 翻訳候補の再順位付け(reranking) 整数計画法を用いたフレーズ対応最適化 統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ 提案手法 翻訳候補の再順位付け(reranking) デコーダの順位付けた翻訳候補上位n個についてフレーズ区切り・対応を最適化 整数計画法を用いたフレーズ対応最適化 数理計画法として対訳文の最適なフレーズ対応を求める問題を定式化

翻訳候補のreranking 1 1 2 2 0.35 デコーダの順位付けた翻訳候補上位n個 フレーズ区切り・対応を最適化し、確率を再計算 統計的機械翻訳 翻訳候補のreranking    研究の目的   提案手法   評価実験   まとめ デコーダの順位付けた翻訳候補上位n個 フレーズ区切り・対応を最適化し、確率を再計算 翻訳候補のrerankingを行う 確率最大の候補を翻訳結果として出力 翻訳候補上位n個 フレーズ対応最適化後 順位 翻訳候補 確率 順位 翻訳候補 確率 1 1 it is fine today . it is fine today . 0.21 0.21 今日 それは 晴れ だ。 今日 それは 晴れ だ。 2 2 it is fine today . it is fine today . 0.35 0.13 今日 は よい天気 です 。 今日 は よい天気 です 。 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・

フレーズ対応の最適化 フレーズ対応 フレーズ対応取得問題 対訳文の各単語を一度ずつ被覆するフレーズ対の組合せ 統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ フレーズ対応の最適化 フレーズ対応 対訳文の各単語を一度ずつ被覆するフレーズ対の組合せ フレーズ対応取得問題 対訳文およびフレーズ対とその翻訳確率が与えられたとき、フレーズ区切り・対応の候補の中から、確率最大の候補を求める問題 解を求めるシステム: フレーズアライナ 対訳文:同じ意味をもつ原言語文と目的言語文のペア f1  f2  f3  f4 f1  f2  f3  f4 f1  f2  f3  f4 e1  e2  e3 e1  e2  e3 e1  e2  e3 フレーズ対応が成立 フレーズ対応が不成立

整数計画法を用いた定式化(1) ・ = フレーズ対kを使うか? 使う :xk=1 原言語側 使わない:xk=0 フレーズ対集合 統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ 整数計画法を用いた定式化(1) フレーズ対集合 フレーズ対kを使うか?   使う   :xk=1  使わない:xk=0 原言語側 フレーズ対番号 ・ = 各単語が一度だけ被覆 されることを表す 各フレーズが被覆する単語位置を 1として表す0-1行列

フレーズアライナの定式化(1) 目的関数 制約条件 max Σxklog pk Fx = 1 ・・・原言語側単語の被覆条件 統計的機械翻訳 フレーズアライナの定式化(1)    研究の目的   提案手法   評価実験   まとめ 関連研究  John DeNero and Dan Klein, 2008  “The complexity of phrase alignment   problems”,  Proceedings of ACL08, pp.25-28 目的関数 max Σxklog pk 制約条件 Fx = 1 ・・・原言語側単語の被覆条件 Ex = 1 ・・・目的言語側単語の被覆条件 xk ∈ {0,1} (∀k∈K) ・・・各フレーズ対の使用変数 k∈K

フレーズアライナの定式化(1) 目的関数 制約条件 max Σxklog pk Fx = 1 ・・・原言語側単語の被覆条件 統計的機械翻訳 フレーズアライナの定式化(1)    研究の目的   提案手法   評価実験   まとめ 関連研究  John DeNero and Dan Klein, 2008  “The complexity of phrase alignment   problems”,  Proceedings of ACL08, pp.25-28 目的関数 max Σxklog pk 制約条件 Fx = 1 ・・・原言語側単語の被覆条件 Ex = 1 ・・・目的言語側単語の被覆条件 xk ∈ {0,1} (∀k∈K) ・・・各フレーズ対の使用変数 k∈K 個々のフレーズ対の使用変数xでは (1次の項として) フレーズ対同士の位置関係(歪み)を表すことができない

整数計画法を用いた定式化(2) 有向グラフ フレーズ対集合 フレーズ対の原言語側についてグラフ化 フレーズ対番号 f1 f2 f3 f4 統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ 整数計画法を用いた定式化(2) フレーズ対集合 フレーズ対の原言語側についてグラフ化 有向グラフ フレーズ対番号 f1 f2 f3 f4 1 目的言語側に  ついても同様 3 5 6 s 4 2 g

フレーズ対応と有向グラフ 原言語側 目的言語側 原言語側グラフと目的言語側グラフの どちらでも開始ノードsから終端ノードgへの 統計的機械翻訳 フレーズ対応と有向グラフ    研究の目的   提案手法   評価実験   まとめ 原言語側 フレーズ対番号 フレーズ対応 f1 f2 f3 f4 1 フレーズ対4 フレーズ対6 3 5 6 f1 f2 f3 f4 e1 e2 e3 s 4 2 g 原言語側グラフと目的言語側グラフの どちらでも開始ノードsから終端ノードgへの パスになっている場合がフレーズ対応 フレーズ対5 目的言語側 e1 e2 e3 1 3 4 6 s 5 2 g

有向グラフと語順変化 原言語側 目的言語側 目的言語側で隣接している 統計的機械翻訳 有向グラフと語順変化    研究の目的   提案手法   評価実験   まとめ 原言語側 フレーズ対番号 フレーズ対応 f1 f2 f3 f4 1 フレーズ対4 フレーズ対6 3 5 6 f1 f2 f3 f4 e1 e2 e3 s 目的言語側で隣接している フレーズ対ペアに対する歪み(語順変化)確率は目的言語側の枝に割り当てられる (目的言語側で隣接しないフレーズ対ペアは考慮しない) 4 2 g フレーズ対5 目的言語側 e1 e2 e3 1 3 4 6 s 5 2 g

フレーズアライナの定式化(2) 目的関数 制約条件 max Σxklog pk +Σze log de 統計的機械翻訳 フレーズアライナの定式化(2)    研究の目的   提案手法   評価実験   まとめ 目的関数 max Σxklog pk +Σze log de 制約条件 My = b ・・・原言語側でパスとなっている制約 x = Ny ・・・原言語側の仮変数yからxを導出 M’z = b’ ・・・目的言語側でパスとなっている制約 x = N’z ・・・目的言語側の仮変数zからxを導出 xk ∈ {0,1} (∀k∈K) ・・・各フレーズの使用変数 ye ∈ {0,1} (∀e∈E) ・・・原言語側の枝変数 ze ∈ {0,1} (∀e∈E) ・・・目的言語側の枝変数 k∈K e∈E 歪み確率を表す項

評価実験 実験条件 ベースライン:Mosesデコーダ 学習データ: 特許対訳文 180万文ペア テストデータ: 899文 統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ 評価実験 実験条件 ベースライン:Mosesデコーダ 学習データ: 特許対訳文 180万文ペア 約10年分の特許データ テストデータ: 899文 翻訳精度の評価基準:BLEU 正解例との一致率 100[%]に近いほどよい翻訳 reranking対象:Mosesの翻訳候補上位100個 提案手法(Solver:CPLEX11.0)を用いてrerankingを行う

統計的機械翻訳    研究の目的   提案手法   評価実験   まとめ 実験結果 翻訳精度:良 翻訳精度:悪

翻訳例 (確率は改善されたが、BLEUは改善されなかった例) 原言語文: 統計的機械翻訳 翻訳例    研究の目的   提案手法   評価実験   まとめ   (確率は改善されたが、BLEUは改善されなかった例) 原言語文:   the use of a robot for deburring work is a known prior art . 正解文:   バリ 取り 作業 に ロボット を 利用 する こと は 従来 より 公知 の 技術 で ある 。 ベースライン:   バリ 取り 作業 用 ロボット を 用い て 従来 技術 が 知ら れ て いる 。 提案手法:   従来 技術 の バリ 取り 作業 用 の ロボット が 知ら れ て いる 。

まとめと今後の課題 本研究で提案した手法 評価実験 今後の課題 整数計画法を用いたフレーズ対応の最適化 統計的機械翻訳 まとめと今後の課題    研究の目的   提案手法   評価実験   まとめ 本研究で提案した手法 整数計画法を用いたフレーズ対応の最適化 フレーズアライナを用いた翻訳候補のreranking 評価実験 ベースラインの翻訳精度を改善することはできなかった 翻訳候補の確率の最大化とBLEUの向上は等価とは言えない フレーズアライナの確率計算部分に誤りがある可能性 今後の課題 実験結果の検証 定式化1と定式化2の融合によるアライナの高速化