Phrase-base Statistical Machine Translation

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
ロジスティクス工学 第6章 動的ロットサイズ決定モデル 東京商船大学 久保 幹雄
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi (Graduate School of Informatics, Kyoto.
Problem by D. Mikurube Slides by Y. Izumi
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
ラベル付き区間グラフを列挙するBDDとその応用
国内線で新千歳空港を利用している航空会社はどこですか?
Graham Neubig & Kevin Duh 奈良先端科学技術大学院大学 (NAIST) 5/10/2012
On the Enumeration of Colored Trees
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
5.チューリングマシンと計算.
5.チューリングマシンと計算.
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
Super-Functionに基づく日英機械翻訳
Observable modified Condition/Decision coverage
述語項構造に基づいた統計 翻訳における語句の並べ替え
ランダムプロジェクションを用いた 音声特徴量変換
統計翻訳における フレーズ対応最適化を利用した 翻訳候補のリランキング
データ構造と アルゴリズム 第八回 知能情報学部 新田直也.
ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム
整合性尺度を用いた 構造的対訳文アラインメント
Semi-Supervised QA with Generative Domain-Adaptive Nets
計算量理論輪講 岩間研究室 照山順一.
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
機械翻訳勉強会 論文紹介 mamoru-k 小町守 2018/11/9.
ロジスティクス工学 第7章 配送計画モデル 東京商船大学 久保 幹雄
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
PROGRAMMING IN HASKELL
決定木とランダムフォレスト 和田 俊和.
Photometric properties of Lyα emitters at z = 4
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
PROGRAMMING IN HASKELL
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
Cプログラミング演習 第10回 二分探索木.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
K. Hiraide (Kyoto Univ.) J-PARC-n ND280m meeting December 26, 2003
コーディングパターンの あいまい検索の提案と実装
北大MMCセミナー 第62回 附属社会創造数学センター主催 Date: 2016年11月4日(金) 16:30~18:00
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
確率的画像処理アルゴリズム入門 東北大学 大学院情報科学研究科 田中 和之
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
5.チューリングマシンと計算.
The Facilitative Cues in Learning Complex Recursive Structures
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
時間連続性を考慮した 動画からの人物の姿勢推定
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
ソフトウェア理解支援を目的とした 辞書の作成法
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
全体ミーティング(6/3) 修士2年 飯塚 大輔.
ガウシアングラフィカルモデルにおける一般化された確率伝搬法
全体ミーティング(9/15) 村田雅之.
識別子の読解を目的とした名詞辞書の作成方法の一試案
ランダムプロジェクションを用いた音響モデルの線形変換
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

Phrase-base Statistical Machine Translation 2008年8月29日 勉強会 D2 中澤 敏明

参考文献 “Statistical Phrase-Based Translation”, Koehn et al., HLT/NAACL 2003 http://www.iccs.inf.ed.ac.uk/~pkoehn/publications/phrase2003.pdf Statistical Machine Translation: the basic, the novel, and the speculative, Philipp Koehn, Tutorial at EACL 2006 http://www.iccs.inf.ed.ac.uk/~pkoehn/publications/tutorial2006.pdf SMT講習会の資料 by 山本幹雄先生 http://if-lab.slis.tsukuba.ac.jp/fujii/ntc7patmt/SMT_tutorial2007/myama.pdf

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメント フレーズ抽出 フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

実習 Phrase-based SMTのツールキット、mosesを実際に動かしてみる(英日翻訳実験) 言語モデルの構築 翻訳モデルの構築 チューニング(MERT) 翻訳 翻訳結果の評価

注意 orchidで動かしてください 混んでいるノードで動かすのはやめましょう orchid[[01-40]]を使いましょう 64bitマシン以外では動かない設定になっています 混んでいるノードで動かすのはやめましょう できれば全員別々のノードで orchid[[01-40]]を使いましょう orchidに負荷をかけるのはやめましょう

実習 言語モデルの構築 srilmというツールを利用 http://www.speech.sri.com/projects/srilm/ ngram-count -order 5 -interpolate -kndiscount -text /avocado3/moses/data/train_lm.ja -lm 1M.ja.lm

統計翻訳の気持ち(1/2) ある原言語文fが与えられたとき、 を最大とするような目的言語文eがfの翻訳 ここでBayes Ruleを適用すると、 ^ 言語モデル 翻訳モデル ※ Noisy Channel Model と呼ばれる

統計翻訳の気持ち(2/2) を使って翻訳する場合、かなり良いモデルを作る必要がある      を使って翻訳する場合、かなり良いモデルを作る必要がある Bayes Ruleを使っていくつかのモデルに分けることにより、各モデルがある程度良いものであれば、それらが相補的に働く 言語モデルと翻訳モデルをより良いものにしていき、精度を向上させよう!

実習 翻訳モデルの構築 双方向でのGIZA++から翻訳モデルの構築まで train-factored-phrase-model.perl -scripts-root-dir /avocado3/moses/scripts -corpus ../data/train -f en -e ja -alignment grow-diag-final-and -reordering msd-bidirectional-fe -lm 0:5:/avocado3/moses/lm/1M.ja.lm:0 -factor-delimiter ‘|||’

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメント フレーズ抽出 フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

Training 対称化単語アライメントを生成 単語アライメントに無矛盾なphraseペアを抽出 GIZA++を双方向に実行し、ヒューリスティックスにより統合 単語アライメントに無矛盾なphraseペアを抽出 全ての無矛盾な単語列ペアをphraseとする フレーズ翻訳確率、lexicalized-reorderingモデルなどを計算・生成 抽出されたphraseから計算

対称化単語アライメント MosesはGIZA++による単語アライメント結果を利用

対称化単語アライメント Intersection Union Precision High Low Recall Low High

対称化ヒューリスティックス 基本4種 最終処理3種(未対応の単語に関する処理) intersection union grow grow-diag 最終処理3種(未対応の単語に関する処理) なし final final-and 両方向ともにある対応点のみ 各方向の対応点すべて intersectionからスタートして拡張 grow=縦・横 grow-diag=縦・横・対角 少なくとも片方の言語で対応がない 両言語ともに対応がない

intersection

grow-diag-final

abstract code diag

Phraseペアの抽出 対称化単語アライメント結果を元に、矛盾しないphraseペアを全て抽出 「矛盾しない」とは・・・

Phraseペアの抽出

Log-linear Model Feature functions(moses default: 14 params) language model (1 param) phrase translation table (5 params) reordering model (7 params) word penalty (1 param)

phrase translation table 5 parameters phrase translation probability lexical weighting phrase penalty

lexical weighting phraseペアの質を評価するための重み

lexicalized reordering MSD vs monotonicity monotone, swap, discontinuous monotone, non-monotone f vs fe model is conditioned on f vs both f and e unidirectional vs bidirectional For each phrase, the ordering of itself in respect to the previous is considered. For bidirectional models, also the ordering of the next phrase in respect to the currect phrase is modeled.

reordering model 7 parameters (msd-bidirectional-fe) simple distance-base model

Log-linear Model Feature functions language model (1 param) 0.5 phrase translation table (5 params) 0.2 reordering model (7 params) 0.3 word penalty (1 param) -1

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメント フレーズ抽出 フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

実習 チューニング(MERT) development setを用いてlog-linear modelのλをBLEUが向上するように調整 mert-moses.pl --rootdir /avocado3/moses/scripts --working-dir . ../data/dev.en ../data/dev.ja /share/usr-x86_64/bin/moses ../tm/model/moses.ini

Minimum Error Rate Training [Och, 2003]  がよくなるように  を調整 Developmentセットを利用して、評価関数を最大にするような翻訳結果が選択されるように調整 Developmentセットは1000文程度 評価関数はBLEUを用いるのが一般的 各文についてn-bestの翻訳候補を出力し、正解と比較してよりよい候補が上位に来るように調整 10~20回程度繰り返して重みを徐々に変化 データサイズにもよるが、終わるまで数日かかることも・・・

Param Default 1 2 3 6 9 12 13 BLEU --- 14.0 14.4 17.5 21.5 22.1 LM 0.5 0.039 0.038 0.104 0.047 0.052 0.051 TM1 0.2 0.3 0.011 0.010 0.042 0.012 TM2 0.020 0.031 TM3 0.049 0.030 0.008 0.034 TM4 0.016 0.068 0.018 TM5 0.003 -0.055 0.115 0.114 D1 -0.001 0.017 -0.004 0.005 D2 -0.065 -0.061 0.087 0.045 0.044 D3 -0.191 -0.186 0.058 -0.032 0.109 0.108 D4 0.055 0.133 0.383 0.215 D5 -0.010 0.025 0.123 D6 0.062 0.122 -0.007 -0.009 D7 0.072 0.130 0.085 0.134 W -1 -0.438 -0.428 -0.181 -0.084 -0.074

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメント フレーズ抽出 フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

実習 翻訳 MERTによって調整されたλを用いて翻訳 phrase table全てを読み込むとメモリが足らなくなるので、翻訳する文に必要なphrase tableのみをあらかじめfiltering filter-model-given-input.pl filterd ../tune/moses.ini ../data/test.ja filteringされたphrase tableを用いて翻訳 moses -f filterd/moses.ini < ../data/test.en

Decoding 翻訳文は左側(先頭)から順に生成 Multistack Beam-searchで最適な翻訳を探索 翻訳が完了している単語数ごとにstackを用意し、それぞれのstackで上位n個のみを保持

Decoding Input sentence: Maria no dio una bofetada a la bruja verde Mary did not slap the green witch Output sentence:

Translation Options 翻訳するphraseの順番や、そのphraseの翻訳候補はたくさんある 全てを探索することは不可能

Multistack Beam-search 翻訳が完了している単語数ごとにstackを用意し、それぞれのstackで確率上位n個の「仮説」のみを保持 確率は、その時点までの翻訳確率と、未翻訳部の推定翻訳確率とから求める

Future Cost 全てのtranslation optionについて、phrase翻訳確率とphrase内言語モデル確率を掛け算 reordering(訳す順序)は考慮しない ほんとは正しい翻訳仮説がn-bestから外れる可能性がある あらかじめ全ての部分についてfuture costを計算しておけるので、decode時はfuture cost tableを引くだけでよい

実習 翻訳結果の評価 mtevalというツールを使ってBLEU(NIST)を計算 http://www.nist.gov/speech/tests/mt/2008/scoring.html mteval.pl -s src.sgm -r ref.sgm -t tst.sgm BLEUのみ、NISTのみ計算するオプションや、文ごとのBLEUを出すオプションなどがある multi referenceのときにバグがあるという噂・・・