Phrase-base Statistical Machine Translation

Slides:

Advertisements

Similar presentations

Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:

Advertisements

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

ロジスティクス工学第6章動的ロットサイズ決定モデル東京商船大学久保幹雄

寺尾敦青山学院大学社会情報学部 Fisher の直接確率法寺尾　敦青山学院大学社会情報学部

Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi (Graduate School of Informatics, Kyoto.

Problem by D. Mikurube Slides by Y. Izumi

整数計画法を用いたフレーズ対応最適化による翻訳システムの改良

ラベル付き区間グラフを列挙するBDDとその応用

国内線で新千歳空港を利用している航空会社はどこですか？

Graham Neubig & Kevin Duh 奈良先端科学技術大学院大学 (NAIST) 5/10/2012

On the Enumeration of Colored Trees

2010年7月9日　統計数理研究所　オープンハウス確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.

5．チューリングマシンと計算.

5．チューリングマシンと計算.

多数の疑似システムを用いたシステム同定の統計力学三好誠司岡田真人神戸高専東大，理研

実験関数・記号付き文型パターンを用いた機械翻訳の試作と評価石上真理子水田理夫徳久雅人村上仁一池原悟（鳥取大） ◎評価方法１

Super-Functionに基づく日英機械翻訳

Observable modified Condition/Decision coverage

述語項構造に基づいた統計翻訳における語句の並べ替え

ランダムプロジェクションを用いた音声特徴量変換

統計翻訳におけるフレーズ対応最適化を利用した翻訳候補のリランキング

データ構造とアルゴリズム第八回知能情報学部新田直也.

ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム

整合性尺度を用いた構造的対訳文アラインメント

Semi-Supervised QA with Generative Domain-Adaptive Nets

計算量理論輪講岩間研究室照山順一.

文献名 “Performance Tuning of a CFD Code on the Earth Simulator”

機械翻訳勉強会　論文紹介 mamoru-k 小町守 2018/11/9.

ロジスティクス工学第7章配送計画モデル東京商船大学久保幹雄

画像ピボットパラフレーズ抽出に向けて大阪大学 NAIST Chenhui Chu,1 大谷まゆ,2 中島悠太1

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

PROGRAMMING IN HASKELL

決定木とランダムフォレスト和田　俊和.

Photometric properties of Lyα emitters at z = 4

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

統計的機械翻訳におけるフレーズ対応最適化を用いた翻訳候補のリランキング

PROGRAMMING IN HASKELL

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

機械翻訳勉強会 NTCIR-7について 2007年10月16日奈良先端大D1小町守.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Online Decoding of Markov Models under Latency Constraints

Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University)

雑音環境下における非負値行列因子分解を用いた声質変換

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

Cプログラミング演習第１０回　二分探索木.

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

統計的機械翻訳におけるフレーズ対応最適化を用いた翻訳候補のリランキング

論文紹介: “Joint Embedding of Words and Labels for Text Classification”

K. Hiraide (Kyoto Univ.) J-PARC-n ND280m meeting December 26, 2003

コーディングパターンのあいまい検索の提案と実装

北大ＭＭＣセミナー第62回附属社会創造数学センター主催 Date: 2016年11月4日（金） 16:30～18:00

データ構造とアルゴリズム (第5回) 静岡大学工学部安藤和敏

確率的画像処理アルゴリズム入門東北大学大学院情報科学研究科田中和之

東北大情報科学田中和之,吉池紀子山口大工庄野逸理化学研究所岡田真人

5．チューリングマシンと計算.

The Facilitative Cues in Learning Complex Recursive Structures

人工知能特論II　第8回二宮　崇.

ベイズ音声合成における事前分布とモデル構造の話者間共有

時間連続性を考慮した動画からの人物の姿勢推定

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

ソフトウェア理解支援を目的とした辞書の作成法

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

全体ミーティング(6/3) 修士2年　飯塚　大輔.

ガウシアングラフィカルモデルにおける一般化された確率伝搬法

全体ミーティング(9/15) 村田雅之.

識別子の読解を目的とした名詞辞書の作成方法の一試案

ランダムプロジェクションを用いた音響モデルの線形変換

１．２言語処理の諸観点（１）言語処理の利用分野

Presentation transcript:

Phrase-base Statistical Machine Translation 2008年8月29日　勉強会 D2　中澤　敏明

参考文献 “Statistical Phrase-Based Translation”, Koehn et al., HLT/NAACL 2003 http://www.iccs.inf.ed.ac.uk/~pkoehn/publications/phrase2003.pdf Statistical Machine Translation: the basic, the novel, and the speculative, Philipp Koehn, Tutorial at EACL 2006 http://www.iccs.inf.ed.ac.uk/~pkoehn/publications/tutorial2006.pdf SMT講習会の資料 by 山本幹雄先生 http://if-lab.slis.tsukuba.ac.jp/fujii/ntc7patmt/SMT_tutorial2007/myama.pdf

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメントフレーズ抽出フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

実習 Phrase-based SMTのツールキット、mosesを実際に動かしてみる（英日翻訳実験）言語モデルの構築翻訳モデルの構築チューニング（MERT）翻訳翻訳結果の評価

注意 orchidで動かしてください混んでいるノードで動かすのはやめましょう orchid[[01-40]]を使いましょう 64bitマシン以外では動かない設定になっています混んでいるノードで動かすのはやめましょうできれば全員別々のノードで orchid[[01-40]]を使いましょう orchidに負荷をかけるのはやめましょう

実習言語モデルの構築 srilmというツールを利用 http://www.speech.sri.com/projects/srilm/ ngram-count -order 5 -interpolate -kndiscount -text /avocado3/moses/data/train_lm.ja -lm 1M.ja.lm

統計翻訳の気持ち（1/2）ある原言語文fが与えられたとき、を最大とするような目的言語文eがfの翻訳ここでBayes Ruleを適用すると、 ^ 言語モデル翻訳モデル ※ Noisy Channel Model と呼ばれる

統計翻訳の気持ち（2/2）を使って翻訳する場合、かなり良いモデルを作る必要がある　　　　　を使って翻訳する場合、かなり良いモデルを作る必要がある Bayes Ruleを使っていくつかのモデルに分けることにより、各モデルがある程度良いものであれば、それらが相補的に働く言語モデルと翻訳モデルをより良いものにしていき、精度を向上させよう！

実習翻訳モデルの構築双方向でのGIZA++から翻訳モデルの構築まで train-factored-phrase-model.perl -scripts-root-dir /avocado3/moses/scripts -corpus ../data/train -f en -e ja -alignment grow-diag-final-and -reordering msd-bidirectional-fe -lm 0:5:/avocado3/moses/lm/1M.ja.lm:0 -factor-delimiter ‘|||’

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメントフレーズ抽出フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

Training 対称化単語アライメントを生成単語アライメントに無矛盾なphraseペアを抽出 GIZA++を双方向に実行し、ヒューリスティックスにより統合単語アライメントに無矛盾なphraseペアを抽出全ての無矛盾な単語列ペアをphraseとするフレーズ翻訳確率、lexicalized-reorderingモデルなどを計算・生成抽出されたphraseから計算

対称化単語アライメント MosesはGIZA++による単語アライメント結果を利用

対称化単語アライメント Intersection Union Precision High Low Recall Low High

対称化ヒューリスティックス基本4種最終処理3種（未対応の単語に関する処理） intersection union grow grow-diag 最終処理3種（未対応の単語に関する処理）なし final final-and 両方向ともにある対応点のみ各方向の対応点すべて intersectionからスタートして拡張 grow=縦・横　grow-diag=縦・横・対角少なくとも片方の言語で対応がない両言語ともに対応がない

intersection

grow-diag-final

abstract code diag

Phraseペアの抽出対称化単語アライメント結果を元に、矛盾しないphraseペアを全て抽出「矛盾しない」とは・・・

Phraseペアの抽出

Log-linear Model Feature functions（moses default: 14 params） language model (1 param) phrase translation table (5 params) reordering model (7 params) word penalty (1 param)

phrase translation table 5 parameters phrase translation probability lexical weighting phrase penalty

lexical weighting phraseペアの質を評価するための重み

lexicalized reordering MSD vs monotonicity monotone, swap, discontinuous monotone, non-monotone f vs fe model is conditioned on f vs both f and e unidirectional vs bidirectional For each phrase, the ordering of itself in respect to the previous is considered. For bidirectional models, also the ordering of the next phrase in respect to the currect phrase is modeled.

reordering model 7 parameters (msd-bidirectional-fe) simple distance-base model

Log-linear Model Feature functions language model (1 param) 0.5 phrase translation table (5 params) 0.2 reordering model (7 params) 0.3 word penalty (1 param) -1

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメントフレーズ抽出フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

実習チューニング（MERT） development setを用いてlog-linear modelのλをBLEUが向上するように調整 mert-moses.pl --rootdir /avocado3/moses/scripts --working-dir . ../data/dev.en ../data/dev.ja /share/usr-x86_64/bin/moses ../tm/model/moses.ini

Minimum Error Rate Training [Och, 2003] 　がよくなるように　を調整 Developmentセットを利用して、評価関数を最大にするような翻訳結果が選択されるように調整 Developmentセットは1000文程度評価関数はBLEUを用いるのが一般的各文についてn-bestの翻訳候補を出力し、正解と比較してよりよい候補が上位に来るように調整 10～20回程度繰り返して重みを徐々に変化データサイズにもよるが、終わるまで数日かかることも・・・

Param Default 1 2 3 6 9 12 13 BLEU --- 14.0 14.4 17.5 21.5 22.1 LM 0.5 0.039 0.038 0.104 0.047 0.052 0.051 TM1 0.2 0.3 0.011 0.010 0.042 0.012 TM2 0.020 0.031 TM3 0.049 0.030 0.008 0.034 TM4 0.016 0.068 0.018 TM5 0.003 -0.055 0.115 0.114 D1 -0.001 0.017 -0.004 0.005 D2 -0.065 -0.061 0.087 0.045 0.044 D3 -0.191 -0.186 0.058 -0.032 0.109 0.108 D4 0.055 0.133 0.383 0.215 D5 -0.010 0.025 0.123 D6 0.062 0.122 -0.007 -0.009 D7 0.072 0.130 0.085 0.134 W -1 -0.438 -0.428 -0.181 -0.084 -0.074

今日話すこと Training MERT (Minimum Error Rate Training) Decoding 対象化単語アライメントフレーズ抽出フレーズ翻訳確率などの計算(Log-linear Model) MERT (Minimum Error Rate Training) Decoding Decoding Process Multistack Beam-search

実習翻訳 MERTによって調整されたλを用いて翻訳 phrase table全てを読み込むとメモリが足らなくなるので、翻訳する文に必要なphrase tableのみをあらかじめfiltering filter-model-given-input.pl filterd ../tune/moses.ini ../data/test.ja filteringされたphrase tableを用いて翻訳 moses -f filterd/moses.ini < ../data/test.en

Decoding 翻訳文は左側（先頭）から順に生成 Multistack Beam-searchで最適な翻訳を探索翻訳が完了している単語数ごとにstackを用意し、それぞれのstackで上位n個のみを保持

Decoding Input sentence: Maria no dio una bofetada a la bruja verde Mary did not slap the green witch Output sentence:

Translation Options 翻訳するphraseの順番や、そのphraseの翻訳候補はたくさんある全てを探索することは不可能

Multistack Beam-search 翻訳が完了している単語数ごとにstackを用意し、それぞれのstackで確率上位n個の「仮説」のみを保持確率は、その時点までの翻訳確率と、未翻訳部の推定翻訳確率とから求める

Future Cost 全てのtranslation optionについて、phrase翻訳確率とphrase内言語モデル確率を掛け算 reordering（訳す順序）は考慮しないほんとは正しい翻訳仮説がn-bestから外れる可能性があるあらかじめ全ての部分についてfuture costを計算しておけるので、decode時はfuture cost tableを引くだけでよい

実習翻訳結果の評価 mtevalというツールを使ってBLEU（NIST）を計算 http://www.nist.gov/speech/tests/mt/2008/scoring.html mteval.pl -s src.sgm -r ref.sgm -t tst.sgm BLEUのみ、NISTのみ計算するオプションや、文ごとのBLEUを出すオプションなどがある multi referenceのときにバグがあるという噂・・・