Graham Neubig & Kevin Duh 奈良先端科学技術大学院大学 (NAIST) 5/10/2012

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
中澤 敏明 科学技術振興機構(JST)/京都大学
人工知能特論 8.教師あり学習と教師なし学習
Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi (Graduate School of Informatics, Kyoto.
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
小水力班/ Small Hydro Generation Group 研究背景 / Research background
自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
部分木に基づくマルコフ確率場と言語解析への適用
Super-Functionに基づく日英機械翻訳
How to Become a Supply Chain Analyst with Free
東京工科大学 コンピュータサイエンス学部 亀田弘之
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
述語項構造に基づいた統計 翻訳における語句の並べ替え
テキストの類似度計算
統計翻訳における フレーズ対応最適化を利用した 翻訳候補のリランキング
Tohoku University Kyo Tsukada
十年生の 日本語 Year 10 Writing Portfolio
整合性尺度を用いた 構造的対訳文アラインメント
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
東京工科大学 コンピュータサイエンス学部 亀田弘之
京都大学大学院医学研究科 画像応用治療学・放射線腫瘍学 石原 佳知
機械翻訳勉強会 論文紹介 mamoru-k 小町守 2018/11/9.
東京工科大学 コンピュータサイエンス学部 亀田弘之
Phrase-base Statistical Machine Translation
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
訓練データとテストデータが 異なる分布に従う場合の学習
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
分子生物情報学(2) 配列のマルチプルアライメント法
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
名古屋大学大学院国際原語文化研究科 第46回日本語教育学講座講演会
超大規模ウェブコーパスを用いた 分布類似度計算
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
Number of random matrices
東京工科大学 コンピュータサイエンス学部 亀田弘之
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
Data Clustering: A Review
確率的画像処理アルゴリズム入門 東北大学 大学院情報科学研究科 田中 和之
The difference between adjectives and adverbs
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
時間連続性を考慮した 動画からの人物の姿勢推定
JEFFREY WITZEL (University of Texas at Arlington, USA)
Grammar Point 2: Describing the locations of objects
ガウシアングラフィカルモデルにおける一般化された確率伝搬法
識別子の読解を目的とした名詞辞書の作成方法の一試案
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
1.2 言語処理の諸観点 (1)言語処理の利用分野
Detecting Software Modularity Violations
Presentation transcript:

Graham Neubig & Kevin Duh 奈良先端科学技術大学院大学 (NAIST) 5/10/2012 フレーズベース機械翻訳 システムの構築 Graham Neubig & Kevin Duh 奈良先端科学技術大学院大学 (NAIST) 5/10/2012

フレーズベース 統計的機械翻訳(SMT) 文を翻訳可能な小さい塊に分けて、並べ替える Today I will give a lecture on machine translation . Today 今日は、 I will give を行います a lecture on の講義 machine translation 機械翻訳 . 。 Today 今日は、 machine translation 機械翻訳 a lecture on の講義 I will give を行います . 。 今日は、機械翻訳の講義を行います。 翻訳モデル・並べ替えモデル・言語モデルをテキストか ら統計的に学習

発表内容 フレーズベース統計的機械翻訳を構築する時に必要と なる作業のステップ。 オープンソース機械翻訳システムMoses*の中で各ステ ップを実装したツール。 各ステップにおける研究・未解決の問題。 * http://www.statmt.org/moses

フレーズベース統計的機械翻訳システムの構築の流れ データ収集 トークン化 言語モデル アライメント フレーズ抽出/Scoring Reordering Models 探索(デコーディング) 評価 チューニング

データ収集

データ収集 文ごとの並列データ(パラレルデータ) 翻訳モデル・並べ替えモデルの学習に利用 単言語データ(目的言語側) 言語モデルの学習に利用 これはペンです。 This is a pen. 昨日は友達と食べた。 I ate with my friend yesterday. 象は鼻が長い。 Elephants' trunks are long. This is a pen. I ate with my friend yesterday. Elephants' trunks are long.

翻訳に役立つデータは 大きい → 翻訳の質が高い、翻訳でない文を含まない テストデータと同一の分野 翻訳精度 大きい → 翻訳の質が高い、翻訳でない文を含まない テストデータと同一の分野 翻訳精度 言語モデルデータ(100万単語) [Brants 2007]

データ収集 ワークショップ等では用意・指定されている 例: IWSLT 2011 → 実用システムでは: 各国政府・自治体・新聞 Webデータ 複数のデータ源の組み合わせ Name Type Words TED Lectures 1.76M News Commentary News 2.52M EuroParl Political 45.7M UN 301M Giga Web 576M 例: IWSLT 2011 →

研究 並列ページの発見 [Resnik 03] [画像:毎日新聞]

研究 並列ページの発見 [Resnik 03] 文アライメント [Moore 02]

研究 並列ページの発見 [Resnik 03] 文アライメント [Moore 02] データ作成のクラウドソーシング [Ambati 10] Mechanical Turk、duolingo等

トークン化

トークン化 太郎が花子を訪問した。 太郎 が 花子 を 訪問 した 。 例:日本語の単語分割 例:英語の小文字化、句読点の分割 太郎 が 花子 を 訪問 した 。 例:英語の小文字化、句読点の分割 Taro visited Hanako. taro visited hanako .

トークン化ツール ヨーロッパの言語 日本語 中国語 Stanford Segmenter, LDC, KyTea, etc... tokenize.perl en < input.en > output.en tokenize.perl fr < input.fr > output.fr 日本語 MeCab: mecab -O wakati < input.ja > output.ja KyTea: kytea -notags < input.ja > output.ja JUMAN, etc. 中国語 Stanford Segmenter, LDC, KyTea, etc...

Taro <ARG1> visited <ARG2> Hanako . 研究 機械翻訳の精度向上につながるトークン化 精度が重要か、一貫性が重要か [Chang 08] 他の言語に合わせた単語挿入 [Sudoh 11] 活用の処理(韓国語、アラビア語等)[Niessen 01] 教師なし学習 [Chung 09, Neubig 12] 太郎 が 花子 を 訪問 した 。 Taro <ARG1> visited <ARG2> Hanako . 단어란 도대체 무엇일까요? 단어 란 도대체 무엇 일 까요 ?

言語モデル

言語モデル 目的言語側の各文に確率を与える E1: Taro visited Hanako 良い言語モデル:流暢性の高い文に高い確率を LM E1: Taro visited Hanako E2: the Taro visited the Hanako E3: Taro visited the bibliography P(E1) P(E2) P(E3) P(E1) > P(E2) P(E1) > P(E3)

n-gramモデル 以下の文の確率を求めるとする n-gramモデル:1単語ずつ確率を計算 P(W = “Taro visited Hanako”) P(w1=“Taro”) * P(w2=”visited” | w1=“Taro”) * P(w3=”Hanako” | w2=”visited”) * P(w4=”</s>” | w3=”Hanako”) 注: 文末記号 </s>

ツール SRILM: 学習: ngram-count -order 5 -interpolate -kndiscount -unk -text input.txt -lm lm.arpa テスト: ngram -lm lm.arpa -ppl test.txt ほかに:KenLM, RandLM, IRSTLM

研究 n-gramに勝てるものはあるのか? [Goodman 01] 計算がシンプルで高速 探索アルゴリズムと相性が良い シンプルな割に強力 その他の手法 統語情報を利用した言語モデル [Charniak 03] ニューラルネット言語モデル [Bengio 06] モデルM [Chen 09] などなど…

アライメント

アライメント 文内の単語対応を発見 確率モデルによる自動学習(教師なし)が主流 P(花子|hanako) = 0.99 太郎 が 花子 を 訪問 した 。 taro visited hanako . 太郎 が 花子 を 訪問 した 。 taro visited hanako . 日本語 日本語 日本語 日本語 P(花子|hanako) = 0.99 P(太郎|taro) = 0.97 P(visited|訪問) = 0.46 P(visited|した) = 0.04 P(花子|taro) = 0.0001 English English English English

IBM/HMMモデル ホテル の 受付 the hotel front desk the hotel front desk ホテル の 受付 1対多アライメントモデル IBM Model 1: 語順を考慮しない IBM Models 2-5, HMM: 徐々に考慮する情報を導 入(精度・計算コスト++) ホテル の 受付 the hotel front desk the hotel front desk ホテル の 受付 X X

1対多アライメントの組み合わせ ホテル の 受付 the hotel front desk the hotel front desk 様々なヒューリスティック手法(grow-diag-final) the hotel front desk ホテル の 受付 X X 組み合わせ the hotel front desk ホテル の 受付

ツール mkcls: 2言語で単語クラスを自動発見 GIZA++: IBMモデルによるアライメント(クラスを用い て確率を平滑化) symal: 両方向のアライメントを組み合わせる (Mosesのtrain-model.perlの一部として実行される) ホテル の 受付 the hotel front desk 35 49 12 23 35 12 19 ホテル の 受付 the hotel front desk 35 49 12 23 35 12 19 ホテル の 受付 the hotel front desk +

研究 アライメントは本当に重要なのか? [Aryan 06] 教師ありアライメント [Fraser 06, Haghighi 09] 統語情報を使ったアライメント [DeNero 07] フレーズベースアライメント [Marcu 02, DeNero 08]

フレーズ抽出

フレーズ抽出 ホ テ 受 ルの付 the hotel front desk アライメントに基づいてフレーズを列挙 ホテル の → hotel ホ テ 受 ルの付 ホテル の → hotel ホテル の → the hotel 受付 → front desk ホテルの受付 → hotel front desk ホテルの受付 → the hotel front desk the hotel front desk

フレーズのスコア計算 5つの標準的なスコアでフレーズの信頼性・使用頻度 フレーズ翻訳確率 P(f|e) = c(f,e)/c(e) P(e|f) = c(f,e)/c(f) 例: c(ホテル の, the hotel) / c(the hotel) 語彙(lexical)翻訳確率 フレーズ内の単語の翻訳確率を利用(IBM Model 1) 低頻度のフレーズ対の信頼度判定に役立つ P(f|e) = Πf 1/|e| ∑e P(f|e) 例: (P(ホテル|the)+P(ホテル|hotel))/2 * (P(の|the)+P(の|hotel))/2 フレーズペナルティ:すべてのフレーズで1

ツール extract: フレーズ抽出 phrase-extract/score: フレーズのスコア付け (Mosesのtrain-model.perlの一部として実行される)

研究 翻訳モデルの分野適用 [Koehn 07, Matsoukas 09] 不要・信頼度の低いフレーズの削除 [Johnson 07] 一般化フレーズ抽出 (ソフト:Geppetto) [Ling 10] フレーズ曖昧性解消 [Carpuat 07]

並べ替えモデル

語彙化並べ替えモデル 順・逆順・不連続 細い → the thin 太郎 を → Taro 順の確率が高い 逆順の確率が高い 入力・出力、右・左などで条件付けた確率 細  太 訪し い男が郎を問た the thin man visited Taro 順 不連続 逆順

ツール extract: フレーズ抽出と同一 lexical-reordering/score: 並べ替えモデルを学習 (Mosesのtrain-model.perlの一部として実行される)

研究 F F' E 彼 は パン を 食べ た 彼 は 食べ た パン を he ate rice まだ未解決の問題が多い(特に日英・英日) 翻訳モデル自体の変更 階層的フレーズベース翻訳 [Chiang 07] 統語ベース翻訳 [Yamada 01, Galley 06] 前並べ替え [Xia 04, Isozaki 10] F 彼 は パン を 食べ た F' 彼 は 食べ た パン を E he ate rice

探索 (デコーディング)

探索 モデルによる最適な解を探索(またはn-best) 厳密な解を求めるのはNP困難問題 [Knight 99] ビームサーチを用いて近似解を求める [Koehn 03] モデル Taro visited Hanako 4.5 the Taro visited the Hanako 3.2 Taro met Hanako 2.4 Hanako visited Taro -2.9 探索 太郎が花子を 訪問した

ツール Moses! moses -f moses.ini < input.txt > output.txt その他: moses_chart, cdec (階層的フレーズ、統語モデ ル)

研究 レティス入力の探索 [Dyer 08] 統語ベース翻訳の探索 [Mi 08] 最小ベイズリスク [Kumar 04] 厳密な解の求め方 [Germann 01]

評価

人手評価 意味的妥当性: 原言語文の意味が伝わるか 流暢性: 目的言語文が自然か 比較評価: XとYどっちの方が良いか 妥当? ○ ○ ☓ 太郎が花子を訪問した Taro visited Hanako the Taro visited the Hanako Hanako visited Taro 妥当? ○       ○ ☓ 流暢?   ○ ☓ ○ Xより良い B, C C

自動評価 システム出力は正解文に一致するか BLEU: n-gram適合率+短さペナルティ[Papineni 03] (翻訳の正解は単一ではないため、複数の正解も利用) BLEU: n-gram適合率+短さペナルティ[Papineni 03] METEOR (類義語の正規化), TER (正解文に直すための 変更数), RIBES (並べ替え) Reference: Taro visited Hanako System: the Taro visited the Hanako 1-gram: 3/5 2-gram: 1/4 brevity penalty = 1.0 BLEU-2 = (3/5*1/4)1/2 * 1.0 = 0.387 Brevity: min(1, |System|/|Reference|) = min(1, 5/3)

研究 焦点を絞った評価尺度 並べ替え [Isozaki 10] 意味解析を用いた尺度 [Lo 11] チューニングに良い評価尺度 [Cer 10] 複数の評価尺度の利用 [Albrecht 07] 評価のクラウドソーシング [Callison-Burch 11]

チューニング

チューニング 各モデルのスコアを組み合わせた解のスコア スコアを重み付けると良い結果が得られる チューニングは重みを発見: wLM=0.2 wTM=0.3 wRM=0.5 LM TM RM ○ Taro visited Hanako -4 -3 -1 -8 ☓ the Taro visited the Hanako -5 -4 -1 -10 ☓ Hanako visited Taro -2 -3 -2 -7 最大 ☓ 最大 ○ LM TM RM ○ Taro visited Hanako 0.2* -4 0.3* -3 0.5* -1 -2.2 ☓ the Taro visited the Hanako 0.2* -5 0.3* -4 0.5* -1 -2.7 ☓ Hanako visited Taro 0.2* -2 0.3* -3 0.5* -2 -2.3

the Taro visited the Hanako チューニング法 誤り最小化学習: MERT [Och 03] その他: MIRA [Watanabe 07] (オンライン学習), PRO (ランク学習) [Hopkins 11] n-best出力(dev) 入力 (dev) 解探索 the Taro visited the Hanako Hanako visited Taro Taro visited Hanako ... 太郎が花子を訪問した モデル 重み 正解文 (dev) Taro visited Hanako 良い重み の発見

研究 膨大な素性数でチューニング (例: MIRA, PRO) ラティス出力のチューニング [Macherey 08] チューニングの高速化 [Suzuki 11] 複数の評価尺度の同時チューニング [Duh 12]

おわりに

おわりに MT 機械翻訳は楽しい!一緒にやりましょう 年々精度が向上しているが、多くの問題が残る システムは大きいので、1つの部分に焦点を絞る ありがとうございます MT Danke Thank You 謝謝 Gracias 감사합니다 Terima Kasih

参考文献

J. Albrecht and R. Hwa. A re-examination of machine learning approaches for sentence-level mt evaluation. In Proc. ACL, pages 880-887, 2007. V. Ambati, S. Vogel, and J. Carbonell. Active learning and crowdsourcing for machine translation. Proc. LREC, 7:2169-2174, 2010. N. Ayan and B. Dorr. Going beyond AER: an extensive analysis of word alignments and their impact on MT. In Proc. ACL, 2006. Y. Bengio, H. Schwenk, J.-S. Sencal, F. Morin, and J.-L. Gauvain. Neural probabilistic language models. In Innovations in Machine Learning, volume 194, pages 137-186. 2006. T. Brants, A. C. Popat, P. Xu, F. J. Och, and J. Dean. Large language models in machine translation. In Proc. EMNLP, pages 858-867, 2007. C. Callison-Burch, P. Koehn, C. Monz, and O. Zaidan. Findings of the 2011 workshop on statistical machine translation. In Proc. WMT, pages 22-64, 2011. M. Carpuat and D. Wu. How phrase sense disambiguation outperforms word sense disambiguation for statistical machine translation. In Proc. TMI, pages 43-52, 2007. D. Cer, C. Manning, and D. Jurafsky. The best lexical metric for phrasebased statistical MT system optimization. In NAACL HLT, 2010. P.-C. Chang, M. Galley, and C. D. Manning. Optimizing Chinese word segmentation for machine translation performance. In Proc. WMT, 2008. E. Charniak, K. Knight, and K. Yamada. Syntax-based language models for statistical machine translation. In MT Summit IX, pages 40-46, 2003. S. Chen. Shrinking exponential language models. In Proc. NAACL, pages 468-476, 2009. D. Chiang. Hierarchical phrase-based translation. Computational Linguistics, 33(2), 2007. T. Chung and D. Gildea. Unsupervised tokenization for machine translation. In Proc. EMNLP, 2009. J. DeNero, A. Bouchard-C^ote, and D. Klein. Sampling alignment structure under a Bayesian translation model. In Proc. EMNLP, 2008. J. DeNero and D. Klein. Tailoring word alignments to syntactic machine translation. In Proc. ACL, volume 45, 2007. K. Duh, K. Sudoh, X. Wu, H. Tsukada, and M. Nagata. Learning to translate with multiple objectives. In Proc. ACL, 2012. C. Dyer, S. Muresan, and P. Resnik. Generalizing word lattice translation. In Proc. ACL, 2008.

A. Fraser and D. Marcu. Semi-supervised training for statistical word alignment. In Proc. ACL, pages 769-776, 2006. M. Galley, J. Graehl, K. Knight, D. Marcu, S. DeNeefe, W. Wang, and I. Thayer. Scalable inference and training of context-rich syntactic translation models. In Proc. ACL, pages 961-968, 2006. U. Germann, M. Jahr, K. Knight, D. Marcu, and K. Yamada. Fast decoding and optimal decoding for machine translation. In Proc. ACL, pages 228-235, 2001. J. T. Goodman. A bit of progress in language modeling. Computer Speech & Language, 15(4), 2001. A. Haghighi, J. Blitzer, J. DeNero, and D. Klein. Better word alignments with supervised ITG models. In Proc. ACL, 2009. M. Hopkins and J. May. Tuning as ranking. In Proc. EMNLP, 2011. H. Isozaki, T. Hirao, K. Duh, K. Sudoh, and H. Tsukada. Automatic evaluation of translation quality for distant language pairs. In Proc. EMNLP, pages 944-952, 2010. H. Isozaki, K. Sudoh, H. Tsukada, and K. Duh. Head nalization: A simple reordering rule for sov languages. In Proc. WMT and MetricsMATR, 2010. J. H. Johnson, J. Martin, G. Foster, and R. Kuhn. Improving translation quality by discarding most of the phrasetable. In Proc. EMNLP, pages 967-975, 2007. K. Knight. Decoding complexity in word-replacement translation models. Computational Linguistics, 25(4), 1999. P. Koehn, F. J. Och, and D. Marcu. Statistical phrase-based translation. In Proc. HLT, pages 48-54, 2003. P. Koehn and J. Schroeder. Experiments in domain adaptation for statistical machine translation. In Proc. WMT, 2007. S. Kumar and W. Byrne. Minimum bayes-risk decoding for statistical machine translation. In Proc. HLT, 2004. W. Ling, T. Lus, J. Graca, L. Coheur, and I. Trancoso. Towards a General and Extensible Phrase-Extraction Algorithm. In M. Federico, I. Lane, M. Paul, and F. Yvon, editors, Proc. IWSLT, pages 313-320, 2010. C.-k. Lo and D. Wu. Meant: An inexpensive, high-accuracy, semiautomatic metric for evaluating translation utility based on semantic roles. In Proc. ACL, pages 220-229, 2011. W. Macherey, F. Och, I. Thayer, and J. Uszkoreit. Lattice-based minimum error rate training for statistical machine translation. In Proc. EMNLP, 2008. D. Marcu and W. Wong. A phrase-based, joint probability model for statistical machine translation. In Proc. EMNLP, 2002.

S. Matsoukas, A. -V. I. Rosti, and B. Zhang S. Matsoukas, A.-V. I. Rosti, and B. Zhang. Discriminative corpus weight estimation for machine translation. In Proc. EMNLP, pages 708717, 2009. H. Mi, L. Huang, and Q. Liu. Forest-based translation. In Proc. ACL, pages 192-199, 2008. R. Moore. Fast and accurate sentence alignment of bilingual corpora. Machine Translation: From Research to Real Users, pages 135-144, 2002. G. Neubig, T. Watanabe, S. Mori, and T. Kawahara. Machine translation without words through substring alignment. In Proc. ACL, Jeju, Korea, 2012. S. Niessen, H. Ney, et al. Morpho-syntactic analysis for reordering in statistical machine translation. In Proc. MT Summit, 2001. F. J. Och. Minimum error rate training in statistical machine translation. In Proc. ACL, 2003. K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu. BLEU: a method for automatic evaluation of machine translation. In Proc. COLING, pages 311-318, 2002. P. Resnik and N. A. Smith. The web as a parallel corpus. Computational Linguistics, 29(3):349-380, 2003. J. Suzuki, K. Duh, and M. Nagata. Distributed minimum error rate training of smt using particle swarm optimization. In Proc. IJCNLP, pages 649-657, 2011. T. Watanabe, J. Suzuki, H. Tsukada, and H. Isozaki. Online largemargin training for statistical machine translation. In Proc. EMNLP, pages 764-773, 2007. F. Xia and M. McCord. Improving a statistical MT system with automatically learned rewrite patterns. In Proc. COLING, 2004. K. Yamada and K. Knight. A syntax-based statistical translation model. In Proc. ACL, 2001. O. F. Zaidan and C. Callison-Burch. Crowdsourcing translation: Professional quality from non-professionals. In Proc. ACL, pages 1220-1229, 2011.