ポストエディットの自動化による機械翻訳の利便性向上 H209059 中澤大樹
研究背景 英語が苦手なため、よく機械翻訳を利用するが、おかしな訳が出ることが多いことに気が付いたのがきっかけ 機械翻訳をより使いやすいものにしたいと考えた
研究目的 本研究で機械翻訳する際に行われる後編集(ポストエディット)という作業を自動で行うシステムを作成する 本システムを作成することで、機械翻訳をより使いやすいものにすることを目標とした
機械翻訳 コンピュータを利用してある言語を別の言語に機械的に翻訳する技術 現在では翻訳ソフトとして実装される場合がほとんど 機械翻訳の仕組みは2つに大別できる ・ルールベース機械翻訳 ― 文法規則や変換規則などのルールに 則って翻訳 ・統計的機械翻訳 ― 膨大な量の対訳集を使って、ある単語に続く 確率が最も高い単語を統計的に求めて、 原文に対する訳文を生成
機械翻訳 身近で使えるもの ・Google翻訳、excite翻訳 など
機械翻訳の問題点 精度が悪い 必ずしも正しい訳が出るわけではない 例 The University of Tokyo is considering a major change to its academic term. (東京大学は学年度を大幅に変更することを検討しています。) 東京大学は、その学術的な用語への大変化を考慮しています。 Excite翻訳
誤訳の調査 どのような誤訳が生じるか調査する
調査方法 利用する機械翻訳 excite翻訳(http://www.excite.co.jp/world/) 調査対象 NHK「ニュースで英会話」(http://cgi2.nhk.or.jp/e-news/) から2012年の10個のニュースを対象(約100センテンス) Google 翻訳では多くの場合、他の翻訳結果を利用できるようになっています。そのような訳文を見るには、対象のフレーズをクリックしてください。より適切な訳文をクリックすると、Google 翻訳でフィードバックとして生かされ、徐々に翻訳品質が改善されていきます。
ニュースで英会話 ニュースで英会話 オンライン ・古家 聡 [ 原稿執筆 ] 武蔵野大学人間関係学部教授。当サイトの日本語訳と解説を担当。 ・長沼 美香子 [ 原稿執筆 ] 元立教大学大学院異文化コミュニケーション研究科特任准教授。国際会議、国際ビジネス現場での通訳翻訳者。 日本通訳翻訳学会理事。当サイトの日本語訳や解説を担当。 ・香取 芳和 [ 原稿執筆 ] 上智大学国際教養学部、青山学院大学文学部非常勤講師。翻訳者。 当サイトの日本語訳と解説を担当。 ・岡部 徹 [ ニュース監修・解説 ] NHK解説委員。番組や当ホームページで扱う英語ニュースの選定・監修を担当。
ニュースで英会話
調査方法 手段 ・「ニュースで英会話」内の和文と機械翻訳した訳文を比較 ・どのような誤訳が生じているかを調査する
誤訳の種類 文脈に合わない単語訳 構造の分析の誤り
誤訳 1 文脈に合わない単語訳
誤訳 1 「1億円のバイオリン 無税で返還」の最初の1文より “A renowned Japanese musician is waiting to be reunited with a prized possession.” (著名な日本人音楽家が、貴重な財産との再会を待っています。)
誤訳 1 “A renowned Japanese musician is waiting to be reunited with a prized possession.” (著名な日本人音楽家が、貴重な財産との再会を待っています。) 「有名な日本人音楽家は、重視された所有と再び結合するのを待っています。」 Excite翻訳
誤訳 1 “A renowned Japanese musician is waiting to be reunited with a prized possession.” (著名な日本人音楽家が、貴重な財産との再会を待っています。) 「有名な日本人音楽家は、重視された所有と再び結合するのを待っています。」 Excite翻訳
誤訳 1 Reunited(再会する) → 「再び結合する」 Prized(貴重な) → 「重視された」 Possession(財産) → 「所有」 文脈に合っていない訳にしているため、意味の通らない文章になっている 約○ヶ所に確認できた
誤訳 2 構造の分析の誤り
誤訳 2 「おしゃべり防止装置にイグ・ノーベル賞」の最後の1文 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.” (イグ・ノーベル賞は独創的でユーモラスな科学的発明に対して贈られるもので、日本の科学者は今回で6年連続の受賞となりました。)
誤訳 2 「これは、日本人科学者がイグ・ノーベル賞を得させた連続6年です ― ユニークでユーモアのある科学的な発明に与えられた賞。」 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.” (イグ・ノーベル賞は独創的でユーモラスな科学的発明に対して贈られるもので、日本の科学者は今回で6年連続の受賞となりました。) 「これは、日本人科学者がイグ・ノーベル賞を得させた連続6年です ― ユニークでユーモアのある科学的な発明に与えられた賞。」 Excite翻訳
誤訳 2 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.” “This” が “that Japanese scientists have won an Ig Nobel Prize ” を指していることがとれていない
誤訳 2 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.” “an award given to unique and humorous scientific inventions” が “Ig Nobel Prize” の説明となっていることがとれていない
誤訳 2 単語それぞれは文章にあったものに訳されているが、構造の分析を誤ったために分かりにくい文章に翻訳されることがある 約○ヶ所で確認
問題点の解決手法 この問題を解決するには、2つの手法がある 前編集(プリエディット) 機械翻訳にかける前に原文を修正する手法 原文の構文構造の簡略化、特殊な言い回しや単語の排除など 後編集(ポストエディット) 翻訳後の訳文を人手によって修正する手法 本研究では、この手法を用いる
システム構想 おかしいと思われる訳文のみを対象とする 断定するのではなく、あくまで参考程度に 共起関係 「文脈に合わない単語訳」のみに焦点を当てる おかしいと思われる訳文のみを対象とする 断定するのではなく、あくまで参考程度に 共起関係 前後の単語訳のつながりから訳を導き出す