ポストエディットの自動化による機械翻訳の利便性向上

Slides:



Advertisements
Similar presentations
個人情報を保護する仕組みに 関する一考察(その2) 満保 雅浩 東北大学 情報処理教育センター 情報科学研究科.
Advertisements

英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
名前:りくよう 番号 : 学習目標 現在日本の子供たちの考える力と学習意欲の状況 学力調査 を分析する その結果と原因を分析する 文法を活用.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
獨協大学 国際教養学部言語文化学科 永田小絵
帝京大学医学部麻酔学教室 OCRを学習に使用する 帝京大学医学部麻酔学教室 2001年10月日本麻酔・集中治療テクノロジー学会.
最大エントロピーモデルに基づく形態素解析と辞書による影響
マンガ読解のプロセスモデル マンガリテラシーとマンガ読解力
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
テキストベースの会議における議論の効率化に関する研究
英語勉強会.
日本語教育における 発音指導の到達目標を考える
資料1-4 平成27年度 第1回技術委員会 2015年度技術委員会の目標と 検討項目(案)
高速基礎マスター英語 「導入」「トレーニング」 活用マニュアル VOL.1
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報とコンピュータ 静岡大学工学部 安藤和敏
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
4Y-4 印象に残りやすい日本語パスワードの合成法
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
日本の高校における英語の授業を 英語で行うべきか
通訳の原理 理解→転換→表出のプロセスについて.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
統計リテラシー教育における 携帯端末の利用
共同ローカリゼーション フレームワーク 井上 謙次.
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
ISO 9001:2015 The process approach
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
ソフトウェア情報学総論 基盤ソフトウェア学講座
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
付属書Ⅰ.5 ハザード分析と 重要管理点 (HACCP).
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
第11回 継続的監査.
雑音環境下における 非負値行列因子分解を用いた声質変換
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
Unit 1 Starting Out 教科書 p.4 「…でした」 「ありました[いました]」 と過去のことについて
MSET使用方法  一時中断したい場合には、マウスの右クリックをしてください(小ウインドウが開き一時停止します)。続行する場合には、開いた小ウインドウ以外の適当な場所を右クリックしてください。
12の発明の原理だけで発想できるプロセス アイデア発想とアイデア選定
年度出版の著作賞のエントリーを募集します
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
“Open in order to ・・・” 「誰に扉を開くのか」 オープンアクセスウィーク? どうやってOAにする?
「はじめてのADaM」 パブリックレヴューについて
中京大学 情報理工学部 情報知能学科 H 中畑 淳貴 H 堀田 将克
音声認識・翻訳 Android アプリケーション制作
レビューとは (プロジェクト管理の観点から)
ブラウザを快適に操作するツールの開発 藤村研究室 1DS04179M 阪上 翔伍.
日本の高校における英語の授業は英語でがベストか?
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
この研究発表の内容に関する利益相反事項は, ☑ ありません
通訳研究分野の概観図 General Map of Interpreting Studies
スケジュール ☆Schedule 授業: (52号館 303教室) 4/11, 4/18, 4/25, 5/9, 5/16, 5/23, 5/30, 6/6, 6/13, 6/20, 6/27, 7/4, 7/11, 7/18. 演習: 7/25, 8/1. ☆ Class: (Classroom.
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
スケジュール ☆Schedule 授業: 4/12, 4/19, 4/26, 5/10, 5/17, 5/24, 5/31, 6/7, 6/14, 6/21, 6/28, 7/5, 7/12, 7/19. (56号館 103教室)演習: 7/26, 8/2.
For Master’s Students 修士学生
スケジュール ☆Schedule 授業: (52号館 303教室) 4/10, 4/17, 4/24, 5/1, 5/15, 5/22, 5/29, 6/5, 6/12, 6/19, 6/26, 7/3, 7/10, 7/17. 演習: (授業は行わない) 7/24, 7/31. ☆ Class:
開発作業の形式化に基づく プロセス評価 松下誠 大阪大学.
自然言語処理2015 Natural Language Processing 2015
Unit 6 Part 3 教科書 p.54~55 I, you以外の単数の人やもの について「…しません」と 説明するときの言い方を
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
情報とコンピュータ 静岡大学工学部 安藤和敏
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
オブジェクト指向メトリクスを用いた 開発支援に関する研究 --- VC++とMFCを用いた開発を対象として ---
アノテーションガイドラインの管理を行う アノテーションシステムの提案
アップデート.
Presentation transcript:

ポストエディットの自動化による機械翻訳の利便性向上 H209059 中澤大樹

研究背景 英語が苦手なため、よく機械翻訳を利用するが、おかしな訳が出ることが多いことに気が付いたのがきっかけ 機械翻訳をより使いやすいものにしたいと考えた

研究目的 本研究で機械翻訳する際に行われる後編集(ポストエディット)という作業を自動で行うシステムを作成する 本システムを作成することで、機械翻訳をより使いやすいものにすることを目標とした

機械翻訳 コンピュータを利用してある言語を別の言語に機械的に翻訳する技術 現在では翻訳ソフトとして実装される場合がほとんど 機械翻訳の仕組みは2つに大別できる ・ルールベース機械翻訳 ― 文法規則や変換規則などのルールに                          則って翻訳 ・統計的機械翻訳 ― 膨大な量の対訳集を使って、ある単語に続く                     確率が最も高い単語を統計的に求めて、                     原文に対する訳文を生成

機械翻訳 身近で使えるもの ・Google翻訳、excite翻訳 など

機械翻訳の問題点 精度が悪い 必ずしも正しい訳が出るわけではない 例 The University of Tokyo is considering a major change to its academic term. (東京大学は学年度を大幅に変更することを検討しています。) 東京大学は、その学術的な用語への大変化を考慮しています。 Excite翻訳

誤訳の調査 どのような誤訳が生じるか調査する

調査方法 利用する機械翻訳 excite翻訳(http://www.excite.co.jp/world/) 調査対象 NHK「ニュースで英会話」(http://cgi2.nhk.or.jp/e-news/) から2012年の10個のニュースを対象(約100センテンス) Google 翻訳では多くの場合、他の翻訳結果を利用できるようになっています。そのような訳文を見るには、対象のフレーズをクリックしてください。より適切な訳文をクリックすると、Google 翻訳でフィードバックとして生かされ、徐々に翻訳品質が改善されていきます。

ニュースで英会話 ニュースで英会話 オンライン ・古家 聡 [ 原稿執筆 ] 武蔵野大学人間関係学部教授。当サイトの日本語訳と解説を担当。 ・長沼 美香子 [ 原稿執筆 ] 元立教大学大学院異文化コミュニケーション研究科特任准教授。国際会議、国際ビジネス現場での通訳翻訳者。 日本通訳翻訳学会理事。当サイトの日本語訳や解説を担当。 ・香取 芳和 [ 原稿執筆 ] 上智大学国際教養学部、青山学院大学文学部非常勤講師。翻訳者。 当サイトの日本語訳と解説を担当。 ・岡部 徹 [ ニュース監修・解説 ] NHK解説委員。番組や当ホームページで扱う英語ニュースの選定・監修を担当。

ニュースで英会話

調査方法 手段 ・「ニュースで英会話」内の和文と機械翻訳した訳文を比較 ・どのような誤訳が生じているかを調査する

誤訳の種類 文脈に合わない単語訳 構造の分析の誤り

誤訳 1 文脈に合わない単語訳

誤訳 1 「1億円のバイオリン 無税で返還」の最初の1文より “A renowned Japanese musician is waiting to be reunited with a prized possession.” (著名な日本人音楽家が、貴重な財産との再会を待っています。)

誤訳 1 “A renowned Japanese musician is waiting to be reunited with a prized possession.” (著名な日本人音楽家が、貴重な財産との再会を待っています。) 「有名な日本人音楽家は、重視された所有と再び結合するのを待っています。」 Excite翻訳

誤訳 1 “A renowned Japanese musician is waiting to be reunited with a prized possession.” (著名な日本人音楽家が、貴重な財産との再会を待っています。) 「有名な日本人音楽家は、重視された所有と再び結合するのを待っています。」 Excite翻訳

誤訳 1 Reunited(再会する) → 「再び結合する」 Prized(貴重な) → 「重視された」 Possession(財産) → 「所有」 文脈に合っていない訳にしているため、意味の通らない文章になっている 約○ヶ所に確認できた

誤訳 2 構造の分析の誤り

誤訳 2 「おしゃべり防止装置にイグ・ノーベル賞」の最後の1文 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.” (イグ・ノーベル賞は独創的でユーモラスな科学的発明に対して贈られるもので、日本の科学者は今回で6年連続の受賞となりました。)

誤訳 2 「これは、日本人科学者がイグ・ノーベル賞を得させた連続6年です ― ユニークでユーモアのある科学的な発明に与えられた賞。」 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.” (イグ・ノーベル賞は独創的でユーモラスな科学的発明に対して贈られるもので、日本の科学者は今回で6年連続の受賞となりました。) 「これは、日本人科学者がイグ・ノーベル賞を得させた連続6年です ― ユニークでユーモアのある科学的な発明に与えられた賞。」 Excite翻訳

誤訳 2 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.”  “This” が “that Japanese scientists have won an Ig Nobel Prize ” を指していることがとれていない

誤訳 2 “This is the sixth year in a row that Japanese scientists have won an Ig Nobel Prize — an award given to unique and humorous scientific inventions.” “an award given to unique and humorous scientific inventions” が “Ig Nobel Prize” の説明となっていることがとれていない

誤訳 2 単語それぞれは文章にあったものに訳されているが、構造の分析を誤ったために分かりにくい文章に翻訳されることがある 約○ヶ所で確認

問題点の解決手法 この問題を解決するには、2つの手法がある 前編集(プリエディット) 機械翻訳にかける前に原文を修正する手法 原文の構文構造の簡略化、特殊な言い回しや単語の排除など 後編集(ポストエディット) 翻訳後の訳文を人手によって修正する手法 本研究では、この手法を用いる

システム構想 おかしいと思われる訳文のみを対象とする 断定するのではなく、あくまで参考程度に 共起関係 「文脈に合わない単語訳」のみに焦点を当てる おかしいと思われる訳文のみを対象とする 断定するのではなく、あくまで参考程度に 共起関係 前後の単語訳のつながりから訳を導き出す