自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

だい六か – クリスマスとお正月 ぶんぽう. て form review ► Group 1 Verbs ► Have two or more ひらがな in the verb stem AND ► The final sound of the verb stem is from the い row.
VE 01 え form What is え form? え? You can do that many things with え form?
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
米国セキュリティ調査 (2002 CSI/FBI調査 攻撃場所)
Classes on saturday Yuji Kawada.
現在完了形 (present perfect tense)
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
Note for How to Write an English Paper (2014 Second Semester)
国内線で新千歳空港を利用している航空会社はどこですか?
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
All Rights Reserved, Copyright (C) Donovan School of English
The Bar バー.
五段動詞の歌 ごだんどうしのうた.
英語勉強会.
日本語の文法 文型(ぶんけい)をおぼえよう!
Chapter 11 Queues 行列.
Bellwork: English meaning? 1)はじめまして 2)どうぞ 3)すみません 4)おはようございます 5)しゅくだい
Chapter 8.3, Order Breaks Down
CSWパラレルイベント報告 ヒューマンライツ・ナウ        後藤 弘子.
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
じょし Particles.
What did you do, mate? Plain-Past
~知ってる? 間接疑問文.
Verb Plain Negativeform
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
Only One Flower in the World
英語特別講座 代名詞・前置詞・形容詞・助動詞 #1   
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
How to quote what someone says or said
SP0 check.
Chapter 6 Jade 翡翠(ヒスイ).
Tohoku University Kyo Tsukada
十年生の 日本語 Year 10 Writing Portfolio
Reasonので + Consequence clause
Licensing information
定期考査2 英語.
The Sacred Deer of 奈良(なら)
Who Is Ready to Survive the Next Big Earthquake?
CRLA Project Assisting the Project of
整合性尺度を用いた 構造的対訳文アラインメント
ストップウォッチの カード ストップウォッチの カード
Topics on Japan これらは、過去のインターンが作成したパワポの写真です。毎回、同じような題材が多いため、皆さんの出身地等、ここにない題材も取り上げるようにしてください。
Causative Verbs Extensively borrowed from Rubin, J “Gone Fishin’”, Power Japanese (1992: Kodansha:Tokyo) Created by K McMahon.
Term paper, Report (1st, first)
My Favorite Movie I will introduce my favorite movie.
WELCOME TO THE WORLD OF DRAGON BALL
Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus
疑問詞 1年生で学習した疑問詞.
第24回応用言語学講座公開連続講演会 後援:国際言語文化研究科教育研究プロジェクト経費
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
クイズやゲーム形式で紹介した実例です。いずれも過去のインターン作です。
統語構造に基づく入力文分割と そのハイブリッド音声翻訳への応用
Satoshi Kawashima, LLD 川島 聡 University of Tokyo
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
北大MMCセミナー 第62回 附属社会創造数学センター主催 Date: 2016年11月4日(金) 16:30~18:00
ー生命倫理の授業を通して生徒の意識に何が生じたかー
英語音声学(7) 音連結.
P P コンプレッサにおける能動騒音制御 19 Active noise control in compressor 1. 研究背景
北大MMCセミナー 第16回 Date:2013年11月8日(金)16:30~18:00
The Facilitative Cues in Learning Complex Recursive Structures
Cluster EG Face To Face meeting
もっていきます・もってきます.
Elements of Style Rule 7-11 (P7-14)
識別子の読解を目的とした名詞辞書の作成方法の一試案
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Improving Strategic Play in Shogi by Using Move Sequence Trees
Presentation transcript:

自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳 中澤敏明 黒橋禎夫 京都大学 NLP2008 3月18日(火)

高精度な機械翻訳を実現するには? 機能表現を正確に扱う X 始める。  begin to X 訳語選択 語順 電界強度が21.4kV/mmを越えると分極反転電流が流れる。 when the electric field strength and the polarization reversal current flows over 21.4 kv / mm . 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 electric field intensity was 21.4 kv / mm and the polarization reversal current flows over . the domain inversion current begins to flow , when the field intensity exceeds 21.4kv / mm .

Hierarchical Phrase-Based SMT (Chiang 2005, Watanabe et al. 2006) Chinese English 的 the 在 in X1的X2 the X2 of X1 X1之一 one of X1 今年X1 X1 this year 在X1下 under X1 在X1前 before X1 与X1有X2 have X2 with X1 Phrase-based SMTの手法から翻訳のruleを抽出 synchronous CFGのようにruleを再帰的に適用することにより、目的の翻訳を得る ruleの数が爆発するため、ruleの枝狩りや効率的なdecodingが必要 構文情報を考慮し、 機能表現にのみ注目したパターンを抽出

目次 背景 用例ベース翻訳システム概要 機能表現パターンの学習 実験と考察 まとめ

目次 背景 用例ベース翻訳システム概要 機能表現パターンの学習 実験と考察 まとめ

用例データベースの構築 英語 日本語 [0] at the headquarters [3] different [3] kinds The Russia's Chechen issue will certainly be on the agenda. ロシア・チェチェン共和国情勢も話し合われるとみられる。 Chage energetically declared. チャゲが威勢よく言った。 Han continued to refuse money politics to the end. 韓さんは最後まで買収運動を拒否した。 Not realizing just how much our lives are restricted by rules and regulations, I have thought of a number of ways our lives could be enriched by deregulation. 我々の生活が知らず知らずにどれだけ規制でしばられているか、規制緩和によって豊かさが変わっていくのかを考えてみた。 The New Year has come while the selection of candidates for the gubernatorial election of Tokyo slated for this spring remains confused. 今春の都知事選をめぐる候補者選びの動きは混迷の様相のまま、越年した。 Hong Kong has begun the countdown to its reversion to China in July, 1997. 一九九七年七月の中国返還に向けてカウントダウンに入った香港。 At the headquarters, different kinds of complaints are stored on a computer list. 本部のパソコンのリストにはさまざまな訴えが並ぶ。 英語 日本語 [0] at the headquarters [3] different [3] kinds [4] of complaints [5] are stored [1] computer [2] on a list [0] 本部の [1] パソコンの [2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 *[2] リストには [5] 並ぶ。 [5] are stored *[2] on a list [0] 本部の [0] at the headquarters *[1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored *[1] computer [2] on a list *[2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 [3] different [3] kinds [4] of complaints [5] are stored *[2] on a list [1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored [1] computer [2] on a list

[0] 本部の [1] パソコンの [2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 [0] at the headquarters [3] different [3] kinds [4] of complaints [5] are stored [1] computer [2] on a list *[1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored *[1] computer [2] on a list [1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored [1] computer [2] on a list [0] 本部の [0] at the headquarters [3] different [3] kinds [4] of complaints [5] are stored *[2] on a list *[2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 *[2] リストには [5] 並ぶ。 [5] are stored *[2] on a list

用例のスコア付け基準 ・用例のサイズ ・付属語の一致、不一致 ・用例内外の係り受け 入力文:だが、構造改革の効果が表れるには時間がかかる。 出力文:Still it will take time for structural reforms to take effect. ここにコメント表示(スコア付けの尺度)

機能表現の翻訳(1/2) 方法 として was studied 入力 出力 検討 した。 as a method (目的) として 親 was studied 1.親の用例に のりしろがある 検討 した。 as (a purpose) as a method 子 方法 (から) (from) a method was studied 親 検討 した。 was studied 2.子の用例に のりしろがある 方法 として (used) as a method 子 (利用 する。) as a method ここに新しい方法も載せる 親 検討 した。 was studied 3.のりしろ情報が ない was studied 子 方法 (から) (from) a method as a method 機能表現パターン (X) として as (X)

機能表現の翻訳(2/2) 入力 調査 し なくて は なら ない 。 用例 調査 (する こと に なる 。) examine パターン have to (X) ここに新しい方法も載せる

目次 背景 用例ベース翻訳システム概要 機能表現パターンの学習 実験と考察 まとめ

機能表現パターンの学習 [0] the politicians [2] must regain [1] leadership [1] their [0] 政治 に [1] リーダーシップ を [2] 回復 しなくてはならない。 回復 し X:動詞 なくてはならない。  must regain X | root X:名詞 に  X | pre X:名詞 を  X | post

日本語表現 英語表現 頻度 X/動詞 なくてはならない。 must X | root 6 X/動詞 ためには in order to X | post 115 to X | post 103 to X | pre 95 X/名詞 に 7987 in X | post 7833 X | pre 6720 X/名詞 を X | post 60352 41705 of X | post 11588 X/名詞 は 36463 2716 2105 X/名詞 より than X | post 322 from X | post 256 212

翻訳実験 JST日英抄録コーパス(100万文対)を利用 1リファレンスのBLEUで評価 96.6万文対でトレーニング   用例データベース、翻訳パターンの学習 500文を翻訳 1リファレンスのBLEUで評価 機能表現パターンを適用することにより翻訳精度が向上するかを検証

翻訳実験結果 BLEU4 テストデータ全て (500文) パターンなし 18.14 パターンあり 18.66 機能表現パターンが 適用された文(335文) 16.93 17.65 翻訳結果が 変化した文(287文) 16.08 16.89 +0.52 +0.72 +0.81 参考: Mosesを用いた翻訳 チューニングなし 18.87 チューニングあり 21.85 スコアが向上した文数:162文 スコアが低下した文数:68文

改善例 入力: 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 出力1: 40.83 Then the inverse current flows when field intensity exceeds 21.4 kV / mm . 出力2: 48.18 Then the inverse current begins to flow when field intensity exceeds 21.4 kV / mm . 正解: The domain inversion current begins to flow when the field intensity exceeds 21.4 kV / mm . 入力: 高齢者に対するセメントレスTHAの適応については,長期経過を十分に配慮し,適応性を判断する必要があると考えた。 出力1: 19.60 It was considered deeply consider the long term progress that had to judge the adaptability on the adaptation of the cementless THA the elderly . 出力2: 25.94 On the adaptation of the cementless THA for the elderly it was considered deeply consider the long term progress that had to judge the adaptability . 正解: On the adaptation of cementless THA for the old people , the attention should be paid on the long term progress , and it is regarded that judging the adaptability is necessary .

失敗例 入力: ダイオキシンに汚染された環境をいかにして治療するかは,環境科学の最も大切な問題の一つである。 出力1: 27.23 How treatment for polluted dioxin environment is one of the most important problems of environmental science . 出力2: 26.07 How treatment for polluted to dioxin environment is one of the most important problems of environmental science . 正解: How to remedy dioxin polluted environments is one of the most challenging problems in environmental technology .

まとめ 高精度な翻訳を実現するためには、機能表現を正しく扱うことが重要 機能表現パターンを利用した翻訳 今後の課題 機能表現パターンとして保持すべき情報の再考   汎化のレベルは品詞でよいか?   係り先の情報は必要か? 日英以外の言語対(英日、日中、中日)での実験