Download presentation
Presentation is loading. Please wait.
1
自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳
中澤敏明 黒橋禎夫 京都大学 NLP2008 3月18日(火)
2
高精度な機械翻訳を実現するには? 機能表現を正確に扱う X 始める。 begin to X 訳語選択 語順
電界強度が21.4kV/mmを越えると分極反転電流が流れる。 when the electric field strength and the polarization reversal current flows over 21.4 kv / mm . 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 electric field intensity was 21.4 kv / mm and the polarization reversal current flows over . the domain inversion current begins to flow , when the field intensity exceeds 21.4kv / mm .
3
Hierarchical Phrase-Based SMT
(Chiang 2005, Watanabe et al. 2006) Chinese English 的 the 在 in X1的X2 the X2 of X1 X1之一 one of X1 今年X1 X1 this year 在X1下 under X1 在X1前 before X1 与X1有X2 have X2 with X1 Phrase-based SMTの手法から翻訳のruleを抽出 synchronous CFGのようにruleを再帰的に適用することにより、目的の翻訳を得る ruleの数が爆発するため、ruleの枝狩りや効率的なdecodingが必要 構文情報を考慮し、 機能表現にのみ注目したパターンを抽出
4
目次 背景 用例ベース翻訳システム概要 機能表現パターンの学習 実験と考察 まとめ
5
目次 背景 用例ベース翻訳システム概要 機能表現パターンの学習 実験と考察 まとめ
6
用例データベースの構築 英語 日本語 [0] at the headquarters [3] different [3] kinds
The Russia's Chechen issue will certainly be on the agenda. ロシア・チェチェン共和国情勢も話し合われるとみられる。 Chage energetically declared. チャゲが威勢よく言った。 Han continued to refuse money politics to the end. 韓さんは最後まで買収運動を拒否した。 Not realizing just how much our lives are restricted by rules and regulations, I have thought of a number of ways our lives could be enriched by deregulation. 我々の生活が知らず知らずにどれだけ規制でしばられているか、規制緩和によって豊かさが変わっていくのかを考えてみた。 The New Year has come while the selection of candidates for the gubernatorial election of Tokyo slated for this spring remains confused. 今春の都知事選をめぐる候補者選びの動きは混迷の様相のまま、越年した。 Hong Kong has begun the countdown to its reversion to China in July, 1997. 一九九七年七月の中国返還に向けてカウントダウンに入った香港。 At the headquarters, different kinds of complaints are stored on a computer list. 本部のパソコンのリストにはさまざまな訴えが並ぶ。 英語 日本語 [0] at the headquarters [3] different [3] kinds [4] of complaints [5] are stored [1] computer [2] on a list [0] 本部の [1] パソコンの [2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 *[2] リストには [5] 並ぶ。 [5] are stored *[2] on a list [0] 本部の [0] at the headquarters *[1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored *[1] computer [2] on a list *[2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 [3] different [3] kinds [4] of complaints [5] are stored *[2] on a list [1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored [1] computer [2] on a list
7
[0] 本部の [1] パソコンの [2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 [0] at the headquarters [3] different [3] kinds [4] of complaints [5] are stored [1] computer [2] on a list *[1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored *[1] computer [2] on a list [1] パソコンの [2] リストには *[5] 並ぶ。 *[5] are stored [1] computer [2] on a list [0] 本部の [0] at the headquarters [3] different [3] kinds [4] of complaints [5] are stored *[2] on a list *[2] リストには [3] さまざまな [4] 訴えが [5] 並ぶ。 *[2] リストには [5] 並ぶ。 [5] are stored *[2] on a list
8
用例のスコア付け基準 ・用例のサイズ ・付属語の一致、不一致 ・用例内外の係り受け 入力文:だが、構造改革の効果が表れるには時間がかかる。
出力文:Still it will take time for structural reforms to take effect. ここにコメント表示(スコア付けの尺度)
9
機能表現の翻訳(1/2) 方法 として was studied 入力 出力 検討 した。 as a method (目的) として
親 was studied 1.親の用例に のりしろがある 検討 した。 as (a purpose) as a method 子 方法 (から) (from) a method was studied 親 検討 した。 was studied 2.子の用例に のりしろがある 方法 として (used) as a method 子 (利用 する。) as a method ここに新しい方法も載せる 親 検討 した。 was studied 3.のりしろ情報が ない was studied 子 方法 (から) (from) a method as a method 機能表現パターン (X) として as (X)
10
機能表現の翻訳(2/2) 入力 調査 し なくて は なら ない 。 用例 調査 (する こと に なる 。) examine パターン
have to (X) ここに新しい方法も載せる
11
目次 背景 用例ベース翻訳システム概要 機能表現パターンの学習 実験と考察 まとめ
12
機能表現パターンの学習 [0] the politicians [2] must regain [1] leadership
[1] their [0] 政治 に [1] リーダーシップ を [2] 回復 しなくてはならない。 回復 し X:動詞 なくてはならない。 must regain X | root X:名詞 に X | pre X:名詞 を X | post
13
日本語表現 英語表現 頻度 X/動詞 なくてはならない。 must X | root 6 X/動詞 ためには in order to X | post 115 to X | post 103 to X | pre 95 X/名詞 に 7987 in X | post 7833 X | pre 6720 X/名詞 を X | post 60352 41705 of X | post 11588 X/名詞 は 36463 2716 2105 X/名詞 より than X | post 322 from X | post 256 212
14
翻訳実験 JST日英抄録コーパス(100万文対)を利用 1リファレンスのBLEUで評価
96.6万文対でトレーニング 用例データベース、翻訳パターンの学習 500文を翻訳 1リファレンスのBLEUで評価 機能表現パターンを適用することにより翻訳精度が向上するかを検証
15
翻訳実験結果 BLEU4 テストデータ全て (500文) パターンなし 18.14 パターンあり 18.66 機能表現パターンが
適用された文(335文) 16.93 17.65 翻訳結果が 変化した文(287文) 16.08 16.89 +0.52 +0.72 +0.81 参考: Mosesを用いた翻訳 チューニングなし チューニングあり スコアが向上した文数:162文 スコアが低下した文数:68文
16
改善例 入力: 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 出力1: 40.83
Then the inverse current flows when field intensity exceeds 21.4 kV / mm . 出力2: 48.18 Then the inverse current begins to flow when field intensity exceeds 21.4 kV / mm . 正解: The domain inversion current begins to flow when the field intensity exceeds 21.4 kV / mm . 入力: 高齢者に対するセメントレスTHAの適応については,長期経過を十分に配慮し,適応性を判断する必要があると考えた。 出力1: 19.60 It was considered deeply consider the long term progress that had to judge the adaptability on the adaptation of the cementless THA the elderly . 出力2: 25.94 On the adaptation of the cementless THA for the elderly it was considered deeply consider the long term progress that had to judge the adaptability . 正解: On the adaptation of cementless THA for the old people , the attention should be paid on the long term progress , and it is regarded that judging the adaptability is necessary .
17
失敗例 入力: ダイオキシンに汚染された環境をいかにして治療するかは,環境科学の最も大切な問題の一つである。 出力1: 27.23
How treatment for polluted dioxin environment is one of the most important problems of environmental science . 出力2: 26.07 How treatment for polluted to dioxin environment is one of the most important problems of environmental science . 正解: How to remedy dioxin polluted environments is one of the most challenging problems in environmental technology .
18
まとめ 高精度な翻訳を実現するためには、機能表現を正しく扱うことが重要 機能表現パターンを利用した翻訳 今後の課題
機能表現パターンとして保持すべき情報の再考 汎化のレベルは品詞でよいか? 係り先の情報は必要か? 日英以外の言語対(英日、日中、中日)での実験
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.