Download presentation
Presentation is loading. Please wait.
1
用例ベース翻訳における用言句の 簡潔な翻訳の実現
荒牧英治* ** ,黒橋禎夫* ** ,柏岡秀紀** ,田中英輝*** * 東京大学 情報理工学系研究科 ** ATR 音声言語コミュニーケーション研究所 *** NHK放送技術研究所
2
はじめに 構造的な翻訳用例を用いた 日英用例ベース翻訳システム │ ┌カナダで │┌開かれる ├通商会議に trade conference
入力文 構造的な翻訳用例を用いた 日英用例ベース翻訳システム │ ┌カナダで │┌開かれる ├通商会議に 翻訳用例 ┌五月初めに of four trade ministers ├■カナダで └■to be held ┌■開かれる ├■in Canada 入力文の各句に対して 用例を検索する ■ 通商会議 ■ trade conference 出力文 trade conference └held └in Canada 用例の英語表現を組み合わせて 翻訳文を生成
3
研究目的 訳出する必要がない表現を学習 用言 入力文: カナダで開かれる通商会議で~
入力文: カナダで開かれる通商会議で~ 翻訳結果: a trade conference held in Canada invite welcome have : invite welcome have φ 正解例: a trade conference in Canada φ 入力文: 観光シーズンを迎えた北海道では 入力文の各句に対して用例を検索する 翻訳結果: in Hokkaido greeted tourism season~ 正解例: in Hokkaido as the tourism season~ 訳出する必要がない表現を学習 用言
4
発表内容 用言対応コーパス コーパスの作成方法 コーパスの分析 提案手法 実験 まとめ
5
用言対応コーパス 用言対応コーパスの目的 アノテート対象 用言の翻訳は困難(訳出されない用言)
対訳文中の用言に対して人手で対応をアノテートし,用言の翻訳のされ方を分析・学習 アノテート対象 直訳でないコーパスが望ましい ⇒NHKニュースコーパス
6
NHKニュースコーパス 日本語記事を翻訳して英語記事を作成 両言語の報道スタイルに沿って作成(省略あり)
田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting. きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。
7
対訳文の抽出 翻訳辞書を用いたDPマッチングによる文対応推定 1文:1文対応だけを抽出[Aramaki et al., 2003]
田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting. 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting.
8
用言対応コーパス (5,500対訳文) アノテート内容 用言(相当)句 ・・・( ) 用言句の対応先 ・・・( ) (1)動詞を含む句
用言対応コーパス (5,500対訳文) アノテート内容 用言(相当)句 ・・・( ) (1)動詞を含む句 (2)格要素を持つ形容詞を含む句 用言句の対応先 ・・・( ) 13分
9
用言対応コーパスの分析 日本語用言の英語対応先を集計 日本語 :英語 対応数 用言句:用言句 9779 用言句:φ (対応先なし) 6831
用言句:φ (対応先なし) 6831 用言句:名詞句,前置詞句 716 用言句:その他 (副詞など) 319 用言句:φ の例 カナダで at a trade conference 開かれた in Canada 通商会議で
10
用言対応コーパスの分析 日本語用言の英語対応先を集計
用言句-φ は,下のアライメントパターン(Condensed Alignment Pattern, CAP)で出現 P’ C’ C P 用言句 日本語用言の英語対応先を集計 日本語 :英語 対応数 用言句:用言句 9779 用言句:φ (対応先なし) 6831 用言句:名詞句,前置詞句 716 用言句:その他 (副詞など) 319 論理をしっかり説明 用言句:φ の例 ⇒ CAPに含まれる用言句は必ず省略可能であるか? (推測可能) カナダで at a trade conference 開かれた in Canada 通商会議で
11
用言対応コーパスの分析 P’ C’ C P CAPを無作為抽出(80個)して,用言句が推測可能かどうか調査 推論可能 56 推論不可能
統語解析のエラー 3 アライメントのエラー 11 句のチャンキングエラー 1 その他 9 カナダで C at a trade conference P’ 開かれた 用言句 in Canada C’ 通商会議で P 用言句:φ の例
12
用言対応コーパスの分析 P’ C’ C P CAPを自動抽出して,用言句が推測可能かどうか調査 推論可能 P-依存 21 C-依存 16
19 推論不可能 統語解析のエラー 3 アライメントのエラー 11 句のチャンキングエラー 1 その他 9 カナダで C at a trade conference P’ 開かれた 用言句 in Canada C’ 通商会議で P 用言句:φ の例
13
P-依存 カナダで開かれた通商会議で ~ at a trade conference in Canada~ C P’ C’ P
会議 によって 開かれた が推論可能 P
14
C-依存 肺の病気にかかった男性の~ the patient man with a lung disease ~ C P’ C’ P
the man かかった C’ with a lung disease P 男性の 病気 によって かかった が 推論可能 C
15
PC-依存 各国から派遣された救助チームの~ rescue teams from countries ~ C P’ P C’
各国から と 救助チーム の両方によって 派遣された が 推論可能 C P
16
目次 用言対応コーパス 提案手法 実験 まとめ 9分
17
CAPを用例とした翻訳 カナダで 開かれた 通商会議で カナダで at a trade conference 開かれた in Canada
入力文 カナダで 開かれた 通商会議で 翻訳用例(=CAP) カナダで at a trade conference 開かれた in Canada 通商会議で 出力文 at a trade conference in Canada
18
入力文とCAPが一致しない場合でも利用したい
CAPを用いた翻訳 入力文 東京で 開かれた 会議で 翻訳用例(=CAP) カナダで at a trade conference 開かれた in Canada 通商会議で 入力文とCAPが一致しない場合でも利用したい
19
CAPの例 (P-依存) * * * Cを汎化 + Pを主辞に汎化 * カナダで開かれた通商会議で ~
at a trade conference in Canada~ C カナダで * P’ at a trade conference * 開かれた C’ in Canada * P 通商会議で * 会議 によって 開かれた が推論可能 P Cを汎化 + Pを主辞に汎化
20
CAPの自動分類 CAPを二分割して頻度を数える C C’ C C’ P P’ P P’
カナダで C’ in Canada C カナダで C’ in Canada 開かれた 開かれた freq(C) =4 at a conference P 会議で P’ 開かれた 会議で at a conference P P’ 予備実験の結果 1 3 freq(P) =17 freq(C) > freq(P) x C → C依存 freq(P) > freq(C) x C → P依存 その他 → PC依存
21
主辞への汎化 頻度の集計には主辞の語の基本型を用いる C C’ P P’ C C’ P P’ 動詞句の主辞:主動詞 名詞句の主辞:末尾の名詞
カナダで C’ in Canada 開かれた at a conference 通商会議で P P’ C カナダ C’ Canada 開く conference 会議 P P’
22
CAPを用いた翻訳 東京で 開かれた 東京 Tokyo 会議で * で at a * conference 開かれた in * * 会議で
入力文 東京で 翻訳用例 開かれた 東京 Tokyo 会議で * で at a * conference 開かれた in * * 会議で 出力文 in Tokyo at a conference
23
目次 用言対応コーパス 提案手法 実験 まとめ
24
実験環境 NHKニュースコーパス(4万記事)から1文:1文対応(約3万対訳文)を自動抽出 数
1文:1文対応をアライメントし,CAP(4,219個)を自動抽出-分類 数 P依存 1120 C依存 297 PC依存 2802 * PC依存のうち2,272個の出現頻度は1回であった
25
The extraordinary session will be officially opened by the Emperor
自動分類されたCAPの例 P依存 * 導入 はじまる * start * 話し合う 会議 * conference C依存 協定 結ぶ * agreement * 疑い 強まる * suspicion * PC依存 陛下 お迎え 開く emperor open 人 構成 委員会 members committee 横浜で~を導入することを はじめ… Yokohama starts …. 陛下:お迎え:開く/:held 1 天皇陛下をお迎えして、開会式が行なわれた後 天皇陛下をお迎えして開会式が開かれる The extraordinary session will be officially opened by the Emperor
26
実験 CAPの分類結果の判定は主観的なタスク ⇒CAPの妥当性をCAPを用いた翻訳の精度 で調査 実験条件 翻訳方向: 日英翻訳方向
入力文: NHKニュース記事の先頭文(240文) 評価: 正解翻訳例(240×4文)を用いたBLEU
27
実験結果 比較手法 システム BLEUスコア ベースライン 24.6 CAP 24.8 CAP+(提案手法) 25.0
ベースライン: CAPを用いない場合 CAP : 汎化しないでCAPを用いた場合 CAP : (自動分類し)汎化したCAPを用いた場合 (提案手法) システム BLEUスコア ベースライン 24.6 CAP 24.8 CAP+(提案手法) 25.0 主張
28
結果例 (1/2) 入力文 ... アフガニスタン北東部で起きた地震の被災地では ... 正解例
... quake struck areas along northeastern Afghanistan ... ベース ライン ... disaster area of the earthquake occurred in Afghanistan northeast ... CAP+ ... disaster area of the earthquake in Afghanistan northeast ...
29
結果例 (2/2) 入力文 ... 二十五日に行われる日韓首脳会談に.. 正解例
... summit due to be held on the 25th ベース ライン ... summit meeting conducted on 25th CAP+ ... summit meeting on 25th
30
目次 用言対応コーパス 提案手法 実験 まとめ
31
まとめ 用言対応コーパスの構築法と分析結果について報告した 用言の省略を行う手法を提案した 今後の課題
人間はかならずしも用言を省略するとは限らない ⇒用言が省略されないパターンの収集も必要 可能なかぎり用言を省略する 実験結果は精度の向上を示したが,これは現状の機械翻訳が逐語訳的な結果を出力する傾向があるためであり, 今後は,用言が省略されないパターンの収集し 用言を翻訳しないといったオプションも考慮しながら適切に翻訳することが必要だと考える
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.