用例ベース翻訳における用言句の 簡潔な翻訳の実現

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳
意味属性の共起による 「AのB」型名詞句の翻訳規則
国内線で新千歳空港を利用している航空会社はどこですか?
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
The authors have no actual or potential declaration to make.
五段動詞の歌 ごだんどうしのうた.
プレゼンテーションの方法 浅川伸一
動詞 スライドショウを実行し、左クリック(一回)しながら読んでください。
日英ニュース記事を用いた 用例ベース翻訳システム
CSWパラレルイベント報告 ヒューマンライツ・ナウ        後藤 弘子.
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
The ball being captured inside the net
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
関係代名詞 目的格の関係代名詞.
一致の非対称の 極小理論的分析 小林 亜希子 島根大学 「言語と情報研究プロジェクト研究会:言語理論の動向を考える」 広島大学
関係代名詞 Fruit Basket Turnover 関係代名詞は フルーツバスケットで導入 Anyone who has a catなど
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
Only One Flower in the World
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
PSOLA法を用いた極低ビットレート音声符号化に関する検討
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
述語項構造に基づいた統計 翻訳における語句の並べ替え
Example-based Machine Translation without Saying Inferable Predicate
Tohoku University Kyo Tsukada
整合性尺度を用いた 構造的対訳文アラインメント
Semi-Supervised QA with Generative Domain-Adaptive Nets
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Peacebuilding: Voices from the Field
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
コードクローンに含まれるメソッド呼び出しの 変更度合の分析
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
I’m Eiji Aramaki from university of Tokyo and ATR
日本のさまざまな地域の食べ物.
New York Times Translations
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
Disclosure of conflict of interest
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
受け身を練習しよう.
超大規模ウェブコーパスを用いた 分布類似度計算
Suzaku and the Results ~1 years after launch Suzaku (朱雀)
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
Number of random matrices
この研究発表の内容に関する利益相反事項は, ☑ ありません
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
プレゼンテーションの方法 浅川伸一
ブースティングとキーワードフィルタリング によるシステム要求検出
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
時間連続性を考慮した 動画からの人物の姿勢推定
自然言語処理2015 Natural Language Processing 2015
識別子の読解を目的とした名詞辞書の作成方法の一試案
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Presentation transcript:

用例ベース翻訳における用言句の 簡潔な翻訳の実現 荒牧英治* ** ,黒橋禎夫* ** ,柏岡秀紀** ,田中英輝*** * 東京大学 情報理工学系研究科 ** ATR 音声言語コミュニーケーション研究所 *** NHK放送技術研究所

はじめに 構造的な翻訳用例を用いた 日英用例ベース翻訳システム │ ┌カナダで │┌開かれる ├通商会議に trade conference 入力文 構造的な翻訳用例を用いた 日英用例ベース翻訳システム  │ ┌カナダで  │┌開かれる  ├通商会議に 翻訳用例   ┌五月初めに  of four trade ministers   ├■カナダで  └■to be held  ┌■開かれる   ├■in Canada 入力文の各句に対して 用例を検索する ■ 通商会議   ■ trade conference 出力文 trade conference └held └in Canada 用例の英語表現を組み合わせて 翻訳文を生成

研究目的 訳出する必要がない表現を学習 用言 入力文: カナダで開かれる通商会議で~ 入力文: カナダで開かれる通商会議で~ 翻訳結果: a trade conference held in Canada invite welcome have : invite welcome have φ 正解例: a trade conference in Canada φ 入力文: 観光シーズンを迎えた北海道では 入力文の各句に対して用例を検索する 翻訳結果: in Hokkaido greeted tourism season~ 正解例: in Hokkaido as the tourism season~ 訳出する必要がない表現を学習 用言

発表内容 用言対応コーパス コーパスの作成方法 コーパスの分析 提案手法 実験 まとめ

用言対応コーパス 用言対応コーパスの目的 アノテート対象 用言の翻訳は困難(訳出されない用言) 対訳文中の用言に対して人手で対応をアノテートし,用言の翻訳のされ方を分析・学習 アノテート対象 直訳でないコーパスが望ましい ⇒NHKニュースコーパス

NHKニュースコーパス 日本語記事を翻訳して英語記事を作成 両言語の報道スタイルに沿って作成(省略あり) 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting. きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。

対訳文の抽出 翻訳辞書を用いたDPマッチングによる文対応推定 1文:1文対応だけを抽出[Aramaki et al., 2003] 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting. 田植えフェスティバル石川県輪島市で外国の大使や一般の参加者など千人あまりが急な斜面の棚田で田植えを体験する催しが行われました。 輪島市白米町には(しろよねまち)千枚田と呼ばれる(せんまいだ)大小二千百枚の棚田が急な斜面から海に向かって拡がっています。 きょうの輪島市は雲が広がったもののまずまずの天気となり、出席された高円宮さまも海からの風に吹かれながら田植えに加わっていました。 地球環境平和財団では今年の夏休みに全国の子どもたちを対象に草刈りや生きものの観察会を開く他、秋には稲刈体験を行なう予定にしています。 Ambassadors and diplomats from 37 countries took part in a rice planting festival on Sunday in small paddies on steep hillsides in Wajima, central Japan. About one-thousand people gathered at the hill, where some two-thousand 100 miniature paddies, called Senmaida, stretch toward the Sea of Japan. 田植え体験は農作業を通して米作りの意義などを考えていこうという地球環境平和財団の呼び掛けで開かれたもので、海外三十四ヵ国の大使や書記官、それに一般の参加者ら合わせておよそ千人が集まりました。 The event was organized by the private Foundation for Global Peace and Environment. 田植えに使われた苗は去年の秋、天皇陛下が皇居で収穫された稲籾から育てたものです。 The rice seedlings are grown from grain harvested by the Emperor at the Imperial Palace in Tokyo last autumn. 参加者たちは裸足になって水田に足を踏み入れ地元に伝わる田植え歌に合わせて慣れない手つきで苗を植えていました。 Barefoot participants waded into the paddies to plant the seedlings by hand while singing a local folk song about the practice of rice planting.

用言対応コーパス (5,500対訳文) アノテート内容 用言(相当)句 ・・・( ) 用言句の対応先 ・・・( ) (1)動詞を含む句 用言対応コーパス (5,500対訳文) アノテート内容 用言(相当)句 ・・・( ) (1)動詞を含む句 (2)格要素を持つ形容詞を含む句 用言句の対応先 ・・・( ) 13分

用言対応コーパスの分析 日本語用言の英語対応先を集計 日本語 :英語 対応数 用言句:用言句 9779 用言句:φ (対応先なし) 6831 用言句:φ (対応先なし) 6831 用言句:名詞句,前置詞句 716 用言句:その他 (副詞など) 319 用言句:φ の例 カナダで at a trade conference 開かれた in Canada 通商会議で

用言対応コーパスの分析 日本語用言の英語対応先を集計 用言句-φ は,下のアライメントパターン(Condensed Alignment Pattern, CAP)で出現 P’ C’ C P 用言句 日本語用言の英語対応先を集計 日本語 :英語 対応数 用言句:用言句 9779 用言句:φ (対応先なし) 6831 用言句:名詞句,前置詞句 716 用言句:その他 (副詞など) 319 論理をしっかり説明 用言句:φ の例 ⇒ CAPに含まれる用言句は必ず省略可能であるか? (推測可能) カナダで at a trade conference 開かれた in Canada 通商会議で

用言対応コーパスの分析 P’ C’ C P CAPを無作為抽出(80個)して,用言句が推測可能かどうか調査 推論可能 56 推論不可能 統語解析のエラー 3 アライメントのエラー 11 句のチャンキングエラー 1 その他 9 カナダで C at a trade conference P’ 開かれた 用言句 in Canada C’ 通商会議で P 用言句:φ の例

用言対応コーパスの分析 P’ C’ C P CAPを自動抽出して,用言句が推測可能かどうか調査 推論可能 P-依存 21 C-依存 16 19 推論不可能 統語解析のエラー 3 アライメントのエラー 11 句のチャンキングエラー 1 その他 9 カナダで C at a trade conference P’ 開かれた 用言句 in Canada C’ 通商会議で P 用言句:φ の例

P-依存 カナダで開かれた通商会議で ~ at a trade conference in Canada~ C P’ C’ P 会議 によって 開かれた が推論可能 P

C-依存 肺の病気にかかった男性の~ the patient man with a lung disease ~ C P’ C’ P the man かかった C’ with a lung disease P 男性の 病気 によって かかった が 推論可能 C

PC-依存 各国から派遣された救助チームの~ rescue teams from countries ~ C P’ P C’ 各国から と 救助チーム の両方によって 派遣された が 推論可能 C P

目次 用言対応コーパス 提案手法 実験 まとめ 9分

CAPを用例とした翻訳 カナダで 開かれた 通商会議で カナダで at a trade conference 開かれた in Canada 入力文 カナダで 開かれた 通商会議で 翻訳用例(=CAP) カナダで at a trade conference 開かれた in Canada 通商会議で 出力文 at a trade conference in Canada

入力文とCAPが一致しない場合でも利用したい CAPを用いた翻訳 入力文 東京で 開かれた 会議で 翻訳用例(=CAP) カナダで at a trade conference 開かれた in Canada 通商会議で 入力文とCAPが一致しない場合でも利用したい

CAPの例 (P-依存) * * * Cを汎化 + Pを主辞に汎化 * カナダで開かれた通商会議で ~ at a trade conference in Canada~ C カナダで * P’ at a trade conference * 開かれた C’ in Canada * P 通商会議で * 会議 によって 開かれた が推論可能 P Cを汎化 + Pを主辞に汎化

CAPの自動分類 CAPを二分割して頻度を数える C C’ C C’ P P’ P P’ カナダで C’ in Canada C カナダで C’ in Canada 開かれた 開かれた freq(C) =4 at a conference P 会議で P’ 開かれた 会議で at a conference P P’ 予備実験の結果 1 3 freq(P) =17 freq(C) > freq(P) x C → C依存 freq(P) > freq(C) x C → P依存 その他 → PC依存

主辞への汎化 頻度の集計には主辞の語の基本型を用いる C C’ P P’ C C’ P P’ 動詞句の主辞:主動詞 名詞句の主辞:末尾の名詞 カナダで C’ in Canada 開かれた at a conference 通商会議で P P’ C カナダ C’ Canada 開く conference 会議 P P’

CAPを用いた翻訳 東京で 開かれた 東京 Tokyo 会議で * で at a * conference 開かれた in * * 会議で 入力文 東京で 翻訳用例 開かれた 東京 Tokyo 会議で * で at a * conference 開かれた in * * 会議で 出力文 in Tokyo at a conference

目次 用言対応コーパス 提案手法 実験 まとめ

実験環境 NHKニュースコーパス(4万記事)から1文:1文対応(約3万対訳文)を自動抽出 数 1文:1文対応をアライメントし,CAP(4,219個)を自動抽出-分類 数 P依存 1120 C依存 297 PC依存 2802 * PC依存のうち2,272個の出現頻度は1回であった

The extraordinary session will be officially opened by the Emperor 自動分類されたCAPの例 P依存 * 導入 はじまる * start * 話し合う 会議 * conference C依存 協定 結ぶ * agreement * 疑い 強まる * suspicion * PC依存 陛下 お迎え 開く emperor open 人 構成 委員会 members committee 横浜で~を導入することを はじめ… Yokohama starts …. 陛下:お迎え:開く/:held 1 天皇陛下をお迎えして、開会式が行なわれた後 天皇陛下をお迎えして開会式が開かれる The extraordinary session will be officially opened by the Emperor

実験 CAPの分類結果の判定は主観的なタスク ⇒CAPの妥当性をCAPを用いた翻訳の精度 で調査 実験条件 翻訳方向: 日英翻訳方向 入力文: NHKニュース記事の先頭文(240文) 評価: 正解翻訳例(240×4文)を用いたBLEU

実験結果 比較手法 システム BLEUスコア ベースライン 24.6 CAP 24.8 CAP+(提案手法) 25.0 ベースライン: CAPを用いない場合 CAP : 汎化しないでCAPを用いた場合 CAP+ : (自動分類し)汎化したCAPを用いた場合 (提案手法) システム BLEUスコア ベースライン 24.6 CAP 24.8 CAP+(提案手法) 25.0 主張

結果例 (1/2) 入力文 ... アフガニスタン北東部で起きた地震の被災地では ... 正解例 ... quake struck areas along northeastern Afghanistan ... ベース ライン ... disaster area of the earthquake occurred in Afghanistan northeast ... CAP+ ... disaster area of the earthquake in Afghanistan northeast ...

結果例 (2/2) 入力文 ... 二十五日に行われる日韓首脳会談に.. 正解例 ... summit due to be held on the 25th ベース ライン ... summit meeting conducted on 25th CAP+ ... summit meeting on 25th

目次 用言対応コーパス 提案手法 実験 まとめ

まとめ 用言対応コーパスの構築法と分析結果について報告した 用言の省略を行う手法を提案した 今後の課題 人間はかならずしも用言を省略するとは限らない ⇒用言が省略されないパターンの収集も必要 可能なかぎり用言を省略する 実験結果は精度の向上を示したが,これは現状の機械翻訳が逐語訳的な結果を出力する傾向があるためであり, 今後は,用言が省略されないパターンの収集し 用言を翻訳しないといったオプションも考慮しながら適切に翻訳することが必要だと考える