整合性尺度を用いた 構造的対訳文アラインメント

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
形態素周辺確率を用いた 分かち書きの一般化とその応用
自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳
国内線で新千歳空港を利用している航空会社はどこですか?
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
All Rights Reserved, Copyright (C) Donovan School of English
英語勉強会.
5か ぶんぽう ふくしゅう.
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
部分木に基づくマルコフ確率場と言語解析への適用
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
重文・複文の基本文型に対する 文型パターン辞書のカバー率
述語項構造に基づいた統計 翻訳における語句の並べ替え
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
PlanetLab における 効率的な近隣サーバ選択法
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
日本語辞書整備のための 日本語カタカナ複合名詞の自動分割
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
Kyoto-U: Syntactical EBMT System for NTCIR-7 Patent Translation Task
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
雑音環境下における 非負値行列因子分解を用いた声質変換
コンポーネントランク法を用いたJavaクラス分類手法の提案
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
分子生物情報学(2) 配列のマルチプルアライメント法
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
統語構造に基づく入力文分割と そのハイブリッド音声翻訳への応用
統計的機械翻訳における フレーズ対応最適化を用いた 翻訳候補のリランキング
超大規模ウェブコーパスを用いた 分布類似度計算
決定木-II 学習目標 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比
Number of random matrices
東京工科大学 コンピュータサイエンス学部 亀田弘之
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
ベイズ最適化 Bayesian Optimization BO
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ベイズ音声合成における 事前分布とモデル構造の話者間共有
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
大規模コーパスに基づく同義語・多義語処理
もっていきます・もってきます.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
並列構造に着目した係り受け解析の改善に関する研究
Webページタイプによるクラスタ リングを用いた検索支援システム
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
雑音環境下における Sparse Coding声質変換 3-P-49d
Presentation transcript:

整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun  東京大学大学院情報理工学系研究科 黒橋 禎夫 京都大学大学院情報学研究科

アラインメントの位置付け アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する 対訳 コーパス アライメント 翻訳知識 翻訳文 EBMT 入力文 翻訳 アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要!

アラインメント 統計翻訳(SMT) 用例ベース翻訳(EBMT) さまざまな確率的パラメータを学習 辞書などの言語資源は基本的には利用しない 頑健な数学的知識に基づいている 用例ベース翻訳(EBMT) 翻訳用例の獲得 辞書などの言語資源を積極的に利用 アドホックなルールを利用することが多い [Arul 01]

目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論

目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論

アラインメント Step1:依存構造解析 Step2:対応候補の探索 Step3:対応候補の選択 Step4:未対応部分の推定

Step1:依存構造解析 日本語:形態素解析器JUMAN/構文解析器KNP 英語:Charniak’s nlparser → ルールによる変換 J: 交差点で、突然あの車が 飛び出して来たのです。 E: The car came at me from the side at the intersection. 交差 点 で 、 突然 あの 車 が 飛び出して 来た のです the car came at me from the side at the intersection

Step2:対応候補の探索 対訳辞書 (研究社の和英・英和辞書) 数字の汎化 (二十三 ⇔ twenty three) Transliteration (新宿 ⇔ Shinjuku) 交差 点 で 、 突然 あの 車 が 飛び出して 来た のです the car came at me from the side at the intersection

Step3:対応候補の選択 曖昧性がある候補や、不適切な候補も見つかる

曖昧な対応の例 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan

このステップが 最も重要! Step3:対応候補の選択 詳細は後ほど。。。 曖昧性がある候補や、不適切な候補も見つかる    → 様々な対応候補から適切なものを取捨選択       する必要がある このステップが 最も重要! 詳細は後ほど。。。

Step4:未対応部分の推定 残っているルートノード同士を対応付ける 名詞句内のノードをまとめる そのほかは親ノードへまとめる 交差 the car 点 で 、 came 突然 at me あの from the side 車 が at the intersection 飛び出して 来た のです

目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論

アラインメントの整合性 1 対 複数、複数 対 複数などの曖昧な対応 曖昧ではないが誤った対応 (中国=中 ⇔ in)

曖昧な対応の例 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan

アラインメントの整合性 1 対 多、多 対 多などの曖昧な対応 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要

アラインメントの整合性 近い! 遠い!

アラインメントの整合性 1対複数、複数対複数などの曖昧な対応 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数

ベースライン手法 曖昧性のない対応候補は無条件で採用 曖昧性のある対応候補は整合性尺度を利用 一つの枝の距離はすべて1   → 二つの対応間の距離=木構造上での移動距離 距離-スコア関数

スコア計算例 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan

ベースライン手法 曖昧性のない対応候補は無条件で採用 曖昧性のある対応候補は整合性尺度を利用 一つの枝の距離はすべて1   → 二つの対応間の距離=木構造上での移動距離 距離-スコア関数 距離と距離-スコア関数を改善

距離-スコア関数の改善(1/2) 毎日新聞4万対訳文のアラインメント正解データで距離ペアの頻度分布を計数 [Uchimoto04] 頻度のlog 英語側の距離 日本語側の距離 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数

距離-スコア関数の改善(2/2) 距離が近い同士のペア → プラス 距離が遠い同士のペア → 0 距離が近いものと遠いものとのペア → マイナス スコア 英語側の距離 日本語側の距離 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数

係り受けタイプと距離 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file 3 1 2 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan デ格 文節内 連用 ノ格 ガ格 NP NN PP 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数

係り受けタイプと距離 日本語 用言:レベルC 6 用言:レベルB+ / B 5 用言:レベルB- / A 4 ト格 ヲ格 / ニ格 / デ格 3 ガ格 / ノ格 / 連体 2 文節内 1 用言:レベルA+ 英語 S / SBAR / SA / : 5 VP / ADVP 4 ADJP / WHADVP WHADJP NP / PP / INTJ 3 QP / PRT / PRN others 2

距離を利用した整合性計算 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file 3 1 2 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan デ格 文節内 連用 ノ格 ガ格 NP NN PP 距離=(1,1) スコア + 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数

距離を利用した整合性計算 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file 3 3 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan デ格 文節内 連用 ノ格 ガ格 NP NN PP 1 1 1 3 1 1 2 距離=(1,7) スコア - 2 3 3 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数

アラインメントの整合性尺度 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数

目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論

アラインメント実験 毎日新聞対訳コーパスからランダムに500文 正解データとの比較 対訳辞書 日本語:文字単位 英語:単語単位 日本語:文字単位  英語:単語単位 適合率・再現率・F値 対訳辞書 研究社 和英 36K 見出し 214K エントリー 研究社 英和 50K 見出し 303K エントリー

精度の計算例 9 適合率(P)= =75% 12 9 再現率(R)= =82% 11 F値= PとRの調和平均 =78% E1 E2 E3 J1 J2 J3 J4 J5 J6 J7 J8 J9 12 9 =75% 適合率(P)= 11 9 =82% 再現率(R)= F値= PとRの調和平均 =78%

結果と考察 距離-スコア関数改善により大幅な適合率向上 係り受け距離を考慮することにより全体的な精度の向上 適合率 再現率 F値 ベースライン 60.26 61.68 58.79 +距離-スコア関数改善 64.35 61.58 60.81 +係り受け距離 64.93 62.64 61.91 GIZA++ (with JUMAN) 59.9 17.0 26.4 距離-スコア関数改善により大幅な適合率向上 係り受け距離を考慮することにより全体的な精度の向上

改善例(1) J:妥当な判決であると評価したい。 E:I would like to commend that it was a reasonable judgment.

改善例(2) J:チェチェン紛争は、東欧諸国の北大西洋条約機構への加盟要求を一層高めることになろう。 E:The Chechen conflict will accelerate the call for the participation of Eastern European nations in NATO

結論と今後の課題 係り受けタイプと距離-スコア関数を導入 アラインメントの整合性尺度を定義し、適切な対応候補の選択を可能とすることにより、アラインメント精度の向上に成功 係り受けタイプに基づく距離を自動学習 距離スコア関数のチューニング 他の有効なフィーチャの導入