整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun 東京大学大学院情報理工学系研究科 黒橋 禎夫 京都大学大学院情報学研究科
アラインメントの位置付け アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する 対訳 コーパス アライメント 翻訳知識 翻訳文 EBMT 入力文 翻訳 アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要!
アラインメント 統計翻訳(SMT) 用例ベース翻訳(EBMT) さまざまな確率的パラメータを学習 辞書などの言語資源は基本的には利用しない 頑健な数学的知識に基づいている 用例ベース翻訳(EBMT) 翻訳用例の獲得 辞書などの言語資源を積極的に利用 アドホックなルールを利用することが多い [Arul 01]
目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論
目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論
アラインメント Step1:依存構造解析 Step2:対応候補の探索 Step3:対応候補の選択 Step4:未対応部分の推定
Step1:依存構造解析 日本語:形態素解析器JUMAN/構文解析器KNP 英語:Charniak’s nlparser → ルールによる変換 J: 交差点で、突然あの車が 飛び出して来たのです。 E: The car came at me from the side at the intersection. 交差 点 で 、 突然 あの 車 が 飛び出して 来た のです the car came at me from the side at the intersection
Step2:対応候補の探索 対訳辞書 (研究社の和英・英和辞書) 数字の汎化 (二十三 ⇔ twenty three) Transliteration (新宿 ⇔ Shinjuku) 交差 点 で 、 突然 あの 車 が 飛び出して 来た のです the car came at me from the side at the intersection
Step3:対応候補の選択 曖昧性がある候補や、不適切な候補も見つかる
曖昧な対応の例 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan
このステップが 最も重要! Step3:対応候補の選択 詳細は後ほど。。。 曖昧性がある候補や、不適切な候補も見つかる → 様々な対応候補から適切なものを取捨選択 する必要がある このステップが 最も重要! 詳細は後ほど。。。
Step4:未対応部分の推定 残っているルートノード同士を対応付ける 名詞句内のノードをまとめる そのほかは親ノードへまとめる 交差 the car 点 で 、 came 突然 at me あの from the side 車 が at the intersection 飛び出して 来た のです
目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論
アラインメントの整合性 1 対 複数、複数 対 複数などの曖昧な対応 曖昧ではないが誤った対応 (中国=中 ⇔ in)
曖昧な対応の例 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan
アラインメントの整合性 1 対 多、多 対 多などの曖昧な対応 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要
アラインメントの整合性 近い! 遠い!
アラインメントの整合性 1対複数、複数対複数などの曖昧な対応 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数
ベースライン手法 曖昧性のない対応候補は無条件で採用 曖昧性のある対応候補は整合性尺度を利用 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 距離-スコア関数
スコア計算例 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan
ベースライン手法 曖昧性のない対応候補は無条件で採用 曖昧性のある対応候補は整合性尺度を利用 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 距離-スコア関数 距離と距離-スコア関数を改善
距離-スコア関数の改善(1/2) 毎日新聞4万対訳文のアラインメント正解データで距離ペアの頻度分布を計数 [Uchimoto04] 頻度のlog 英語側の距離 日本語側の距離 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数
距離-スコア関数の改善(2/2) 距離が近い同士のペア → プラス 距離が遠い同士のペア → 0 距離が近いものと遠いものとのペア → マイナス スコア 英語側の距離 日本語側の距離 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数
係り受けタイプと距離 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file 3 1 2 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan デ格 文節内 連用 ノ格 ガ格 NP NN PP 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数
係り受けタイプと距離 日本語 用言:レベルC 6 用言:レベルB+ / B 5 用言:レベルB- / A 4 ト格 ヲ格 / ニ格 / デ格 3 ガ格 / ノ格 / 連体 2 文節内 1 用言:レベルA+ 英語 S / SBAR / SA / : 5 VP / ADVP 4 ADJP / WHADVP WHADJP NP / PP / INTJ 3 QP / PRT / PRN others 2
距離を利用した整合性計算 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file 3 1 2 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan デ格 文節内 連用 ノ格 ガ格 NP NN PP 距離=(1,1) スコア + 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数
距離を利用した整合性計算 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file 3 3 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan デ格 文節内 連用 ノ格 ガ格 NP NN PP 1 1 1 3 1 1 2 距離=(1,7) スコア - 2 3 3 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数
アラインメントの整合性尺度 日本 で 保険 会社 に 対して 請求 の 申し立て が 可能です よ you will have to file insurance an claim with the office in Japan 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数
目次 研究背景 用例ベース翻訳におけるアラインメント 整合性尺度を用いた構造的アラインメント 実験と考察 結論
アラインメント実験 毎日新聞対訳コーパスからランダムに500文 正解データとの比較 対訳辞書 日本語:文字単位 英語:単語単位 日本語:文字単位 英語:単語単位 適合率・再現率・F値 対訳辞書 研究社 和英 36K 見出し 214K エントリー 研究社 英和 50K 見出し 303K エントリー
精度の計算例 9 適合率(P)= =75% 12 9 再現率(R)= =82% 11 F値= PとRの調和平均 =78% E1 E2 E3 J1 J2 J3 J4 J5 J6 J7 J8 J9 12 9 =75% 適合率(P)= 11 9 =82% 再現率(R)= F値= PとRの調和平均 =78%
結果と考察 距離-スコア関数改善により大幅な適合率向上 係り受け距離を考慮することにより全体的な精度の向上 適合率 再現率 F値 ベースライン 60.26 61.68 58.79 +距離-スコア関数改善 64.35 61.58 60.81 +係り受け距離 64.93 62.64 61.91 GIZA++ (with JUMAN) 59.9 17.0 26.4 距離-スコア関数改善により大幅な適合率向上 係り受け距離を考慮することにより全体的な精度の向上
改善例(1) J:妥当な判決であると評価したい。 E:I would like to commend that it was a reasonable judgment.
改善例(2) J:チェチェン紛争は、東欧諸国の北大西洋条約機構への加盟要求を一層高めることになろう。 E:The Chechen conflict will accelerate the call for the participation of Eastern European nations in NATO
結論と今後の課題 係り受けタイプと距離-スコア関数を導入 アラインメントの整合性尺度を定義し、適切な対応候補の選択を可能とすることにより、アラインメント精度の向上に成功 係り受けタイプに基づく距離を自動学習 距離スコア関数のチューニング 他の有効なフィーチャの導入