構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法 鳥取大学工学部 知能情報工学科 ○田中 康仁 村上 仁一 徳久 雅人 池原 悟
研究の背景 機械翻訳 翻訳精度向上のため用例を用いる方法 従来の検索手法 品詞の並びのみで類似度を判断する用例検索 翻訳する文に対して表現の類似した文と その対訳をデータベースから検索することが必要 従来の検索手法 品詞の並びのみで類似度を判断する用例検索 → 多くの不適切な用例を検索 対策 係り受け関係を利用する方法 (兵藤,河田,応,池田:構文つきコーパスの作成と類似用例検索システムの応用) (谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム)
係り受けを用いた検索手法 係り受けを利用した検索アルゴリズム[1] 文節単位の係り受けの一致で類似文を検索 ([1]谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム) 文節単位の係り受けの一致で類似文を検索 一致文節ペア数 文節ペア数 3 A B C D DB A B C D 3 入力 出力 文節ペア A B D 2 … 複数文抽出 構文的制約(係り受け構造)を利用して検索 ・ 不適切な用例の絞込み ・ 入力文と最も近い係り受け関係を持つ文を抽出
本研究 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証 (2) 翻訳に利用できるかを調査するため、抽出文と入力文の対訳において類似性を判定(手動) (1) (1) 係り受け検索アルゴリズムを使用して、入力文に対するデータベースからの類似文抽出 (2) (1) 係り受け検索アルゴリズムを使用して、入力文に対するデータベースからの類似文抽出 (1) 係り受け検索アルゴリズムを使用して、入力文に対するデータベースからの類似文抽出 (1) (2) (2) 翻訳に利用できるかを調査するため、抽出文と入力文の対訳において類似性を判定(手動) 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証 (2) 翻訳に利用できるかを調査するため、抽出文と入力文の対訳において類似性を判定(手動) 抽出文 … 入力文 DB 入力文対訳 抽出文対訳 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証
類似文抽出実験 入力文に対してデータベース中から類似文を抽出 検索対象データベース(DB) 重・複文の例文集[2](約8万文) 入力文 ([2]村上,池原,徳久:日本語英語の文対応の対訳データベースの作成) 入力文 例文集から100文を選択 抽出文 各入力文対、例文集全文(入力文そのものを除く)で 抽出された文
文節の分類 品詞で類似性を判断 → 文の品詞列への置き換え ・ 品詞を18種に分類→DB全体の文節の種類:1,738種 品詞で類似性を判断 → 文の品詞列への置き換え 例:母は父の帰りを寝ないで待っています 名/副助 名/格助 名/格助 動/助動/助動 動/動/助動 (母/は) (父/の) (帰り/を) (寝/ない/で) (待っ/てい/ます) ・ 品詞を18種に分類→DB全体の文節の種類:1,738種
品詞列に置き換えた文節区切りの文に係り受け情報を付加 係り受け情報の付加 品詞列に置き換えた文節区切りの文に係り受け情報を付加 日英翻訳ソフト ALT-J/E (NTT) 例 : 母は父の帰りを寝ないで待っています 1 2 3 4 名/副助 名/格助 名/格助 動/助動/助動 動/動/助動 (母/は) (父/の) (帰り/を) (寝/ない/で) (待っ/てい/ます)
類似文抽出結果の例 母は父の帰りを寝ないで待っています 連中は私の失敗を影で笑っているに違いない 1 3 2 4 1 3 2 入力文 : 抽出文 : 連中は私の失敗を影で笑っているに違いない 1 3 2 4 名/副助 名/格助 名/格助 動/助動/助動 動/動/助動 入力文 (母/は) (父/の) (帰り/を) (寝/ない/で) (待っ/てい/ます) 抽出文総数 41 1 3 2 名/副助 名/格助 名/格助 名/格助 動/動/助動 抽出文 (連中/は) (私/の) (失敗/を) (影/で) (笑っ/ている/に違いない)
類似文抽出実験の結果 黒字:抽出文のあった入力文の数 赤字:抽出文の総数 係り受けの一致が存在した文数 97 = 入力文数 100
対訳の類似性の判定 ~ 用例翻訳への利用(有効性)の検討 ~ 対象:入力文と抽出されたDB文(抽出文)の間で 係り受け関係が一致している部分 入力文、抽出文双方で ・ 対訳の文法構造が同様 ・ 日本語、対訳において主語の位置が同じ 対訳に類似性があると判定
対訳類似性が有る例 1 3 2 4 5 He bought the car at a reasonable price. S V O C 1 入力文 名/副助 副用語 名/格助 形容詞 名/格助 動/助動 (彼/は) (その) (車/を) (手ごろな) (値段/で) (買っ/た) (対訳) He bought the car at a reasonable price. S V O C 抽出文総数 3 1 3 2 4 5 抽出文 名/副助 副用語 名/格助 形容詞 名/格助 動/助動 (プリズム/は) (その) (光/を) (様々な) (色/に) (分解し/た) (対訳) The prism resolved the light into various colors. S V O C
対訳類似性が無い例 1 2 3 4 This is an island remote from the mainland. S V C 1 入力文 名/副助 名/格助 名 動/助動 動/助動 (ここ/は) (本土/を) (遠く) (離れ/た) (島/だ) (対訳) This is an island remote from the mainland. S V C 抽出文総数 1 1 2 3 4 抽出文 名/副助 名/格助 名 動/助動 動/助動 (これ/は) (彼/から) (直接) (聞い/た) (話/です) (対訳) I heard this story direct from him. S V O
対訳類似性の判定結果 対訳に類似性があると判定した文 33 = 100 入力文数 黒字:類似性ありと判断した文の数 赤字:抽出文のあった入力文の数 対訳に類似性があると判定した文 33 = 入力文数 100
考察 不適切な抽出文の抽出 → 品詞種の分類法 適切な抽出文の抽出漏れ → 複合語の品詞列の多様さ 類似文抽出 対訳類似性判定 入力文:100文 97文 33文 類似性あり 抽出文あり 不適切な抽出文の抽出 → 品詞種の分類法 適切な抽出文の抽出漏れ → 複合語の品詞列の多様さ
不適切な抽出文の抽出例 品詞種別の詳細な分類 1 2 3 My cheeks flush with wine. 格の違い S V C 1 2 名/格助 動/接続助 名/格助 動 入力文 (酒/を) (飲ん/で) (顔/が) (ほてる) My cheeks flush with wine. 格の違い S V C 1 2 3 名/格助 動/接続助 名/格助 動 抽出文 (風/が) (吹く/と) (穂波/が) (打つ) The rice-ears wave in the wind. S V C 品詞種別の詳細な分類 対策
複合語による抽出漏れの例 複合語の単品詞化 1 3 2 4 私/は 事故現場/を 見/て 嘔吐/を 催し/た 1 3 2 4 彼ら/は 入力文 1 3 2 4 抽出漏れ 彼ら/は 運転手/を 告訴し/て 損害/賠償/を 求め/た 字面 損害/補償/を 嘔吐/を 文節 (名詞)+格助詞 = 品詞列 名詞+名詞+格助詞 ≠ 名詞+格助詞 複合語の単品詞化 対策
まとめ 係り受け関係を用いた用例検索 検索で抽出された抽出文の対訳の中に適切な文が存在 用例翻訳への利用
今後の課題 問題点 : 検索精度の向上 ・ 適切な抽出文の抽出もれ の抑制 ・ 不適切な抽出文の抽出 対策: 品詞種別の詳細な分類 ・ 適切な抽出文の抽出もれ の抑制 ・ 不適切な抽出文の抽出 対策: 品詞種別の詳細な分類 複合語の単品詞化 類似文検索への係り受け種別を用いた判定の追加
入力文とDB文の一致文節ペア数 入力文の係り受け文節ペア数が大きくても一致文節ペア数は平均して一定
対訳類似性が有る例 3 1 2 4 5 あの 人が 来ると 一座が ドッと 高笑いする He sets the table 入力文 あの 人が 来ると 一座が ドッと 高笑いする (対訳) He sets the table in a roar. S V O C 3 1 2 4 5 抽出文 あの 先生が 来ると クラスが ドッと 高笑いする (対訳) He sets the class in a roar. S V O C
他用言:動詞以外の用言(形容詞、形容動詞) 対訳類似性が無い例 1 2 3 名/格助 他用言/接続助 名/格助 他用言 入力文 (彼/は) (有能だ/が) (資格/は) (ない) He is competent but (he) does not belong. S V C 主語の違い 1 2 3 名/格助 他用言/接続助 名/格助 他用言 抽出文 (外/は) (寒い/が) (中/は) (暖かい) It is cold outside but it is warm inside. S V C 他用言:動詞以外の用言(形容詞、形容動詞)