Presentation is loading. Please wait.

Presentation is loading. Please wait.

結合価文法による動詞と 名詞の訳語選択能力の評価

Similar presentations


Presentation on theme: "結合価文法による動詞と 名詞の訳語選択能力の評価"— Presentation transcript:

1 結合価文法による動詞と 名詞の訳語選択能力の評価
鳥取大学大学院工学研究科 金出地真人  徳久雅人       村上仁一   池原悟

2 I spend summer vacation.
研究の背景 複数の訳語を持つ語の 訳語選択の問題 例:送る    I send a letter. I see her off. I spend summer vacation. 結合価文法による翻訳方式

3 結合価文法による訳語選択 結合価パターン対の例 N1(人) が N2(休暇) を 送る N1 spend N2
見出し語:『送る』  パターン数12 N1(人) が N2(休暇) を 送る  N1 spend N2 N1(人) が N2(生活) を 送る  N1 live N2   用言と格要素(体言+助詞)の関係を記述 一般名詞意味属性によって体言を制約

4 [ ] 一般名詞意味属性体系 約40万語の一般名詞を最大12段の木構造を構成する2710の意味属性に分類 名 詞 抽 象 具 体 主 体
名  詞 抽  象 具  体 主  体 抽象物 場  所 [  ] 私、彼、彼女… 岩波書店 1997 日本語語彙体系より

5 パターンの例文への適用方法 例:彼は友人を家まで送った。 … 1.用言『送る』のパターンを検索 見出し語:送る
(1) N1(人) が N2(休暇) を 送る  N1 spend N2 (2) N1(人) が N2(生活) を 送る  N1 live N2 (3) N1(主体)が N2(主体) を N3(場所) に/へ/まで 送る N1 see N2 to N3              2.格要素、意味属性、助詞の適合率からパターンを決定 3.パターンの意味属性による体言の訳語選択 『家』の意味属性と訳語 <家族>:home、<居住施設>:house、<家屋>:house

6 研究の目的 結合価文法の効果が定量的には不明 評価実験で定量的に検証 結合価文法の有効性を考察

7 評価実験 実験の手順 評価対象:IPAL辞書 [情報処理振興事業協会技術センター 1996] 1.結合価文法を用いて例文を翻訳
2.正解例と1の翻訳結果を比較、評価 評価対象:IPAL辞書 [情報処理振興事業協会技術センター 1996] ・重要な日本語基本動詞、名詞を収録 ・各単語の用法ごとに日本語例文付 ・例文の英訳は翻訳家により作成 ・例文は多くが単文 ・例文数:動詞5242文、名詞1062文

8 結合価文法の適用方法 実験システム:ALT-J/E ・結合価文法の人手ででの適用は困難 ↓ ・翻訳ソフト『ALT-J/E』を使用 <特徴>
            ↓ ・翻訳ソフト『ALT-J/E』を使用 実験システム:ALT-J/E <特徴> ・翻訳アルゴリズムに結合価文法を使用 <問題点> ・頻度情報によりパターンを決定           ↓ ・人手による適用より精度が高い可能性

9 評価基準 ・対象とする動詞、名詞部分のみ評価 ・評価は『○』『△』『×』の三段階 ・評価者1名で判断
評価○:ALTの訳と対訳の訳語が一致した場合 例:二つの川がこの地点で合う。 対訳:The two rivers join at this point. ALT訳:Two rivers join in this point.

10 評価△:ALTと対訳の訳語が異なるが、      意味的に正しい場合 例:彼は準備を急いだ。 対訳:He prepared quickly. ALT訳:He hurried preparation. 評価×:ALTの訳が意味的にも間違っている場合   例:彼らは海底に沈んでいた船を陸に揚げた。   対訳:They salvaged the sunken vessel on the bottom of the sea. ALT訳:They deep-fried in land the ships that had sunk in the bottom of the sea.

11 比較対象 デフォルト訳語 ・各単語の訳語で最もよく使われる語 ・PROCEED和英辞書の先頭に表記されている語 例:『送る』
  例:『送る』 ①【荷物などを】send ← デフォルト訳語に決定 ②【人を】(見送る)see ③【時を過ごす】spend ・評価基準はALTと同じ基準

12 実験結果(動詞) 評 価 ALT-J/E デフォルト ○ △ × 合 計 5242文 正解率 49% 2572文 22% 1141文
評 価 ALT-J/E デフォルト 49% 2572文 22% 1141文 40% 2081文 33% 1740文 × 11% 589文 45% 2361文 合 計 5242文 正解率 89% 4653文 55% 2881文

13 実験結果(名詞) 評 価 ALT-J/E デフォルト ○ △ × 合 計 1062文 正解率 62% 658文 58% 615文
評 価 ALT-J/E デフォルト 62% 658文 58% 615文 29% 312文 27% 289文 × 9% 92文 15% 158文 合 計 1062文 正解率 91% 970文 85% 904文

14 考察(動詞) 実験結果より結合価文法により89%の例文に対し、意味の正しい動詞の訳語を選択 11%の例文について訳語選択に失敗 ↓
11%の例文について訳語選択に失敗              ↓     原因を調査し結合価文法の           有効性の限界を調査

15 正しい動詞訳語を選択できなかった原因 ・5242文中誤り589文→122文調査 翻訳失敗の原因 割 合 1 パターンが登録されていない場合
割  合 パターンが登録されていない場合 21% 26文 パターンの照合に失敗した場合 37% 45文 慣用表現が用いられている場合 11% 13文 形態素解析に失敗した場合  9% 11文 係り受け解析に失敗した場合 17% 21文 例文が複数の意味にとれる場合  5% 6文 合計  122文

16 例:N1(人) が N2(人) に N3(状態) を 伺う N1 ask N2’s N3
1.パターンが登録されていない場合(21%) 例:学生が教授に教授の都合を電話で伺った。 対訳:The student phoned the professor and asked him when he would be free. ALT:A student listened the professor’s circumstances  with a telephone to a professor. 例文に対応したパターンなし 結合価文法を使えず訳語選択に失敗 足りないパターンの追加により解決 例:N1(人) が N2(人) に N3(状態) を 伺う N1 ask N2’s N3

17 パターン照合アルゴリズムの修正により改善の余地有り
2.パターンの照合に失敗した場合(37%) 例:彼は海外で夏休みを送った。 対訳:He spend his summer vacation abroad. ALT:He saw a summer vacation off at a foreign country . 動詞『送る』のパターン 「N1(主体) が N2(主体) を N3(場所) で 送る N1 see N2 off at N3」 「N1(人) が N2(休暇、時間) を 送る N1 spend N2」                    : ALTがパターン照合に失敗 パターン照合アルゴリズムの修正により改善の余地有り

18 3.慣用表現が用いられている場合(11%) 例:彼は話の腰を折った。
対訳:He interrupted a person’s speech. ALT訳:He broke the waist of talk.    慣用表現専用のパターンの登録が必要   例:N1(人)が話の腰を折る N1 interrupt a person’s speech

19 4.形態素解析に失敗した場合(9%) 5.係り受け解析に失敗した場合(17%) 訳語選択の問題ではないので対象外
・訳語選択を行なう前処理の問題          ↓ ・正しく処理されることが前提条件 訳語選択の問題ではないので対象外

20 ? ? 6.例文が複数の意味にとれる場合(5%) 結合価文法による訳し分けの限界 例文に対応するパターン
例:職場の不満から彼は家族の者に当たった。 対訳:He was hard on his family because of complaints he had about his job. ALT訳:He corresponded to the person of his family from the discontent of a place of work. 例文に対応するパターン 「N1(人) が N2(人) に当たる」 ? be hard on ? correspond to 結合価文法による訳し分けの限界

21 パターン数別の正解率 ・パターン数の増加による訳語精度の向上 ・パターン数の増加によるパターン選択ミスの可能性 ↓
パターンの数が多いとパターン選択が困難 パターン数 0個 1~5個 5~10個 11個以上 50% 48% 56% 28% 43% 37% × 22% 9% 7% 13%

22 動詞のまとめ 結合価文法の有効性 結合価文法の限界 ・評価実験の結果、89%の正解率 ・原因の解決により9~10%の精度向上
・文脈上複数の意味にとれる文に対しては一意に決定不可

23 考察(名詞) 原因 デフォルトの訳語に比べ6%の精度向上 ↓ 動詞の評価結果に比べ効果少 IPAL名詞の約5割が多義なし ↓
            ↓ 動詞の評価結果に比べ効果少 原因 IPAL名詞の約5割が多義なし          ↓  デフォルトの正解率の上昇 ・結合価文法は用言の訳語選択を目的に開発

24 正しい名詞訳語を選択できなかった原因 ・調査文数1062文 翻訳失敗の原因 割 合 1 パターンが登録されていない場合 39% 36文 2
割  合 パターンが登録されていない場合 39% 36文 パターンの照合に失敗した場合 4% 4文 パターンの格要素の制約が弱い場合 17% 16文 対象の名詞がパターンの要素外 8% 7文 形態素解析に失敗した場合 5% 5文 慣用表現 24% 22文 見出し語の名詞が辞書未登録の場合 2% 2文 合計 92文

25 3.パターンの格要素の制約が弱い場合(17%)
例:彼は相手に 意向 を質した。 対訳:He asked the other party of their intention. ALT訳:He asked his partner about a mind. 例文に対応するパターン 「N1(主体)がN2(主体)にN3(抽象)を質す」 名詞 意向の意味属性と英訳語 <意図>:intention <思想>:mind      ↓ いずれの意味属性も<抽象> 配下のため、一意に決定不可 具体 抽象 思想 意図

26 解決手段の考察 原因 ・意味属性の深いパターンを追加 例:「N1(主体)がN2(主体)にN3(意図)を質す」 ↓ 正しいパターン選択は困難
             ↓      正しいパターン選択は困難 パターンですべての意味属性を一意に決定不可 原因 ・パターンは用言の訳し分けが目的           ↓ ・用言の英訳語が同じ場合、他のパターンと  区別できるだけの意味属性の定義で充分

27 4.対象の名詞がパターンの要素外の場合(8%)
例:逃亡した男は地方で生き延びている。 対訳:The man who escaped is surviving in the countryside. ALT訳:The man who escaped has survived in a district. 例に対応するパターン 「N1(主体、動物)が生き延びる」          ↓ 『地方』を含む格要素はパターン外 解決の可能性 パターンに任意格の追加 例:「 N1(主体、動物)が 【N2(村落)で】 生き延びる」

28 6.慣用表現(24%) 例:彼女は亭主を尻に敷いている。 対訳:She dominates her husband.
ALT訳:She is spreading her husband out on the back. ・動詞の場合と同様に個別のパターンを登録で解決 例:「N1(主体)がN2(主体)を尻に敷く  N1dominate N2」 その他の原因 パターンの追加などによる解決は不明 (∵原因3、4より)

29 先行研究との比較 先行研究(桐澤 2000) ・意味属性によるIPALの名詞の訳し分け精度を調査 分類 訳語多義なし 場合により可能
割合 名 詞 の 例 見出し 意味属性 英訳語 訳語多義なし 56.4% <岩石> rock 一意に絞り込み可能 24.0% スキー <スポーツ> skiing <遊び道具、運動具> ski 場合により可能 3.5% 委員 <成員><複数> committee <成員><単数> member of committee 絞込み可能 10.5% <作物 繊維> flax 亜麻とその繊維 hemp 大麻とその繊維 <糸・布> linen 麻製品 不可能 5.7% <牙> tusk  象など fang  犬や猫

30 本研究の結果との対比 意味属性によって訳し分け精度が若干向上 分類 各分類の訳し分け精度 ○ △ × 訳語多義なし 71% 25% 4%
(先行研究より) 各分類の訳し分け精度 × 訳語多義なし 71% 25% 4% 一意に絞り込み可能 56% 32% 12% 場合により可能 49% 42% 9% 絞り込み可能 44% 40% 15% 不可能 52% 16%

31 本研究の結果との対比 4% 12% 9% 15% 16% 分類 ・意味属性決定による訳し分け精度の効果を確認 訳語多義なし 場合により可能
名 詞 の 例 見出し 意味属性 英訳語 訳語多義なし <岩石> rock 一意に絞り込み可能 スキー <スポーツ> skiing <遊び道具、運動具> ski 場合により可能 委員 <成員><複数> committee <成員><単数> member of committee 絞込み可能 <作物 繊維> flax 亜麻とその繊維 hemp 大麻とその繊維 <糸・布> linen 麻製品 不可能 <牙> tusk  象など fang  犬や猫 本研究における誤り率 4% 12% 9% 15% 16%

32 名詞のまとめ 結合価文法の限界 結合価文法の有効性 ・評価の結果、正解率がデフォルトより6%向上
      結合価文法の有効性 ・評価の結果、正解率がデフォルトより6%向上 ・慣用表現のパターン追加により3%の精度向上       結合価文法の限界 ・パターンの定義外の名詞は訳し分け不可 ・すべての名詞についてパターンの登録は不可

33 まとめ 正解率 限界 今後の課題 ・IPAL辞書の基本動詞、名詞の訳し分け精度を調査 動詞89%(デフォルト55%)、名詞91%(85%)
動詞98~99%、名詞94% 今後の課題 ・IPAL辞書以外の動詞、名詞への効果調査


Download ppt "結合価文法による動詞と 名詞の訳語選択能力の評価"

Similar presentations


Ads by Google