結合価文法による動詞と 名詞の訳語選択能力の評価

Slides:



Advertisements
Similar presentations
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
Advertisements

自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
現在完了形 (present perfect tense)
構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法
過去のことを更に表現してみよう.
意味属性の共起による 「AのB」型名詞句の翻訳規則
Note for How to Write an English Paper (2014 Second Semester)
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
All Rights Reserved, Copyright (C) Donovan School of English
間接疑問文 I know him. I know (that) he is a doctor. ↓ why he is a doctor.
Dont’ Ask Me That Question!
「~です」は主語によって am is are を使い分けます。
動詞 スライドショウを実行し、左クリック(一回)しながら読んでください。
授与動詞(あげる).
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
関係代名詞(目的格).
関係代名詞 目的格の関係代名詞.
中学3年 英語 主格の関係代名詞 (who, which).
関係代名詞 Fruit Basket Turnover 関係代名詞は フルーツバスケットで導入 Anyone who has a catなど
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
Super-Functionに基づく日英機械翻訳
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
もう~終わった?.
逆引き辞書の作成を可能にする 対訳辞書編集システムの構築
~知ってる? 間接疑問文.
統率・束縛理論2.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
英語特別講座 代名詞・前置詞・形容詞・助動詞 #1   
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
重文・複文の基本文型に対する 文型パターン辞書のカバー率
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
使役のmake.
形態素解析および係り受け解析・主語を判別
ドメインという概念及び 日本語文法ペダゴジーでの応用
~してほしい.
定期考査2 英語.
Presentation by Hiroshi Kaga
整合性尺度を用いた 構造的対訳文アラインメント
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
関係代名詞 that.
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Possessive ~所有格~.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
日本のさまざまな地域の食べ物.
New York Times Translations
My Favorite Movie I will introduce my favorite movie.
関係代名詞(接触節) 目的格の関係代名詞の省略.
完了を表す現在完了形 ~してしまった.
受け身の疑問文 Practice ~ed・・・?.
(社) 建設コンサルタンツ協会 技術委員会/照査に関する特別WG
Smiley.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
シナリオのアニメーション表示による 妥当性確認支援
Get in/out of Get on/off
超大規模ウェブコーパスを用いた 分布類似度計算
より詳しく、より効果的に 相手に伝えよう.
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
Because & when 接続詞の用法.
The difference between adjectives and adverbs
英文法活用アクティビティ 英文法のポイントを理解させた後に、それを使った文例を暗唱し、実際に使ってみることで、そのルールを定着させ、スピーキングやライティングでも使えるようにする。 CAN-DO: 不定詞の副詞的用法を「〜するために」という意味で使い言いたいことを伝えることができる。
並列構造に着目した係り受け解析の改善に関する研究
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Elements of Style Rule 7-11 (P7-14)
識別子の読解を目的とした名詞辞書の作成方法の一試案
Indirect Speech 間接話法 Kaho.I.
Presentation transcript:

結合価文法による動詞と 名詞の訳語選択能力の評価 鳥取大学大学院工学研究科 金出地真人  徳久雅人       村上仁一   池原悟

I spend summer vacation. 研究の背景 複数の訳語を持つ語の 訳語選択の問題 例:送る    I send a letter. I see her off. I spend summer vacation. 結合価文法による翻訳方式

結合価文法による訳語選択 結合価パターン対の例 N1(人) が N2(休暇) を 送る N1 spend N2 見出し語:『送る』  パターン数12 N1(人) が N2(休暇) を 送る  N1 spend N2 N1(人) が N2(生活) を 送る  N1 live N2   … 用言と格要素(体言+助詞)の関係を記述 一般名詞意味属性によって体言を制約

[ ] 一般名詞意味属性体系 約40万語の一般名詞を最大12段の木構造を構成する2710の意味属性に分類 名 詞 抽 象 具 体 主 体 名  詞 抽  象 具  体 主  体 抽象物 事 場  所 人 [  ] 私、彼、彼女… 岩波書店 1997 日本語語彙体系より

パターンの例文への適用方法 例:彼は友人を家まで送った。 … 1.用言『送る』のパターンを検索 見出し語:送る (1) N1(人) が N2(休暇) を 送る  N1 spend N2 (2) N1(人) が N2(生活) を 送る  N1 live N2 (3) N1(主体)が N2(主体) を N3(場所) に/へ/まで 送る N1 see N2 to N3              2.格要素、意味属性、助詞の適合率からパターンを決定 3.パターンの意味属性による体言の訳語選択 『家』の意味属性と訳語 <家族>:home、<居住施設>:house、<家屋>:house …

研究の目的 結合価文法の効果が定量的には不明 評価実験で定量的に検証 結合価文法の有効性を考察

評価実験 実験の手順 評価対象:IPAL辞書 [情報処理振興事業協会技術センター 1996] 1.結合価文法を用いて例文を翻訳 2.正解例と1の翻訳結果を比較、評価 評価対象:IPAL辞書 [情報処理振興事業協会技術センター 1996] ・重要な日本語基本動詞、名詞を収録 ・各単語の用法ごとに日本語例文付 ・例文の英訳は翻訳家により作成 ・例文は多くが単文 ・例文数:動詞5242文、名詞1062文

結合価文法の適用方法 実験システム:ALT-J/E ・結合価文法の人手ででの適用は困難 ↓ ・翻訳ソフト『ALT-J/E』を使用 <特徴>             ↓ ・翻訳ソフト『ALT-J/E』を使用 実験システム:ALT-J/E <特徴> ・翻訳アルゴリズムに結合価文法を使用 <問題点> ・頻度情報によりパターンを決定           ↓ ・人手による適用より精度が高い可能性

評価基準 ・対象とする動詞、名詞部分のみ評価 ・評価は『○』『△』『×』の三段階 ・評価者1名で判断 評価○:ALTの訳と対訳の訳語が一致した場合 例:二つの川がこの地点で合う。 対訳:The two rivers join at this point. ALT訳:Two rivers join in this point.

評価△:ALTと対訳の訳語が異なるが、      意味的に正しい場合 例:彼は準備を急いだ。 対訳:He prepared quickly. ALT訳:He hurried preparation. 評価×:ALTの訳が意味的にも間違っている場合   例:彼らは海底に沈んでいた船を陸に揚げた。   対訳:They salvaged the sunken vessel on the bottom of the sea. ALT訳:They deep-fried in land the ships that had sunk in the bottom of the sea.

比較対象 デフォルト訳語 ・各単語の訳語で最もよく使われる語 ・PROCEED和英辞書の先頭に表記されている語 例:『送る』   例:『送る』 ①【荷物などを】send ← デフォルト訳語に決定 ②【人を】(見送る)see ③【時を過ごす】spend ・評価基準はALTと同じ基準

実験結果(動詞) 評 価 ALT-J/E デフォルト ○ △ × 合 計 5242文 正解率 49% 2572文 22% 1141文 評 価 ALT-J/E デフォルト ○ 49% 2572文 22% 1141文 △ 40% 2081文 33% 1740文 × 11% 589文 45% 2361文 合 計 5242文 正解率 89% 4653文 55% 2881文

実験結果(名詞) 評 価 ALT-J/E デフォルト ○ △ × 合 計 1062文 正解率 62% 658文 58% 615文 評 価 ALT-J/E デフォルト ○ 62% 658文 58% 615文 △ 29% 312文 27% 289文 × 9% 92文 15% 158文 合 計 1062文 正解率 91% 970文 85% 904文

考察(動詞) 実験結果より結合価文法により89%の例文に対し、意味の正しい動詞の訳語を選択 11%の例文について訳語選択に失敗 ↓ 11%の例文について訳語選択に失敗              ↓     原因を調査し結合価文法の           有効性の限界を調査

正しい動詞訳語を選択できなかった原因 ・5242文中誤り589文→122文調査 翻訳失敗の原因 割 合 1 パターンが登録されていない場合 割  合 1 パターンが登録されていない場合 21% 26文 2 パターンの照合に失敗した場合 37% 45文 3 慣用表現が用いられている場合 11% 13文 4 形態素解析に失敗した場合  9% 11文 5 係り受け解析に失敗した場合 17% 21文 6 例文が複数の意味にとれる場合  5% 6文 合計  122文

例:N1(人) が N2(人) に N3(状態) を 伺う N1 ask N2’s N3 1.パターンが登録されていない場合(21%) 例:学生が教授に教授の都合を電話で伺った。 対訳:The student phoned the professor and asked him when he would be free. ALT:A student listened the professor’s circumstances  with a telephone to a professor. 例文に対応したパターンなし ↓ 結合価文法を使えず訳語選択に失敗 足りないパターンの追加により解決 例:N1(人) が N2(人) に N3(状態) を 伺う N1 ask N2’s N3

パターン照合アルゴリズムの修正により改善の余地有り 2.パターンの照合に失敗した場合(37%) 例:彼は海外で夏休みを送った。 対訳:He spend his summer vacation abroad. ALT:He saw a summer vacation off at a foreign country . 動詞『送る』のパターン 「N1(主体) が N2(主体) を N3(場所) で 送る N1 see N2 off at N3」 「N1(人) が N2(休暇、時間) を 送る N1 spend N2」                    : ALTがパターン照合に失敗 ↓ パターン照合アルゴリズムの修正により改善の余地有り

3.慣用表現が用いられている場合(11%) 例:彼は話の腰を折った。 対訳:He interrupted a person’s speech. ALT訳:He broke the waist of talk.    慣用表現専用のパターンの登録が必要   例:N1(人)が話の腰を折る N1 interrupt a person’s speech

4.形態素解析に失敗した場合(9%) 5.係り受け解析に失敗した場合(17%) 訳語選択の問題ではないので対象外 ・訳語選択を行なう前処理の問題          ↓ ・正しく処理されることが前提条件 訳語選択の問題ではないので対象外

? ? 6.例文が複数の意味にとれる場合(5%) 結合価文法による訳し分けの限界 例文に対応するパターン 例:職場の不満から彼は家族の者に当たった。 対訳:He was hard on his family because of complaints he had about his job. ALT訳:He corresponded to the person of his family from the discontent of a place of work. 例文に対応するパターン 「N1(人) が N2(人) に当たる」 ? be hard on ? correspond to 結合価文法による訳し分けの限界

パターン数別の正解率 ・パターン数の増加による訳語精度の向上 ・パターン数の増加によるパターン選択ミスの可能性 ↓ パターンの数が多いとパターン選択が困難 パターン数 0個 1~5個 5~10個 11個以上 ○ 50% 48% 56% △ 28% 43% 37% × 22% 9% 7% 13%

動詞のまとめ 結合価文法の有効性 結合価文法の限界 ・評価実験の結果、89%の正解率 ・原因の解決により9~10%の精度向上 ・文脈上複数の意味にとれる文に対しては一意に決定不可

考察(名詞) 原因 デフォルトの訳語に比べ6%の精度向上 ↓ 動詞の評価結果に比べ効果少 IPAL名詞の約5割が多義なし ↓             ↓ 動詞の評価結果に比べ効果少 原因 IPAL名詞の約5割が多義なし          ↓  デフォルトの正解率の上昇 ・結合価文法は用言の訳語選択を目的に開発

正しい名詞訳語を選択できなかった原因 ・調査文数1062文 翻訳失敗の原因 割 合 1 パターンが登録されていない場合 39% 36文 2 割  合 1 パターンが登録されていない場合 39% 36文 2 パターンの照合に失敗した場合 4% 4文 3 パターンの格要素の制約が弱い場合 17% 16文 4 対象の名詞がパターンの要素外 8% 7文 5 形態素解析に失敗した場合 5% 5文 6 慣用表現 24% 22文 7 見出し語の名詞が辞書未登録の場合 2% 2文 合計 92文

3.パターンの格要素の制約が弱い場合(17%) 例:彼は相手に 意向 を質した。 対訳:He asked the other party of their intention. ALT訳:He asked his partner about a mind. 例文に対応するパターン 「N1(主体)がN2(主体)にN3(抽象)を質す」 名詞 意向の意味属性と英訳語 <意図>:intention <思想>:mind      ↓ いずれの意味属性も<抽象> 配下のため、一意に決定不可 具体 抽象 思想 意図

解決手段の考察 原因 ・意味属性の深いパターンを追加 例:「N1(主体)がN2(主体)にN3(意図)を質す」 ↓ 正しいパターン選択は困難              ↓      正しいパターン選択は困難 パターンですべての意味属性を一意に決定不可 原因 ・パターンは用言の訳し分けが目的           ↓ ・用言の英訳語が同じ場合、他のパターンと  区別できるだけの意味属性の定義で充分

4.対象の名詞がパターンの要素外の場合(8%) 例:逃亡した男は地方で生き延びている。 対訳:The man who escaped is surviving in the countryside. ALT訳:The man who escaped has survived in a district. 例に対応するパターン 「N1(主体、動物)が生き延びる」          ↓ 『地方』を含む格要素はパターン外 解決の可能性 パターンに任意格の追加 例:「 N1(主体、動物)が 【N2(村落)で】 生き延びる」

6.慣用表現(24%) 例:彼女は亭主を尻に敷いている。 対訳:She dominates her husband. ALT訳:She is spreading her husband out on the back. ・動詞の場合と同様に個別のパターンを登録で解決 例:「N1(主体)がN2(主体)を尻に敷く  N1dominate N2」 その他の原因 パターンの追加などによる解決は不明 (∵原因3、4より)

先行研究との比較 先行研究(桐澤 2000) ・意味属性によるIPALの名詞の訳し分け精度を調査 分類 訳語多義なし 場合により可能 割合 名 詞 の 例 見出し 意味属性 英訳語 訳語多義なし 56.4% 岩 <岩石> rock 一意に絞り込み可能 24.0% スキー <スポーツ> skiing <遊び道具、運動具> ski 場合により可能 3.5% 委員 <成員><複数> committee <成員><単数> member of committee 絞込み可能 10.5% 麻 <作物 繊維> flax 亜麻とその繊維 hemp 大麻とその繊維 <糸・布> linen 麻製品 不可能 5.7% 牙 <牙> tusk  象など fang  犬や猫

本研究の結果との対比 意味属性によって訳し分け精度が若干向上 分類 各分類の訳し分け精度 ○ △ × 訳語多義なし 71% 25% 4% (先行研究より) 各分類の訳し分け精度 ○ △ × 訳語多義なし 71% 25% 4% 一意に絞り込み可能 56% 32% 12% 場合により可能 49% 42% 9% 絞り込み可能 44% 40% 15% 不可能 52% 16%

本研究の結果との対比 4% 12% 9% 15% 16% 分類 ・意味属性決定による訳し分け精度の効果を確認 訳語多義なし 場合により可能 名 詞 の 例 見出し 意味属性 英訳語 訳語多義なし 岩 <岩石> rock 一意に絞り込み可能 スキー <スポーツ> skiing <遊び道具、運動具> ski 場合により可能 委員 <成員><複数> committee <成員><単数> member of committee 絞込み可能 麻 <作物 繊維> flax 亜麻とその繊維 hemp 大麻とその繊維 <糸・布> linen 麻製品 不可能 牙 <牙> tusk  象など fang  犬や猫 本研究における誤り率 4% 12% 9% 15% 16%

名詞のまとめ 結合価文法の限界 結合価文法の有効性 ・評価の結果、正解率がデフォルトより6%向上       結合価文法の有効性 ・評価の結果、正解率がデフォルトより6%向上 ・慣用表現のパターン追加により3%の精度向上       結合価文法の限界 ・パターンの定義外の名詞は訳し分け不可 ・すべての名詞についてパターンの登録は不可

まとめ 正解率 限界 今後の課題 ・IPAL辞書の基本動詞、名詞の訳し分け精度を調査 動詞89%(デフォルト55%)、名詞91%(85%) 動詞98~99%、名詞94% 今後の課題 ・IPAL辞書以外の動詞、名詞への効果調査