Presentation is loading. Please wait.

Presentation is loading. Please wait.

意味属性の共起による 「AのB」型名詞句の翻訳規則

Similar presentations


Presentation on theme: "意味属性の共起による 「AのB」型名詞句の翻訳規則"— Presentation transcript:

1 意味属性の共起による 「AのB」型名詞句の翻訳規則
鳥取大学 工学部 ○徳久雅人 守谷有司 村上仁一 池原 悟 鳥取大学工学部の徳久雅人です. 意味属性の共起による「AのB」型名詞句の翻訳規則について発表させて頂きます. 2003/9/10 FIT2003

2 1.はじめに 「AのB」型名詞句の機械翻訳 教師の経験 ⇒ experience as a teacher
日本語での意味は多彩 ⇒ 様々な英語表現に翻訳 教師の経験 ⇒ experience as a teacher 左側の脳 ⇒ left side of brain A B B as A 「AのB」型名詞句とは,「名詞」と「名詞」を「の」で結んだ名詞句のことをいいます. この表現は日本語でよく用いられる表現です. 日本語の意味は多彩ですから,様々な英語表現に翻訳されます. A B A of B 2003/9/10 FIT2003

3 先行研究 「AのB」型名詞句の意味分類・意味解析 用例ベースによる翻訳 [飯盛ら96] 意味属性・文法属性による翻訳規則
[島津ら86],[冨浦ら95] 用例ベースによる翻訳 [飯盛ら96] ⇒意味的関係を用いた網羅的規則作成が困難 意味属性・文法属性による翻訳規則 [池原ら02] ⇒検討した英語表現は8つ,自動化未着手 「AのB」型名詞句に関する先行研究では, 「AのB」型名詞句を分類・解析・翻訳する際に関わる, 意味的関係を用いた規則が必要ですが,その網羅的な作成が困難とされていました. これを受けて,意味属性・文法属性を用いた規則化が研究されましたが, 英語表現は主な物8つとなっていること,それから, その規則の自動化は未着手でした. 2003/9/10 FIT2003

4 本研究の目的 「AのB」型名詞句の機械翻訳 広範な英語表現に対応 意味属性を用いた規則の半自動作成 ■ 手順 大規模な日英表現対を収集・分類
意味属性の共起を用いた規則の作成 相補的規則の追加 実験 そこで,本研究では,より広範な英語表現に対応し, 意味属性を用いた規則を,半自動的に作成することを目的とします. そこで,以下の事を行います. まず,日英の「AのB」の表現の対を大規模に収集します. 次に,名詞Aと名詞Bの意味属性を決定し,共起関係による規則を作成します. ここで,一部人でがかかりますので,半自動的な規則の作成となります. なお,意味属性を用いるよりも,字面などで直接的な規則を作成するほうが良い と言われるケースがありますので,それについては,相補的規則として作成します. 最後に,英語表現の選択実験を行い,精度を確認します. 2003/9/10 FIT2003

5 2.英語表現の分類 本研究で取り扱う名詞句 取り扱わない名詞句 係り受け関係がある名詞句 英訳部分が名詞句でない.
例文:リンゴの木に花が咲いている。 対訳:The apple trees are in blossom. 取り扱わない名詞句 英訳部分が名詞句でない. 例文:食事の支度ができましたから,席に着いて下さい。 対訳:When the meal is ready, please come to your seat. 複合名詞,形式名詞などの場合 それではまず,本研究で取り扱う名詞句について説明します. 本研究では,AとBに係り受け関係があり,AとBで名詞句が形成される単純なものとします. 英語部分が名詞句にならないものは,対象外とします. また,AやBが複合名詞になるものなども対象外とします. 本発表では,「リンゴの木」と「the apple trees」組のように 日英の名詞句対を1つの標本とよびます. 2003/9/10 FIT2003

6 標本の収集 約3万件の 標本を収集 日英文対応コーパス: 33万件
ハトは平和の象徴だ。 / The dove is the symbol of peace. 「AのB」アライメント 「AのB」の抽出 平和,象徴 失敗 辞書引き peace, symbol 手作業で再収集 標本は次のようにして集めました. 英語辞書などから33万件の日英文対応のコーパスを作成し, 「AのB」表現を使う文を探します. A,Bの訳語候補を辞書引きし,それが含まれる部分を英語文から抜粋します. このとき,A,Bの英訳語に挟まれる部分も同時に抜粋します. こうして,「平和の象徴」という表現と「symbol of peace」という表現が得られます. アライメントをとった結果,3万件程度有りましたが, 手作業で,誤った結果を取り除いたところ,2万7千件が得られました. また,アライメントに失敗した事例については,1万件をランダムで抽出し, 手作業でアライメントの確認をしました. こうして,3千件が補充されましたので,合計3万件の標本が得られました. 約3万件の 標本を収集 成功 表現の抜粋 symbol of peace 手作業で確認

7 英語表現の分類 英語表現の選択規則を作るために, 英語表現を分類 分類結果: 英語表現 49 種類
分類結果: 英語表現 49 種類 翻訳対象: 28種類(出現頻度が10件以上) 標本全体の 99 %をカバー candle flame (ロウソクの炎) A + B 型 star in the sky (空の星) B in A 型 得られた英語表現を分類しました. candle flame という表現は,「ろうそくの炎」の英語表現です. A の英訳とBの英訳をそのまま並べた英語表現ですので,これを AプラスB型と呼びます. 同様に,空の星は,「star in the sky」ですので,B in A 型と呼びます. こうして,英語表現は,49 種類に分類されました. 学習データを作成する都合,10件以上出現する英語表現を対象にすることとしたので, 28種類の英語表現を対象にします. これは,標本全体の99%に相当します. 2003/9/10 FIT2003

8 英語表現 割合 所有格 + B 26.61 B of A 21.54 A + B 14.95 形容詞 + B 7.71 A’s B 6.14
A of B 5.39 B for A 4.33 前置詞 + B 3.43 B + A 1.92 B in A 1.07 英語表現 割合 B to A 0.99 B on A 0.88 B at A 0.53 B from A 0.49 A in B 0.36 : 単語 0.14 A from B 0.06 B against A A to B 英語表現 割合 A with B 0.05 A at B 0.04 B around A B such as A 0.01 : B through A B within A A under B 0.003 B aboard A 規則作成対象 全体像を紹介します. 最も多いのが,所有格+B 型で,26.6%を占めています. その次は,B of A 型です. 赤枠の中は,翻訳対象とした表現です.

9 3.意味属性規則の作成 意味属性: 日本語語彙大系の一般名詞意味属性 形態素解析結果は意味属性が曖昧
5,000件を手作業で絞り込み,学習データに (例) 林檎の花 / apple blossom 林檎 (【果樹】,【果物】) 花 (【花(本体)】,【舞踊・演劇・諸芸】,【興隆】) では,意味属性を用いた翻訳規則を作ります. 意味属性は,日本語語彙大系における一般名詞意味属性を使います. 日本語語彙大系での名詞の意味属性は,概念分類の構造がありますが, 1つの名詞に,複数の意味属性が付与されています. したがって,この例にありますとおり, 「リンゴ」という名詞には,「果樹」の意味属性と「果物」の意味属性の2つが付与されています. 形態素解析は,意味属性を絞り込まないので, 本研究では,5000件について,手作業で絞り込み作業をします. そして,基礎となる if-then 規則を作成します. if 【果樹】の【花(本体)】 then A+B 型

10 一般名詞意味属性体系 名詞 具体 抽象 … … …… …… …… …… 生物 無生物 植物 動物 …… 林檎 果物 果樹 一般名詞 果樹
樹木 果物 菓子 2003/9/10 FIT2003

11 3.意味属性規則の作成 意味属性: 日本語語彙大系の一般名詞意味属性 形態素解析結果は意味属性が曖昧
5,000件を手作業で絞り込み,学習データに (例) 林檎の花 / apple blossom 林檎 (【果樹】,【果物】) 花 (【花(本体)】,【舞踊・演劇・諸芸】,【興隆】) では,意味属性を用いた翻訳規則を作ります. 意味属性は,日本語語彙大系における一般名詞意味属性を使います. 日本語語彙大系での名詞の意味属性は,概念分類の構造がありますが, 1つの名詞に,複数の意味属性が付与されています. したがって,この例にありますとおり, 「リンゴ」という名詞には,「果樹」の意味属性と「果物」の意味属性の2つが付与されています. 形態素解析は,意味属性を絞り込まないので, 本研究では,5000件について,手作業で絞り込み作業をします. そして,基礎となる if-then 規則を作成します. if 【果樹】の【花(本体)】 then A+B 型

12 [中井ら99]の手法により他の規則との競合を回避
汎化による規則の自動生成 意味属性の汎化による規則のカバー率向上 店のカレー if 【商店】の【飯】 then B at A 型 [中井ら99]の手法により他の規則との競合を回避 2項目についての汎化 【商店】の上位概念 ⇒ 【店舗等】 【飯】の上位概念 ⇒ 【料理】 先程の5000件の規則では,不足するので,意味属性の値を 汎化し,規則のカバー率を向上させます. 意味属性は木構造となっているので,AあるいはBの意味属性を上位概念の意味属性に置き換えて規則を汎化します. ここで,他の規則と競合がおこらないようにします. if 【店舗等】の【料理】 then B at A 型 「レストランのピザ」にもマッチ

13 意味属性規則の生成例 if A 意味属性 B 意味属性 then 英語表現 【図書館】 【出版物】 B in A 【情報】 【概要】
A in B 【場所】 【壁】 B of A 【帳】 【枠】 【スポーツ】 【競争】 A + B 【神仏】 【助力】 A for B 【援助】 : 以上のようにして作成した規則を,ここに示します.

14 意味属性規則の生成数 英語表現 規則数(件) A + B 46,315 B in A 23,894 B from A 6,946
A of B 6,107 A on B 1,010 B as A 597 合計: 440,545 個 2003/9/10 FIT2003

15 4.相補的規則の作成 意味属性による一般規則がなじまない 先行研究[飯盛ら96],[池原ら02]
「名詞字面」による規則...英語6表現,90規則 「係る動詞」による規則...英語6表現,47規則 (例) 「彼の家」 ⇒ 所有格 + B 「上着の雪を払う」 ⇒ B from A 先行研究によると,意味属性による一般規則がなじまない場合があると指摘されています. たとえば,「彼の家」という場合には,「所有格」+B型となりますので,Aの字面が「彼」である場合の規則を作ります. また,「の」が述語の格要素とみなせる場合もあります.この場合は,動詞を用いた規則を作ります. 2003/9/10 FIT2003

16 5.実験 目的: 英語表現型の選択性能を評価 方法: 評価基準: 「AのB」型名詞句を含む文を入力
(規則作成に使わなかった標本 1,000 件) 単語訳し分けは不問.英語表現型に注目 評価者1名(大学院生) 評価基準: ◎:対訳と一致 ○:対訳と一致しないが規則の表現でも可 △:動詞などによっては規則の表現でも可 ×:誤った英語表現 それでは,英語表現を選択する実験を行います. 実験方法は,次の通りです. まず,「AのB」型名詞句を含む文を入力します. これは規則作成に使わなかった標本1,000件です. 英語表現型が正しく選択できるかどうかを評価する実験であり,AとBの名詞訳語の選択は問わないこととします. 評価基準は,対訳と一致する場合は◎, 対訳と一致しないが規則で選択された表現でも構わない場合は○, 動詞などによって規則で選択された表現でも構わない場合は×, 明らかな誤りの場合は×, とします. この判定は,大学院生1名で行いました. 2003/9/10 FIT2003

17 正解:the patient’s temperature A’s B型
○.例文:患者の体温 正解:the patient’s temperature A’s B型 出力:temperature of a patient B of A型 △.例文:彼の指示 (を受ける) 正解:instruction from him B from A 型 出力:his instruction 所有格+B型 具体例を示します. 「患者の体温」は,2通りの表現が許されますので,○ となります. 「彼の指示」は,「彼の指示を受ける」という文では「from」となりますが, 別の場合は,「his instruction」でも構いません. 2003/9/10 FIT2003

18 実験結果 評価 規則 ◎ ○ △ × 意味属性規則 42.1 % 18.0 % 19.3 % 20.6 % 同上 + 相補規則 53.3 %
16.0 % 13.7 % 17.0 % ※ 形態素解析誤りは評価対象外 実験結果をまとめます. 意味属性規則のみでは,明確な正解率は,60.1%となりました. 相補規則を併用すると,明確な正解率は,69.3%となりました. 選択精度: 意味属性規則のみ % (◎と○) 相補規則と併用 % 2003/9/10 FIT2003

19 6.考察:誤りの原因 i ) 単語に複数の意味属性がある場合 入力: 屋上の望遠鏡
入力: 屋上の望遠鏡 正解: the telescope on the roof (B on A 型) 出力: the telescope in the roof (B in A 型) 意味属性 解析結果 【上】 屋上 【家屋(部分〈場(その他)〉)】 それでは,表現選択に誤った原因を考察します. 「屋上の望遠鏡」という入力に対して, 理想は「B on A 型」ですが,「B in A型」と判定されます. 「屋上」を形態素解析すると 「上」という意味属性と「家屋(部分(場(その他))」という意味属性が得られますが, if 【家屋】の【機械】then という規則がマッチして,「B in A 型」となっていました. 解決には色々な工夫の仕方がありますが,1つには,複数の意味属性を条件部分に記述することがあげられます. ★ B in A の規則作成のソースは,標本「家の管理(865【家屋(本体)】,1779【管理】)」である.論文記載の考察は浅い.×になった最大の原因は,汎化が過剰であったことだ.また,【上】に関する規則が生成されていないことも問題である.したがって,学習データが5000件からスタートしたが,それでも不足しているといえる. 適用規則 if 【家屋】の【機械】 then 「B in A」 型 今後の課題 ⇒ 複数の意味属性からなる条件の記述

20 ii) 類似する意味関係に様々な英語表現 列車の車掌 conductors on this train (B on A) タクシーの運転手
汎化による 生成は過剰 タクシーの運転手 taxi driver (A+B) 意味属性では 困難 オートバイのライダー motorcyclist (単語) 291【乗務員】 次の事例は,意味属性でみると近いところに,様々な英語表現が有る場合です. 規則の自動生成において,学習データに「taxi driver」しかない場合, 「乗り物」の「乗務員」を「A+B型」とするので,過剰な汎化となってしまいます. また,意味属性が同じであっても「オートバイのライダー」のような事例もあるので, このような場合は,意味属性だけで判定するのは困難です. 「【乗り物(本体(陸))】の【運転手】」は A + B 型の英語表現となることが多いが, オートバイのライダー:a motorcyclist (ビジネス技術実用英語大辞典)という事例もある. 汎化が問題となる場合は,学習数の補強でカバーできる問題である. 意味属性の分解能が不足する場合は,規則適用順序が重要.単語型の適用を優先することが必要. 292【運転手】 293【乗務員(その他)】 2003/9/10 FIT2003

21 7.おわりに まとめ 「AのB」型名詞句とその対訳を約 3 万件収集 28種類の英語表現に着目 (カバー率 99 %)
28種類の英語表現に着目 (カバー率 99 %) 意味属性規則を半自動生成 (5千→44万個) 手作業で相補規則を作成 (137個) 表現選択実験 意味属性規則のみの正解率: 60.1 % 補足規則と併用時の正解率: 69.3 % 生成規則数: 440,545 件 (ただし,意味属性番号のexactマッチとするため,継承性はない.つまり,意味属性が親子関係にあっても,別規則としてカウント) 2003/9/10 FIT2003

22 今後の課題 自動生成のために 選択精度向上のために 翻訳のために 意味属性の絞込みの自動化 複数の意味属性を条件とする規則の設計
動詞規則(結合価パターン)の強化 翻訳のために 名詞訳語選択 2003/9/10 FIT2003


Download ppt "意味属性の共起による 「AのB」型名詞句の翻訳規則"

Similar presentations


Ads by Google