意味属性の共起による 「AのB」型名詞句の翻訳規則

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法
東京工科大学 コンピュータサイエンス学部 亀田弘之
国内線で新千歳空港を利用している航空会社はどこですか?
レポートの作成 効果的な発表の仕方.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
言語体系とコンピュータ 第6回.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
Myoungkyu Song and Eli Tilevich 発表者: 石尾 隆(大阪大学)
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
Super-Functionに基づく日英機械翻訳
東京工科大学 コンピュータサイエンス学部 亀田弘之
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
プログラミング言語論 第4回 式の構文、式の評価
伝統的件名標目の特徴 図書館界における統制語彙表。通常全分野型。 (1)統制語である 同義語の統制 例:絵、書画→絵画 警官→警察官
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
重文・複文の基本文型に対する 文型パターン辞書のカバー率
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
述語項構造に基づいた統計 翻訳における語句の並べ替え
形態素解析および係り受け解析・主語を判別
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
整合性尺度を用いた 構造的対訳文アラインメント
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
プログラム実行履歴を用いたトランザクションファンクション抽出手法
自然言語処理及び実習 第11回 形態素解析.
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
結合価文法による動詞と 名詞の訳語選択能力の評価
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
中京大学 情報理工学部 情報知能学科 H 中畑 淳貴 H 堀田 将克
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
東京工科大学 コンピュータサイエンス学部 亀田弘之
意味・談話解析勉強会 チュートリアル 小町守.
コンパイラ 2011年10月20日
The difference between adjectives and adverbs
設計情報の再利用を目的とした UML図の自動推薦ツール
セマンティックWebの 生産管理システムへの適用
明示的文法知識が 正確な言語使用に結びつかないケース 浦野 研(北海学園大学)
大規模コーパスに基づく同義語・多義語処理
並列構造に着目した係り受け解析の改善に関する研究
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
セマンティックWebの 生産管理システムへの適用
コードクローン解析に基づく デザインパターン適用候補の検出手法
skill-net(MILESTONE CAI,笈川他,1982)[Fortranの課題選択など]
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

意味属性の共起による 「AのB」型名詞句の翻訳規則 鳥取大学 工学部 ○徳久雅人 守谷有司 村上仁一 池原 悟 鳥取大学工学部の徳久雅人です. 意味属性の共起による「AのB」型名詞句の翻訳規則について発表させて頂きます. 2003/9/10 FIT2003

1.はじめに 「AのB」型名詞句の機械翻訳 教師の経験 ⇒ experience as a teacher 日本語での意味は多彩 ⇒ 様々な英語表現に翻訳 教師の経験 ⇒ experience as a teacher 左側の脳 ⇒ left side of brain A B B as A 「AのB」型名詞句とは,「名詞」と「名詞」を「の」で結んだ名詞句のことをいいます. この表現は日本語でよく用いられる表現です. 日本語の意味は多彩ですから,様々な英語表現に翻訳されます. A B A of B 2003/9/10 FIT2003

先行研究 「AのB」型名詞句の意味分類・意味解析 用例ベースによる翻訳 [飯盛ら96] 意味属性・文法属性による翻訳規則 [島津ら86],[冨浦ら95] 用例ベースによる翻訳 [飯盛ら96] ⇒意味的関係を用いた網羅的規則作成が困難 意味属性・文法属性による翻訳規則 [池原ら02] ⇒検討した英語表現は8つ,自動化未着手 「AのB」型名詞句に関する先行研究では, 「AのB」型名詞句を分類・解析・翻訳する際に関わる, 意味的関係を用いた規則が必要ですが,その網羅的な作成が困難とされていました. これを受けて,意味属性・文法属性を用いた規則化が研究されましたが, 英語表現は主な物8つとなっていること,それから, その規則の自動化は未着手でした. 2003/9/10 FIT2003

本研究の目的 「AのB」型名詞句の機械翻訳 広範な英語表現に対応 意味属性を用いた規則の半自動作成 ■ 手順 大規模な日英表現対を収集・分類 意味属性の共起を用いた規則の作成 相補的規則の追加 実験 そこで,本研究では,より広範な英語表現に対応し, 意味属性を用いた規則を,半自動的に作成することを目的とします. そこで,以下の事を行います. まず,日英の「AのB」の表現の対を大規模に収集します. 次に,名詞Aと名詞Bの意味属性を決定し,共起関係による規則を作成します. ここで,一部人でがかかりますので,半自動的な規則の作成となります. なお,意味属性を用いるよりも,字面などで直接的な規則を作成するほうが良い と言われるケースがありますので,それについては,相補的規則として作成します. 最後に,英語表現の選択実験を行い,精度を確認します. 2003/9/10 FIT2003

2.英語表現の分類 本研究で取り扱う名詞句 取り扱わない名詞句 係り受け関係がある名詞句 英訳部分が名詞句でない. 例文:リンゴの木に花が咲いている。 対訳:The apple trees are in blossom. 取り扱わない名詞句 英訳部分が名詞句でない. 例文:食事の支度ができましたから,席に着いて下さい。 対訳:When the meal is ready, please come to your seat. 複合名詞,形式名詞などの場合 それではまず,本研究で取り扱う名詞句について説明します. 本研究では,AとBに係り受け関係があり,AとBで名詞句が形成される単純なものとします. 英語部分が名詞句にならないものは,対象外とします. また,AやBが複合名詞になるものなども対象外とします. 本発表では,「リンゴの木」と「the apple trees」組のように 日英の名詞句対を1つの標本とよびます. 2003/9/10 FIT2003

標本の収集 約3万件の 標本を収集 日英文対応コーパス: 33万件 ハトは平和の象徴だ。 / The dove is the symbol of peace. 「AのB」アライメント 「AのB」の抽出 平和,象徴 失敗 辞書引き peace, symbol 手作業で再収集 標本は次のようにして集めました. 英語辞書などから33万件の日英文対応のコーパスを作成し, 「AのB」表現を使う文を探します. A,Bの訳語候補を辞書引きし,それが含まれる部分を英語文から抜粋します. このとき,A,Bの英訳語に挟まれる部分も同時に抜粋します. こうして,「平和の象徴」という表現と「symbol of peace」という表現が得られます. アライメントをとった結果,3万件程度有りましたが, 手作業で,誤った結果を取り除いたところ,2万7千件が得られました. また,アライメントに失敗した事例については,1万件をランダムで抽出し, 手作業でアライメントの確認をしました. こうして,3千件が補充されましたので,合計3万件の標本が得られました. 約3万件の 標本を収集 成功 表現の抜粋 symbol of peace 手作業で確認

英語表現の分類 英語表現の選択規則を作るために, 英語表現を分類 分類結果: 英語表現 49 種類 分類結果: 英語表現 49 種類 翻訳対象: 28種類(出現頻度が10件以上) 標本全体の 99 %をカバー candle flame (ロウソクの炎) ⇒ A + B 型 star in the sky (空の星) ⇒ B in A 型 得られた英語表現を分類しました. candle flame という表現は,「ろうそくの炎」の英語表現です. A の英訳とBの英訳をそのまま並べた英語表現ですので,これを AプラスB型と呼びます. 同様に,空の星は,「star in the sky」ですので,B in A 型と呼びます. こうして,英語表現は,49 種類に分類されました. 学習データを作成する都合,10件以上出現する英語表現を対象にすることとしたので, 28種類の英語表現を対象にします. これは,標本全体の99%に相当します. 2003/9/10 FIT2003

英語表現 割合 所有格 + B 26.61 B of A 21.54 A + B 14.95 形容詞 + B 7.71 A’s B 6.14 A of B 5.39 B for A 4.33 前置詞 + B 3.43 B + A 1.92 B in A 1.07 英語表現 割合 B to A 0.99 B on A 0.88 B at A 0.53 B from A 0.49 A in B 0.36 : 単語 0.14 A from B 0.06 B against A A to B 英語表現 割合 A with B 0.05 A at B 0.04 B around A B such as A 0.01 : B through A B within A A under B 0.003 B aboard A 規則作成対象 全体像を紹介します. 最も多いのが,所有格+B 型で,26.6%を占めています. その次は,B of A 型です. 赤枠の中は,翻訳対象とした表現です.

3.意味属性規則の作成 意味属性: 日本語語彙大系の一般名詞意味属性 形態素解析結果は意味属性が曖昧 5,000件を手作業で絞り込み,学習データに (例) 林檎の花 / apple blossom 林檎 (【果樹】,【果物】) 花 (【花(本体)】,【舞踊・演劇・諸芸】,【興隆】) では,意味属性を用いた翻訳規則を作ります. 意味属性は,日本語語彙大系における一般名詞意味属性を使います. 日本語語彙大系での名詞の意味属性は,概念分類の構造がありますが, 1つの名詞に,複数の意味属性が付与されています. したがって,この例にありますとおり, 「リンゴ」という名詞には,「果樹」の意味属性と「果物」の意味属性の2つが付与されています. 形態素解析は,意味属性を絞り込まないので, 本研究では,5000件について,手作業で絞り込み作業をします. そして,基礎となる if-then 規則を作成します. if 【果樹】の【花(本体)】 then A+B 型

一般名詞意味属性体系 名詞 具体 抽象 … … …… …… …… …… 生物 無生物 植物 動物 …… 林檎 果物 果樹 一般名詞 果樹 樹木 果物 菓子 2003/9/10 FIT2003

3.意味属性規則の作成 意味属性: 日本語語彙大系の一般名詞意味属性 形態素解析結果は意味属性が曖昧 5,000件を手作業で絞り込み,学習データに (例) 林檎の花 / apple blossom 林檎 (【果樹】,【果物】) 花 (【花(本体)】,【舞踊・演劇・諸芸】,【興隆】) では,意味属性を用いた翻訳規則を作ります. 意味属性は,日本語語彙大系における一般名詞意味属性を使います. 日本語語彙大系での名詞の意味属性は,概念分類の構造がありますが, 1つの名詞に,複数の意味属性が付与されています. したがって,この例にありますとおり, 「リンゴ」という名詞には,「果樹」の意味属性と「果物」の意味属性の2つが付与されています. 形態素解析は,意味属性を絞り込まないので, 本研究では,5000件について,手作業で絞り込み作業をします. そして,基礎となる if-then 規則を作成します. if 【果樹】の【花(本体)】 then A+B 型

[中井ら99]の手法により他の規則との競合を回避 汎化による規則の自動生成 意味属性の汎化による規則のカバー率向上 店のカレー if 【商店】の【飯】 then B at A 型 [中井ら99]の手法により他の規則との競合を回避 2項目についての汎化 【商店】の上位概念 ⇒ 【店舗等】 【飯】の上位概念 ⇒ 【料理】 先程の5000件の規則では,不足するので,意味属性の値を 汎化し,規則のカバー率を向上させます. 意味属性は木構造となっているので,AあるいはBの意味属性を上位概念の意味属性に置き換えて規則を汎化します. ここで,他の規則と競合がおこらないようにします. if 【店舗等】の【料理】 then B at A 型 「レストランのピザ」にもマッチ

意味属性規則の生成例 if A 意味属性 B 意味属性 then 英語表現 【図書館】 【出版物】 B in A 【情報】 【概要】 A in B 【場所】 【壁】 B of A 【帳】 【枠】 【スポーツ】 【競争】 A + B 【神仏】 【助力】 A for B 【援助】 : 以上のようにして作成した規則を,ここに示します.

意味属性規則の生成数 英語表現 規則数(件) A + B 46,315 B in A 23,894 B from A 6,946 A of B 6,107 A on B 1,010 B as A 597 : 合計: 440,545 個 2003/9/10 FIT2003

4.相補的規則の作成 意味属性による一般規則がなじまない 先行研究[飯盛ら96],[池原ら02] 「名詞字面」による規則...英語6表現,90規則 「係る動詞」による規則...英語6表現,47規則 (例) 「彼の家」 ⇒ 所有格 + B 「上着の雪を払う」 ⇒ B from A 先行研究によると,意味属性による一般規則がなじまない場合があると指摘されています. たとえば,「彼の家」という場合には,「所有格」+B型となりますので,Aの字面が「彼」である場合の規則を作ります. また,「の」が述語の格要素とみなせる場合もあります.この場合は,動詞を用いた規則を作ります. 2003/9/10 FIT2003

5.実験 目的: 英語表現型の選択性能を評価 方法: 評価基準: 「AのB」型名詞句を含む文を入力 (規則作成に使わなかった標本 1,000 件) 単語訳し分けは不問.英語表現型に注目 評価者1名(大学院生) 評価基準: ◎:対訳と一致 ○:対訳と一致しないが規則の表現でも可 △:動詞などによっては規則の表現でも可 ×:誤った英語表現 それでは,英語表現を選択する実験を行います. 実験方法は,次の通りです. まず,「AのB」型名詞句を含む文を入力します. これは規則作成に使わなかった標本1,000件です. 英語表現型が正しく選択できるかどうかを評価する実験であり,AとBの名詞訳語の選択は問わないこととします. 評価基準は,対訳と一致する場合は◎, 対訳と一致しないが規則で選択された表現でも構わない場合は○, 動詞などによって規則で選択された表現でも構わない場合は×, 明らかな誤りの場合は×, とします. この判定は,大学院生1名で行いました. 2003/9/10 FIT2003

正解:the patient’s temperature A’s B型 ○.例文:患者の体温 正解:the patient’s temperature A’s B型 出力:temperature of a patient B of A型 △.例文:彼の指示 (を受ける) 正解:instruction from him B from A 型 出力:his instruction 所有格+B型 具体例を示します. 「患者の体温」は,2通りの表現が許されますので,○ となります. 「彼の指示」は,「彼の指示を受ける」という文では「from」となりますが, 別の場合は,「his instruction」でも構いません. 2003/9/10 FIT2003

実験結果 評価 規則 ◎ ○ △ × 意味属性規則 42.1 % 18.0 % 19.3 % 20.6 % 同上 + 相補規則 53.3 % 16.0 % 13.7 % 17.0 % ※ 形態素解析誤りは評価対象外 実験結果をまとめます. 意味属性規則のみでは,明確な正解率は,60.1%となりました. 相補規則を併用すると,明確な正解率は,69.3%となりました. 選択精度: 意味属性規則のみ...60.1 % (◎と○) 相補規則と併用........69.3 % 2003/9/10 FIT2003

6.考察:誤りの原因 i ) 単語に複数の意味属性がある場合 入力: 屋上の望遠鏡 入力: 屋上の望遠鏡 正解: the telescope on the roof (B on A 型) 出力: the telescope in the roof (B in A 型) 意味属性 解析結果 【上】 屋上 【家屋(部分〈場(その他)〉)】 それでは,表現選択に誤った原因を考察します. 「屋上の望遠鏡」という入力に対して, 理想は「B on A 型」ですが,「B in A型」と判定されます. 「屋上」を形態素解析すると 「上」という意味属性と「家屋(部分(場(その他))」という意味属性が得られますが, if 【家屋】の【機械】then という規則がマッチして,「B in A 型」となっていました. 解決には色々な工夫の仕方がありますが,1つには,複数の意味属性を条件部分に記述することがあげられます. ★ B in A の規則作成のソースは,標本「家の管理(865【家屋(本体)】,1779【管理】)」である.論文記載の考察は浅い.×になった最大の原因は,汎化が過剰であったことだ.また,【上】に関する規則が生成されていないことも問題である.したがって,学習データが5000件からスタートしたが,それでも不足しているといえる. 適用規則 if 【家屋】の【機械】 then 「B in A」 型 今後の課題 ⇒ 複数の意味属性からなる条件の記述

ii) 類似する意味関係に様々な英語表現 列車の車掌 conductors on this train (B on A) タクシーの運転手 汎化による 生成は過剰 タクシーの運転手 taxi driver (A+B) 意味属性では 困難 オートバイのライダー motorcyclist (単語) 291【乗務員】 次の事例は,意味属性でみると近いところに,様々な英語表現が有る場合です. 規則の自動生成において,学習データに「taxi driver」しかない場合, 「乗り物」の「乗務員」を「A+B型」とするので,過剰な汎化となってしまいます. また,意味属性が同じであっても「オートバイのライダー」のような事例もあるので, このような場合は,意味属性だけで判定するのは困難です. 「【乗り物(本体(陸))】の【運転手】」は A + B 型の英語表現となることが多いが, オートバイのライダー:a motorcyclist (ビジネス技術実用英語大辞典)という事例もある. 汎化が問題となる場合は,学習数の補強でカバーできる問題である. 意味属性の分解能が不足する場合は,規則適用順序が重要.単語型の適用を優先することが必要. 292【運転手】 293【乗務員(その他)】 2003/9/10 FIT2003

7.おわりに まとめ 「AのB」型名詞句とその対訳を約 3 万件収集 28種類の英語表現に着目 (カバー率 99 %) 28種類の英語表現に着目 (カバー率 99 %) 意味属性規則を半自動生成 (5千→44万個) 手作業で相補規則を作成 (137個) 表現選択実験 意味属性規則のみの正解率: 60.1 % 補足規則と併用時の正解率: 69.3 % 生成規則数: 440,545 件 (ただし,意味属性番号のexactマッチとするため,継承性はない.つまり,意味属性が親子関係にあっても,別規則としてカウント) 2003/9/10 FIT2003

今後の課題 自動生成のために 選択精度向上のために 翻訳のために 意味属性の絞込みの自動化 複数の意味属性を条件とする規則の設計 動詞規則(結合価パターン)の強化 翻訳のために 名詞訳語選択 2003/9/10 FIT2003