Presentation is loading. Please wait.

Presentation is loading. Please wait.

奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp

Similar presentations


Presentation on theme: "奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp"— Presentation transcript:

1 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
意味・談話解析勉強会 論文紹介 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 2019年5月17日

2 今日の論文 “Semantic Role Labeling Using Dependency Trees” Kadri Hacioglu
CoLING 2004 2019年5月17日

3 論文の概要 依存木に基づいた意味役割ラベル器を作成した 依存関係を意味役割のどれに分類するかという問題に帰着
SVM によって意味役割ラベルをつけた CoNLL 2004 shared task データで評価 2019年5月17日

4 Semantic Role Labeling
CoNLL 2004 Shared Task Semantic Role Labeling 2019年5月17日

5 CoNLL 2004 Shared Task 意味役割ラベリングを行うタスク 述語項構造(のようなもの)を分析する
意味役割をもつ構成素を認識する PropBank に従って解析 [A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1 anything of value] from [A2 those he was writing about] . V: verb; A0: acceptor; A1: thing accepted; A2: accepted-from; A3: attribute; AM-MOD: modal; AM-NEG: negation 2019年5月17日

6 2004年時点での状況 フルに解析木を使う(Collins パーザーとか Charniak パーザーとか)とF1値で80くらい
2019年5月17日

7 2004 Shared task の目標 意味役割ラベリングを機械学習ベースで行う
表層の統語情報と節境界情報しか使わない(2005 のタスクではもっと統語情報使う) 2019年5月17日

8 どういう問題を解くか 意味役割の認識 precision と recall と F値で評価 単語列をグループ化
グループ化した単語列に意味役割をつける 両方合っていれば正解 precision と recall と F値で評価 precision: 予測した項のうち正しかった割合 recall: 正しい項のうち予測できた割合 2019年5月17日

9 使用するデータ PropBank ( 2004年2月版) 項の種類 ついている情報 Penn TreeBank に述語項構造をつけたもの
動詞の意味は VerbNet による 項の種類 動詞・項(数字つき)・adjuncts・references ついている情報 POS・ベースチャンク・節・NE 2019年5月17日

10 本文に入ります 2019年5月17日

11 イントロダクション Semantic Role Labeling(SRL) は単語列をグループ化し、それを意味役割(semantic role)によって分類するタスク 述語がどのような項を伴うか特定する 述語と項の関係で意味役割が決まる 情報抽出・QA・文書要約・機械翻訳に役立つ 2019年5月17日

12 先行研究 述語項構造に基づいた SRL が詳しく研究されるようになったのは (Gildea and Jurafsky, 2002) から
さまざまな研究があるが大きく分けて3つ 構成素単位の SRL 句単位の SRL 単語単位の SRL 2019年5月17日

13 構成素レベルの SRL 統語的な木構造表現は構成素の列に分解される 文構造や構成素のトークンに対して決まる文脈から構成素に素性を抽出
抽出した素性によって構成素に意味役割をつける分類問題 2019年5月17日

14 句レベルと単語レベルの SRL 基本的にチャンキングのタスク ベースフレーズもしくは単語に対して素性を抽出
IOB 表現を使って抽出した素性からトークンに意味役割ラベルをつける分類問題 2019年5月17日

15 依存関係単位の SRL 本論文が提案する手法 構成素の木構造から依存関係木を生成 構成素単位のシステムと使う情報は同じ
情報の構造や言語学的特性が違う 情報を依存関係によって再構築することで意味役割を局所化するのに役立つ 2019年5月17日

16 関連研究 (Gildea and Hockenmaier, 2003) 依存関係を使っているのは同じ
CCG(Combinatory Categorical Grammar) を用いて依存関係を導出しているところが違う ラベリングに使う依存関係や素性、分類器の実装も違う 2019年5月17日

17 DepBank PropBank の構成素木から依存木に変換 依存関係のノードがどの単語列をカバーしているか決定するために依存木を解析
意味役割のラベルを同じ単語列をカバーしているノードに追加 どの意味役割にも対応しなかった関係には “O” というラベルをつける 2019年5月17日

18 依存関係の SRL 依存木を下から上・左から右方向に一直線に並べて依存関係の列を作る 各依存関係に対し素性を抽出 素性を SVM に入力
ヒューリスティックによって項にならなそうな依存関係は取り除く 各依存関係に対し素性を抽出 素性を SVM に入力 one-versus-all SVM を使用して分類 2019年5月17日

19 依存木展開のヒューリスティック 述語に対して局所性の尺度として木構造の family を定義
依存木の中での述語の親・子・孫・姉妹・姉妹の子・姉妹の孫からなる依存関係ノード集合 この集合に入らない関係は依存木の展開のときには無視 依存木の葉に当たる部分でも刈り込み 意味ラベル1%の損失でデータを約1/3-1/4に圧縮 2019年5月17日

20 トークンレベルの素性 タイプ 家族関係 位置 ヘッドの単語 依存元の単語 ヘッドの単語の品詞 依存元のヘッドの単語の品詞 パス
2019年5月17日

21 文レベルの素性 述語の子の品詞パターン 述語の子の関係パターン 述語の姉妹の品詞パターン 述語の姉妹の関係パターン 2019年5月17日

22 分類器 SVM で意味役割の分類器を実装 組み合わせた SVM
単語単位の分類器 構成素単位の分類器 句単位の分類器 次元数2の polynominal kernel を用いた TinySVM と YamCha を使用 2019年5月17日

23 実験 PropBank 2004年2月版で実験 セクション15-18をトレーニングに使用 セクション20をデベロップに使用
セクション21をテストに使用 つまり CoNLL 2004 shared task と同じ CoNLL 2004 shared task の結果と比較可能 2019年5月17日

24 実験結果 DepBank の dev set と CoNLL の dev set では再現率がかなり下がった
変換プロセスの際約8%の意味役割が失われたせい 構成素木の句のノードの中には依存木の中に相当するノードがないものがあったため とはいえ (Gildea and Hockenmaier, 2003) はミスマッチ率23%と報告しているので、それよりははるかにまし 2019年5月17日

25 依存関係単位の SRL の性能 構成素単位の SRL と比べて健闘
CoNLL 2004 で一番性能がよかった SRL システムは precision: 74.17%, recall: 69.42%, F1: 71.72 トレーニングに使えるデータをまだ全部使っていない 構成素単位の SRL で性能が向上することが分かっている素性も使っていない 2019年5月17日

26 結論 意味役割ラベルつきの依存木からなるコーパスを自動作成 依存関係を分類する SRL システムを開発
現在は PropBank と DepBank でアノテーションが合わない部分の調査中 今後は新しい素性の追加・自動パーズとの組み合わせ・構成素単位のシステムとの比較や統合を検討 2019年5月17日


Download ppt "奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp"

Similar presentations


Ads by Google