奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 意味・談話解析勉強会 論文紹介 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 2019年5月17日
今日の論文 “Semantic Role Labeling Using Dependency Trees” Kadri Hacioglu CoLING 2004 2019年5月17日
論文の概要 依存木に基づいた意味役割ラベル器を作成した 依存関係を意味役割のどれに分類するかという問題に帰着 SVM によって意味役割ラベルをつけた CoNLL 2004 shared task データで評価 2019年5月17日
Semantic Role Labeling CoNLL 2004 Shared Task Semantic Role Labeling 2019年5月17日
CoNLL 2004 Shared Task 意味役割ラベリングを行うタスク 述語項構造(のようなもの)を分析する 意味役割をもつ構成素を認識する PropBank に従って解析 [A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1 anything of value] from [A2 those he was writing about] . V: verb; A0: acceptor; A1: thing accepted; A2: accepted-from; A3: attribute; AM-MOD: modal; AM-NEG: negation 2019年5月17日
2004年時点での状況 フルに解析木を使う(Collins パーザーとか Charniak パーザーとか)とF1値で80くらい 2019年5月17日
2004 Shared task の目標 意味役割ラベリングを機械学習ベースで行う 表層の統語情報と節境界情報しか使わない(2005 のタスクではもっと統語情報使う) 2019年5月17日
どういう問題を解くか 意味役割の認識 precision と recall と F値で評価 単語列をグループ化 グループ化した単語列に意味役割をつける 両方合っていれば正解 precision と recall と F値で評価 precision: 予測した項のうち正しかった割合 recall: 正しい項のうち予測できた割合 2019年5月17日
使用するデータ PropBank ( 2004年2月版) 項の種類 ついている情報 Penn TreeBank に述語項構造をつけたもの 動詞の意味は VerbNet による 項の種類 動詞・項(数字つき)・adjuncts・references ついている情報 POS・ベースチャンク・節・NE 2019年5月17日
本文に入ります 2019年5月17日
イントロダクション Semantic Role Labeling(SRL) は単語列をグループ化し、それを意味役割(semantic role)によって分類するタスク 述語がどのような項を伴うか特定する 述語と項の関係で意味役割が決まる 情報抽出・QA・文書要約・機械翻訳に役立つ 2019年5月17日
先行研究 述語項構造に基づいた SRL が詳しく研究されるようになったのは (Gildea and Jurafsky, 2002) から さまざまな研究があるが大きく分けて3つ 構成素単位の SRL 句単位の SRL 単語単位の SRL 2019年5月17日
構成素レベルの SRL 統語的な木構造表現は構成素の列に分解される 文構造や構成素のトークンに対して決まる文脈から構成素に素性を抽出 抽出した素性によって構成素に意味役割をつける分類問題 2019年5月17日
句レベルと単語レベルの SRL 基本的にチャンキングのタスク ベースフレーズもしくは単語に対して素性を抽出 IOB 表現を使って抽出した素性からトークンに意味役割ラベルをつける分類問題 2019年5月17日
依存関係単位の SRL 本論文が提案する手法 構成素の木構造から依存関係木を生成 構成素単位のシステムと使う情報は同じ 情報の構造や言語学的特性が違う 情報を依存関係によって再構築することで意味役割を局所化するのに役立つ 2019年5月17日
関連研究 (Gildea and Hockenmaier, 2003) 依存関係を使っているのは同じ CCG(Combinatory Categorical Grammar) を用いて依存関係を導出しているところが違う ラベリングに使う依存関係や素性、分類器の実装も違う 2019年5月17日
DepBank PropBank の構成素木から依存木に変換 依存関係のノードがどの単語列をカバーしているか決定するために依存木を解析 意味役割のラベルを同じ単語列をカバーしているノードに追加 どの意味役割にも対応しなかった関係には “O” というラベルをつける 2019年5月17日
依存関係の SRL 依存木を下から上・左から右方向に一直線に並べて依存関係の列を作る 各依存関係に対し素性を抽出 素性を SVM に入力 ヒューリスティックによって項にならなそうな依存関係は取り除く 各依存関係に対し素性を抽出 素性を SVM に入力 one-versus-all SVM を使用して分類 2019年5月17日
依存木展開のヒューリスティック 述語に対して局所性の尺度として木構造の family を定義 依存木の中での述語の親・子・孫・姉妹・姉妹の子・姉妹の孫からなる依存関係ノード集合 この集合に入らない関係は依存木の展開のときには無視 依存木の葉に当たる部分でも刈り込み 意味ラベル1%の損失でデータを約1/3-1/4に圧縮 2019年5月17日
トークンレベルの素性 タイプ 家族関係 位置 ヘッドの単語 依存元の単語 ヘッドの単語の品詞 依存元のヘッドの単語の品詞 パス 2019年5月17日
文レベルの素性 述語の子の品詞パターン 述語の子の関係パターン 述語の姉妹の品詞パターン 述語の姉妹の関係パターン 2019年5月17日
分類器 SVM で意味役割の分類器を実装 組み合わせた SVM 単語単位の分類器 構成素単位の分類器 句単位の分類器 次元数2の polynominal kernel を用いた TinySVM と YamCha を使用 2019年5月17日
実験 PropBank 2004年2月版で実験 セクション15-18をトレーニングに使用 セクション20をデベロップに使用 セクション21をテストに使用 つまり CoNLL 2004 shared task と同じ CoNLL 2004 shared task の結果と比較可能 2019年5月17日
実験結果 DepBank の dev set と CoNLL の dev set では再現率がかなり下がった 変換プロセスの際約8%の意味役割が失われたせい 構成素木の句のノードの中には依存木の中に相当するノードがないものがあったため とはいえ (Gildea and Hockenmaier, 2003) はミスマッチ率23%と報告しているので、それよりははるかにまし 2019年5月17日
依存関係単位の SRL の性能 構成素単位の SRL と比べて健闘 CoNLL 2004 で一番性能がよかった SRL システムは precision: 74.17%, recall: 69.42%, F1: 71.72 トレーニングに使えるデータをまだ全部使っていない 構成素単位の SRL で性能が向上することが分かっている素性も使っていない 2019年5月17日
結論 意味役割ラベルつきの依存木からなるコーパスを自動作成 依存関係を分類する SRL システムを開発 現在は PropBank と DepBank でアノテーションが合わない部分の調査中 今後は新しい素性の追加・自動パーズとの組み合わせ・構成素単位のシステムとの比較や統合を検討 2019年5月17日