奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
部分形態素解析を用いた コーパスの品詞体系変換
Paper from PVLDB vol.7 (To appear in VLDB 2014)
部分木を素性とする Decision Stumps と Boosting Algorithm の適用
雑音重み推定と音声 GMMを用いた雑音除去
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
述語項構造に基づいた統計 翻訳における語句の並べ替え
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
Semi-Supervised QA with Generative Domain-Adaptive Nets
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
プログラム実行履歴を用いたトランザクションファンクション抽出手法
機械翻訳勉強会 論文紹介 mamoru-k 小町守 2018/11/9.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
決定木とランダムフォレスト 和田 俊和.
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
動的依存グラフの3-gramを用いた 実行トレースの比較手法
6.2.4 辞書項目(1) 辞書項目にも、語に対するDAGを与える。
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
第14章 モデルの結合 修士2年 山川佳洋.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
データ構造と アルゴリズム 第六回 知能情報学部 新田直也.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
平成20年10月5日(月) 東京工科大学 コンピュータサイエンス学部 亀田弘之
系列ラベリングのための前向き後ろ向きアルゴリズムの一般化
データモデリング モデルの基本作法.
不確実データベースからの 負の相関ルールの抽出
バイトコードを単位とするJavaスライスシステムの試作
Nightmare at Test Time: Robust Learning by Feature Deletion
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
ソフトウェア保守のための コードクローン情報検索ツール
Number of random matrices
意味・談話解析勉強会 チュートリアル 小町守.
コンパイラ 2011年10月20日
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
ロールを基にした構造進化の表現 Role based Evolution Dependency Structure Matrix
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
コンパイラ 2012年10月11日
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
CSP係数の識別に基づく話者の 頭部方向の推定
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Presentation transcript:

奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 意味・談話解析勉強会 論文紹介 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 2019年5月17日

今日の論文 “Semantic Role Labeling Using Dependency Trees” Kadri Hacioglu CoLING 2004 2019年5月17日

論文の概要 依存木に基づいた意味役割ラベル器を作成した 依存関係を意味役割のどれに分類するかという問題に帰着 SVM によって意味役割ラベルをつけた CoNLL 2004 shared task データで評価 2019年5月17日

Semantic Role Labeling CoNLL 2004 Shared Task Semantic Role Labeling 2019年5月17日

CoNLL 2004 Shared Task 意味役割ラベリングを行うタスク 述語項構造(のようなもの)を分析する 意味役割をもつ構成素を認識する PropBank に従って解析 [A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1 anything of value] from [A2 those he was writing about] . V: verb; A0: acceptor; A1: thing accepted; A2: accepted-from; A3: attribute; AM-MOD: modal; AM-NEG: negation 2019年5月17日

2004年時点での状況 フルに解析木を使う(Collins パーザーとか Charniak パーザーとか)とF1値で80くらい 2019年5月17日

2004 Shared task の目標 意味役割ラベリングを機械学習ベースで行う 表層の統語情報と節境界情報しか使わない(2005 のタスクではもっと統語情報使う) 2019年5月17日

どういう問題を解くか 意味役割の認識 precision と recall と F値で評価 単語列をグループ化 グループ化した単語列に意味役割をつける 両方合っていれば正解 precision と recall と F値で評価 precision: 予測した項のうち正しかった割合 recall: 正しい項のうち予測できた割合 2019年5月17日

使用するデータ PropBank ( 2004年2月版) 項の種類 ついている情報 Penn TreeBank に述語項構造をつけたもの 動詞の意味は VerbNet による 項の種類 動詞・項(数字つき)・adjuncts・references ついている情報 POS・ベースチャンク・節・NE 2019年5月17日

本文に入ります 2019年5月17日

イントロダクション Semantic Role Labeling(SRL) は単語列をグループ化し、それを意味役割(semantic role)によって分類するタスク 述語がどのような項を伴うか特定する 述語と項の関係で意味役割が決まる 情報抽出・QA・文書要約・機械翻訳に役立つ 2019年5月17日

先行研究 述語項構造に基づいた SRL が詳しく研究されるようになったのは (Gildea and Jurafsky, 2002) から さまざまな研究があるが大きく分けて3つ 構成素単位の SRL 句単位の SRL 単語単位の SRL 2019年5月17日

構成素レベルの SRL 統語的な木構造表現は構成素の列に分解される 文構造や構成素のトークンに対して決まる文脈から構成素に素性を抽出 抽出した素性によって構成素に意味役割をつける分類問題 2019年5月17日

句レベルと単語レベルの SRL 基本的にチャンキングのタスク ベースフレーズもしくは単語に対して素性を抽出 IOB 表現を使って抽出した素性からトークンに意味役割ラベルをつける分類問題 2019年5月17日

依存関係単位の SRL 本論文が提案する手法 構成素の木構造から依存関係木を生成 構成素単位のシステムと使う情報は同じ 情報の構造や言語学的特性が違う 情報を依存関係によって再構築することで意味役割を局所化するのに役立つ 2019年5月17日

関連研究 (Gildea and Hockenmaier, 2003) 依存関係を使っているのは同じ CCG(Combinatory Categorical Grammar) を用いて依存関係を導出しているところが違う ラベリングに使う依存関係や素性、分類器の実装も違う 2019年5月17日

DepBank PropBank の構成素木から依存木に変換 依存関係のノードがどの単語列をカバーしているか決定するために依存木を解析 意味役割のラベルを同じ単語列をカバーしているノードに追加 どの意味役割にも対応しなかった関係には “O” というラベルをつける 2019年5月17日

依存関係の SRL 依存木を下から上・左から右方向に一直線に並べて依存関係の列を作る 各依存関係に対し素性を抽出 素性を SVM に入力 ヒューリスティックによって項にならなそうな依存関係は取り除く 各依存関係に対し素性を抽出 素性を SVM に入力 one-versus-all SVM を使用して分類 2019年5月17日

依存木展開のヒューリスティック 述語に対して局所性の尺度として木構造の family を定義 依存木の中での述語の親・子・孫・姉妹・姉妹の子・姉妹の孫からなる依存関係ノード集合 この集合に入らない関係は依存木の展開のときには無視 依存木の葉に当たる部分でも刈り込み 意味ラベル1%の損失でデータを約1/3-1/4に圧縮 2019年5月17日

トークンレベルの素性 タイプ 家族関係 位置 ヘッドの単語 依存元の単語 ヘッドの単語の品詞 依存元のヘッドの単語の品詞 パス 2019年5月17日

文レベルの素性 述語の子の品詞パターン 述語の子の関係パターン 述語の姉妹の品詞パターン 述語の姉妹の関係パターン 2019年5月17日

分類器 SVM で意味役割の分類器を実装 組み合わせた SVM 単語単位の分類器 構成素単位の分類器 句単位の分類器 次元数2の polynominal kernel を用いた TinySVM と YamCha を使用 2019年5月17日

実験 PropBank 2004年2月版で実験 セクション15-18をトレーニングに使用 セクション20をデベロップに使用 セクション21をテストに使用 つまり CoNLL 2004 shared task と同じ CoNLL 2004 shared task の結果と比較可能 2019年5月17日

実験結果 DepBank の dev set と CoNLL の dev set では再現率がかなり下がった 変換プロセスの際約8%の意味役割が失われたせい 構成素木の句のノードの中には依存木の中に相当するノードがないものがあったため とはいえ (Gildea and Hockenmaier, 2003) はミスマッチ率23%と報告しているので、それよりははるかにまし 2019年5月17日

依存関係単位の SRL の性能 構成素単位の SRL と比べて健闘 CoNLL 2004 で一番性能がよかった SRL システムは precision: 74.17%, recall: 69.42%, F1: 71.72 トレーニングに使えるデータをまだ全部使っていない 構成素単位の SRL で性能が向上することが分かっている素性も使っていない 2019年5月17日

結論 意味役割ラベルつきの依存木からなるコーパスを自動作成 依存関係を分類する SRL システムを開発 現在は PropBank と DepBank でアノテーションが合わない部分の調査中 今後は新しい素性の追加・自動パーズとの組み合わせ・構成素単位のシステムとの比較や統合を検討 2019年5月17日