Entity-Centricな述語項構造解析・ 共参照解析の同時学習

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語モデル(200億文のGoogle日本語Nグラムから計算)
言語体系とコンピュータ 第5回.
制約に基づく言語処理から 制約なしの言語処理へ
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
検索テーマ [糖尿病における高脂血症の薬物療法] 丸善株式会社 教育・学術事業本部 商品センター
プログラムの動作を理解するための技術として
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
述語項構造に基づいた統計 翻訳における語句の並べ替え
形態素解析および係り受け解析・主語を判別
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
整合性尺度を用いた 構造的対訳文アラインメント
プロジェクトの選択基準 と CBAの役割と限界
Semi-Supervised QA with Generative Domain-Adaptive Nets
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
機械翻訳勉強会 論文紹介 mamoru-k 小町守 2018/11/9.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
複数特徴量の重み付け統合による一般物体認識
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
Number of random matrices
意味・談話解析勉強会 チュートリアル 小町守.
東京工科大学 コンピュータサイエンス学部 亀田弘之
ブースティングとキーワードフィルタリング によるシステム要求検出
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
並列構造に着目した係り受け解析の改善に関する研究
Webページタイプによるクラスタ リングを用いた検索支援システム
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
雑音環境下における Sparse Coding声質変換 3-P-49d
アップデート.
 タイピング  情報教育の効果を高めるために 慶應義塾大学 環境情報学部教授 大岩 元.
Presentation transcript:

Entity-Centricな述語項構造解析・ 共参照解析の同時学習 柴田 知秀 黒橋 禎夫 京都大学/CREST 18/03/13

はじめに End-to-end全盛の時代に基礎解析の精度を上げることに意味があるのか? ニューラル翻訳のアテンションを可視化すると照応関係がわかっている [Vaswani+2017] すべてのタスクに大量の正解を用意できるわけではない (例: 対話) そもそも正解を与えられない (例: 情報集約)

述語項構造解析 (1/2) 「誰が何をどうした」を明らかにする解析 述語に対する項の位置によって以下に分類 直接係り受けあり (格解析) 直接係り受けなし (ゼロ照応解析) 文内ゼロ照応解析 文間ゼロ照応解析 ガ ガ コワリョフ 氏は 正式な 党員ではないが 、 ロシア 共産党から 立候補 した。 ガ エリツィン 大統領 の 立場を 支持して いた。

述語項構造解析 (2/2) ニューラルネットワークの利用により精度が向上している [Shibata+16,Iida+16,Ouchi+17,Matsubayashi+17] 文間は大変難しいことから文内に限定 文間の難しさ 文内で有効な手がかりが使えない (例:述語と項のパス) 候補が大変多い (話題の中心を捉える必要がある) → Entityという概念を導入 共参照解析も同時に考えないとentityを考えられない Entity-centricな述語項構造解析・共参照解析の同時学習を提案 (ヒューリスティックなsaliencyスコアは効かない[Sasano+ 11])

関連研究 共参照解析 述語項構造解析: 共参照解析を行っていない 他のタスクでのEntity-centricモデル LSTMを利用 Entity embeddingを学習 [Wiseman+ 16, Clark+ 16] 述語項構造解析: 共参照解析を行っていない 日本語: [Shibata+ 16, Iida+ 16, Ouchi+ 17, Matsubayashi+ 17] 中国語: [Chen+ 16, Yin+ 17] 他のタスクでのEntity-centricモデル テキスト理解 [Henaff+ 17, Wang+ 17, Kobayashi+ 16] 言語モデル [Ji+ 17, Kobayashi+ 17] LSTMを利用

提案手法 entity buffer ・・・ 著者 読者 党員 ロシア ガ ガ ガ コワリョフ氏 コワリョフ 氏 は 正式な 党員 で は ない が 、 ロシア 共産党 から 立候補 し 当選 した。 … … 同 氏 は 当選 まで … … 学者 。 ガ 共参照解析 述語項構造解析 エリツィン 大統領 の 立場 を 支持 して いた 。

目次 ベースラインモデル Entity-centricモデル 入力のencoding 共参照解析 述語項構造解析 Entity embedding 更新 解析におけるentity embeddingの利用

1. 入力のencoding 古典的機械学習: 見出し・品詞などの組合せ 素性を人手で設計 (feature engineeringが必要) → CNNとBi-LSTMで基本句のencodingを得る Bi-LSTM ・・・ CNN 単語(見出し) 品詞 コワリョフ 氏 は 正式な 党員 で は ない が

2. 共参照解析 先行詞候補の中から最もスコアの高いものを先行詞として採用 (mention-ranking model) 先行詞候補: 自分よりも前のmention, 外界(著者, 読者など), NULL(先行詞なし) スコア 対象 mention 先行詞候補 完全/部分一致, 文間距離, … 同氏 コワリョフ氏

3. 述語項構造解析 格解析とゼロ照応解析を同時に扱う 項候補: 自分より前のmention, 外界(著者, 読者など), NULL(項をとらない) スコア 述語 項候補 path embedding 選択選好, 文間距離, … 立候補し コワリョフ氏 コワリョフ 氏 P 党員 ・・・ 立候補 し

目次 ベースラインモデル Entity-centricモデル 入力のencoding 共参照解析 述語項構造解析 Entity embedding 更新 解析におけるentity embeddingの利用

1. Entity Embedding 更新 共参照解析 [Wiseman+ 16] ゼロ照応解析

1. Entity Embedding 更新 共参照解析 [Wiseman+ 16] ゼロ照応解析

2. 解析におけるEntity Embeddingの利用 共参照解析 述語項構造解析 entity embeddingと対象mentionのembeddingの内積を計算し、ベース ラインモデルで計算したスコアに加算 [Wiseman+ 16]

実験設定 評価コーパス: 対象の格: ガ, ヲ, ニ, ガ2 外界照応: 著者, 読者, 不特定:人 次の3つの手法を比較: ウェブ: 京都大学Webリードコーパス (1.5万文) 新聞: 京大コーパス (5千文) 対象の格: ガ, ヲ, ニ, ガ2 外界照応: 著者, 読者, 不特定:人 次の3つの手法を比較: ベースライン: mentionベース +entity (CR): 共参照解析でentityを考慮 [Wiseman+16] +entity (CR, PA): 共参照・述語項構造解析でentityを考慮 ガ 魚をさばくのは難しい。

実験結果 ウェブ 新聞

正解例 誤り例 ムルジは、バンダが政府を去った後、UDFを率いるとともに民主主義の代弁者となった。 述語項構造: ベースライン 提案手法 正解例 共参照解析: ムルジは、バンダが政府を去った後、UDFを率いるとともに民主主義の代弁者となった。 しかし、ムルジの大統領としての日々は、論争とスキャンダルに費やされた日々でもあった。 特に、国中に飢饉をもたらした旱魃が始まる直前に、他国へトウモロコシの備蓄を売却していたことが問題となった。 ガ○ ガ× 不特定:人 誤り例 著者 ガ× 不特定:人 → 大域的なトレーニング 毎日のように通院ですよ! 私自身は とても 健康なんですけど。 NULL ノ → 橋渡し照応解析 大変印象的ドレスです。 オーガンジーの上にラインを描くように小さな ビーズで装飾されています。 ガ×

まとめ Entity-Centricな述語項構造解析・共参照解析の同時学習モデルを提案 文間ゼロ照応解析の精度を大幅に向上 今後の課題 大域的なトレーニング 橋渡し照応解析 事態間知識などの知識の利用 例: Xが小型化 → Xが普及