意味・談話解析勉強会 チュートリアル 小町守.

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語体系とコンピュータ 第5回.
意味属性の共起による 「AのB」型名詞句の翻訳規則
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
テキストから獲得可能な因果関係知識の類別 およびその自動獲得の試み -接続助詞「ため」を含む文を中心に-
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
部分木に基づくマルコフ確率場と言語解析への適用
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
重文・複文の基本文型に対する 文型パターン辞書のカバー率
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
述語項構造に基づいた統計 翻訳における語句の並べ替え
形態素解析および係り受け解析・主語を判別
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
オントロジーを使用した プログラム開発支援システムの提案
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
6.2.4 辞書項目(1) 辞書項目にも、語に対するDAGを与える。
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
日本語統語論:構造構築と意味 No.8 連体修飾
テキストマイニング, データマイニングと 社会活動のトレース
不確実データベースからの 負の相関ルールの抽出
超大規模ウェブコーパスを用いた 分布類似度計算
文書分類モデルの統計的性質に関する一考察
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
東京工科大学 コンピュータサイエンス学部 亀田弘之
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
東京工科大学 コンピュータサイエンス学部 亀田弘之
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
大規模コーパスに基づく同義語・多義語処理
奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
並列構造に着目した係り受け解析の改善に関する研究
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
識別子の読解を目的とした名詞辞書の作成方法の一試案
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

意味・談話解析勉強会 チュートリアル 小町守

これまでの研究の目的 文内でどのような事態が表されているのかより詳しく解析したい ちょっと彼に連絡伝えてくれない? なにを連絡すればよいでしょうか? 連絡(する) [ ガ:【聞き手】, ヲ:【外界】, ニ:彼 ] 文内でどのような事態が表されているのかより詳しく解析したい

意味・談話解析勉強会 意味・談話解析 勉強会 形態素解析 CJE勉強会 構文解析 意味解析 談話解析 自然言語理解に必要な要素技術 Chasen CJE勉強会 Yamcha 構文解析 Cabocha 意味解析 意味・談話解析 勉強会 談話解析 自然言語理解に必要な要素技術

動作性名詞の項構造解析の研究背景 述語項構造解析 意味役割付与: CoNLL 共通タスク [2004, 2005] He wouldn’t accept anything of value from those he was writing about. [A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1 anything of value] from [A2 those he was writing about] . V: verb; A0: acceptor; A1: thing accepted; A2: accepted-from; A3: attribute; AM-MOD: modal; AM-NEG: negation

動作性名詞の項構造解析 ヲ ガ 【外界】 リスク管理の必要性が強く叫ばれているが、市場の実態が把握できていないため打つ手がないのが実情。BISが昨年春から調査の手法について検討していた。 ヲ ガ 管理(する) [ ガ:【外界】, ヲ:リスク ] 調査(する) [ ガ:BIS, ヲ:実態 ]

動作性名詞の項構造解析の問題設定 事態性判別 (狭義の)動作性名詞の項構造解析 1階の入り口のところの電話で電話をかけた。 電話 <電話機> 電話(する) [ ガ:【話し手】, ニ:【外界】 ] 動作性名詞: 動詞由来の名詞, サ変名詞 事態性判別 (狭義の)動作性名詞の項構造解析 動作性名詞の用例に事態性があるかどうか判別 事態性のある動作性名詞の項構造を決定し、項を同定

目次 はじめに 予備実験コーパスの作成 動作性名詞の項構造解析へのアプローチ 関連研究 まとめ 今後の予定 動作性名詞の項構造解析の問題設定 事態性判定実験 動作性名詞のヲ格同定実験 関連研究 まとめ 今後の予定

予備実験コーパスの作成 新聞記事(京大コーパス)に事態性や照応のタグをつけたコーパスを作成中 (仕様は http://cl.naist.jp/~ryu-i/coreference_tag.html) 事態を表現する名詞にタグ付与 事態性がある場合、項(格要素)が記事中にあれば該当する名詞にタグ付与、なければ【外界】タグ付与 全部で約780記事(約6,500文)タグづけ済み 目的① そもそも計算機で解ける問題なのか調べる(事態性・項同定ともに) 目的② 揺れなくタグづけできるのであればそれを用いて解析してみる ※文間: 文内には出現しないが同一記事中にある

作業者間のタグの一致率 事態性判別と動作性名詞の項構造解析という問題設定が適切であるかどうか調査 作業者1のみ 作業者2のみ 指示先不一致 タグ一致 ガ 3 4 138 604 ヲ 15 54 30 280 ニ 13 9 5 43 2名の作業者がタグ付与した140記事 事態性判別と動作性名詞の項構造解析という問題設定が適切であるかどうか調査 指示先不一致: 事態性タグを付与した動作性名詞と項構造は一致したが格要素の指示先が不一致 タグ一致: 2名の作業者間で事態性タグを付与した動作性名詞と格要素がいずれも一致

作業者間のタグの一致率 事態性判別はほとんど揺れなくタグ付与可能 項同定のためにはタグの仕様を再検討する必要 作業者1のみ 作業者2のみ 指示先不一致 タグ一致 ガ 3 4 138 604 ヲ 15 54 30 280 ニ 13 9 5 43 2名の作業者がタグ付与した140記事 事態性判別はほとんど揺れなくタグ付与可能 項同定のためにはタグの仕様を再検討する必要 ヲ格・ニ格は項構造の選択が難しい

③文内に項の候補が見つからなかった場合は文外に探しに行く 動作性名詞の項構造解析へのアプローチ ①語の意味クラスの分類問題 出現文脈の情報を使って解く 事態性判別 モノ ②文内の項の同定 文構造の情報を使って解く 名詞 文内 コト 文間 一人称 外界 ③文内に項の候補が見つからなかった場合は文外に探しに行く 二人称 不定

事態性判別の方針 大量のデータから文構造を教師なし学習 出現用例獲得 辞書 大量に用意可能 新聞 記事 …に対する説得工作は失敗に… …横にある椅子の取っ手を… 大量に用意可能 新聞 記事 名詞 リスト …に対する説得工作は失敗に… …横にある椅子の取っ手を… ①日本語語彙大系の名詞意味属性体系から名詞リストを抽出 ②新聞記事に対して名詞で検索 ③用例獲得 大量のデータから文構造を教師なし学習

動作性名詞の出現パターンの学習 正例 ・・・ 説得 交渉 文節内 …説得工作は失敗に… サ変 サ変 事態性あり 負例 ・・・ 椅子 机 後文脈 …椅子の取っ手を… の 一般名詞 事態性なし 用例中の名詞の出現パターンを木構造に変換し、BACT [Kudo and Matsumoto, 2004] で学習 学習した木構造が出現パターンのルールに相当

事態性判別実験 方法: SVM を用いて動作性名詞の事態性を判別(10分割交差検定) 使った素性 意味的な素性 統語的な素性 動作性名詞の意味クラス 分類語彙表中での分類項目の上位4桁 統語的な素性 動作性名詞の周辺に項になりそうな名詞があるかどうか EDR の動詞共起パターン副辞書 BACT で獲得した動作性名詞の出現パターン

事態性判別実験結果 精度=事態性があると分類された動作性名詞のうち正解 再現率=動作性名詞のうち事態性を正しく判定できた率 名詞の出現パターンなし 72.3% 58.7% 提案手法 73.3% 80.2% 新聞記事の事態性判別 精度=事態性があると分類された動作性名詞のうち正解 再現率=動作性名詞のうち事態性を正しく判定できた率 新聞記事80記事(800文) 動作性名詞1,237個(うち590個が事態性ありの事例)

事態性判別実験エラー分析 項が文外に存在 周辺文脈が一般名詞のルールにマッチ [ ガ:外界, ヲ:外界 ] 項が文外に存在 周辺文脈が一般名詞のルールにマッチ 今年の三が日には、お雑煮を食べたらすぐに、のびのびになっている受賞後第一作の執筆に取りかかりたい。 「野良黒山の会」のリーダー、木場将弘さん方では、妻の和枝さんらが現地と電話のやりとりを続けた。

動作性名詞の項構造解析へのアプローチ モノ 名詞 項構造解析 文内 コト 文間 一人称 外界 二人称 不定

事態性を持つ動作性名詞の項の分布 ヲ格は文内(かつ動作性名詞から近い場所)に分布 ガ格は文内・文間・外界に広く分布 ニ格は絶対数が少ない 文内(同一文節/前文節) 文外(記事内/記事外) ガ 284(18/97) 306(139/167) ヲ 235(119/69) 46(44/2) ニ 34(4/13) 6(6/0) 新聞記事80記事(800文) ヲ格は文内(かつ動作性名詞から近い場所)に分布 ガ格は文内・文間・外界に広く分布 ニ格は絶対数が少ない

ヲ格の項の同定実験 対象: 文内にヲ格の項がある文 目的: 動詞の項構造解析モデル [飯田ら, 2006] が動作性名詞に対しても有効か調査 使った素性 文の構造情報 ヲ格を持つ動作性名詞の語彙・統語情報 ヲ格候補の語彙・統語・意味・位置情報 ヲ格を持つ動作性名詞とヲ格候補の対の情報 新聞記事の共起情報から計算した相互情報量 動作性名詞とヲ格候補の対の距離

ヲ格の項の同定実験結果 評価事例 文内に関しては動詞と同じモデルでもそこそこ解ける 新聞記事80記事中文内にヲ格がある動作性名詞235個 精度 文内に関しては動詞と同じモデルでもそこそこ解ける 再現率 評価事例 新聞記事80記事中文内にヲ格がある動作性名詞235個

関連研究 動作性名詞の項構造解析のコーパス 名詞句の関係解析 NomBank [Meyers et al, 2004] PropBank [Palmer et al, 2005] に従ってタグづけ 文内の項に限定 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] より一般的な枠組み 事態性判別問題を扱っていない

まとめ 動作性名詞の項構造解析のためのコーパスを作成した 名詞の出現パターンを用いた事態性判別手法を提案した 精度73.3%・再現率80.2% 動詞の項構造解析モデルを用い、動作性名詞の文内のヲ格の項同定実験を行った 精度81.9%・再現率81.5%

名詞句の関係解析の研究背景 動作性名詞の項構造解析だけでは不十分 意見情報抽出・質問応答システムなどにはもっと詳しい情報が必要 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 【話し手】 事態関係 アイドリング(する) [ガ:【話し手】] 動作性名詞の項構造解析だけでは不十分 意見情報抽出・質問応答システムなどにはもっと詳しい情報が必要

名詞句の関係解析 事態関係だけでなく名詞句間のさまざまな関係を解析対象に ドメインやタスクに応じた関係解析 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 【話し手】 所有関係 【話し手】 [所有:車] 事態関係 アイドリング(する) [ガ:【話し手】] 部分全体関係 エアコン [部分全体:車] 事態関係だけでなく名詞句間のさまざまな関係を解析対象に ドメインやタスクに応じた関係解析

名詞句の関係解析の問題設定 関係性判別 (狭義の)名詞句の関係解析 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 【話し手】 所有関係 【話し手】 [所有:車] 事態関係 アイドリング(する) [ガ:【話し手】] 部分全体関係 エアコン [部分全体:車] 関係性判別 (狭義の)名詞句の関係解析 名詞句の用例に関係性があるかどうか判別 関係性のある名詞句について関係構造を決定し、 関係名詞を同定

予備実験コーパスの作成目的 名詞句の関係解析のタグ仕様策定 動作性名詞の事態性判別と同様の手法が適用可能か解析実験 どの関係が解析可能か ドメインやタスクによって必要となる関係の違い 動作性名詞の事態性判別と同様の手法が適用可能か解析実験

予備実験コーパスの作成 車ドメインの会話データに名詞句の関係解析用のタグをつけたコーパスを作成中(仕様は http://cl.naist.jp/~mamoru-k/wiki/) 関係を表現する名詞句にタグ付け 関係がある場合、関係する名詞句がどの関係にあるのか、どの名詞句が関係しているのかタグ付け 全部で1,070会話(2,858文)がタグ付け対象

関連研究 名詞句の関係の言語学的分析 [寺村, 1991] 計算機による名詞句の関係解析 ルールベースの解析 [島津ら, 1986] 格フレーム辞書を用いた解析 [笹野ら, 2005] ドメインを限定した解析 MUC: Message Understanding Conference [90年代] ACE: Automatic Content Extraction [1999-]

今後の予定 動作性名詞の項構造解析から名詞句の関係解析へ 名詞句の関係解析のためのタグ仕様策定 意味・談話解析勉強会