共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語体系とコンピュータ 第5回.
意味属性の共起による 「AのB」型名詞句の翻訳規則
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
テキストから獲得可能な因果関係知識の類別 およびその自動獲得の試み -接続助詞「ため」を含む文を中心に-
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
部分木に基づくマルコフ確率場と言語解析への適用
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
重文・複文の基本文型に対する 文型パターン辞書のカバー率
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
述語項構造に基づいた統計 翻訳における語句の並べ替え
形態素解析および係り受け解析・主語を判別
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
プログラム実行履歴を用いたトランザクションファンクション抽出手法
オントロジーを使用した プログラム開発支援システムの提案
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
6.2.4 辞書項目(1) 辞書項目にも、語に対するDAGを与える。
奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
社会シミュレーションのための モデル作成環境
コードクローンの動作を比較するためのコードクローン周辺コードの解析
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
日本語統語論:構造構築と意味 No.8 連体修飾
テキストマイニング, データマイニングと 社会活動のトレース
不確実データベースからの 負の相関ルールの抽出
超大規模ウェブコーパスを用いた 分布類似度計算
Number of random matrices
意味・談話解析勉強会 チュートリアル 小町守.
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
大規模コーパスに基づく同義語・多義語処理
奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
並列構造に着目した係り受け解析の改善に関する研究
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析 奈良先端科学技術大学院大学  情報科学研究科 小町守・飯田龍・乾健太郎・松本裕治

研究背景 述語項構造解析 意味役割付与: CoNLL shared task 2004, 2005 He wouldn’t accept anything of value from those he was writing about. [A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1 anything of value] from [A2 those he was writing about] . V: verb; A0: acceptor; A1: thing accepted; A2: accepted-from; A3: attribute; AM-MOD: modal; AM-NEG: negation

動作性名詞の項構造解析 ヲ ガ 【外界】 リスク管理の必要性が強く叫ばれているが、市場の実態が把握できていないため打つ手がないのが実情。BISが昨年春から調査の手法について検討していた。 ヲ ガ 管理(する) [ ガ:【外界】, ヲ:リスク ] 調査(する) [ ガ:BIS, ヲ:実態 ]

動作性名詞の項構造解析 事態性判別 (狭義の)動作性名詞の項構造解析 1階の入り口のところの電話で電話をかけた。 電話 <電話機> 電話(する) [ ガ:(話し手), ニ:(外界) ] 動作性名詞: 動詞由来の名詞, サ変名詞 事態性判別 (狭義の)動作性名詞の項構造解析 動作性名詞の用例に事態性があるかどうか判別 事態性のある動作性名詞の項構造を決定し、項を同定

目次 はじめに 予備実験コーパスの作成 動作性名詞の項構造解析へのアプローチ 関連研究 まとめ 今後の予定 動作性名詞の項構造解析の問題設定 事態性判定実験 動作性名詞のヲ格同定実験 関連研究 まとめ 今後の予定

予備実験コーパスの作成 新聞記事(京大コーパス)に事態性名詞や照応のタグをつけたコーパスを作成中 (仕様は http://cl.naist.jp/~ryu-i/coreference_tag.html) 事態を表現する名詞(形態素)にタグ付与 事態性がある場合、項(格要素)が記事中にあれば該当する形態素にタグ付与、なければ「外界」タグ付与 全部で約780記事(約6,500文)タグづけ済み 目的① そもそも計算機で解ける問題なのか調べる(事態性・項同定ともに) 目的② 揺れなくタグづけできるのであればそれを用いて解析してみる ※文間: 文内には出現しないが同一記事中にある

作業者間のタグの一致率 指示先不一致: 事態性タグを付与した動作性名詞と項構造は一致したが格要素の指示先が不一致 作業者1のみ 作業者2のみ 指示先不一致 タグ一致 ガ 3 4 138 604 ヲ 15 54 30 280 ニ 13 9 5 43 2名の作業者がタグ付与した140記事 指示先不一致: 事態性タグを付与した動作性名詞と項構造は一致したが格要素の指示先が不一致 タグ一致: 2名の作業者間で事態性タグを付与した動作性名詞と格要素がいずれも一致

作業者間のタグの一致率 事態性判別はほとんど揺れなくタグ付与可能 項同定のためにはタグの仕様を再検討する必要 作業者1のみ 作業者2のみ 指示先不一致 タグ一致 ガ 3 4 138 604 ヲ 15 54 30 280 ニ 13 9 5 43 2名の作業者がタグ付与した140記事 事態性判別はほとんど揺れなくタグ付与可能 項同定のためにはタグの仕様を再検討する必要 ヲ格・ニ格は格フレームの選択が難しい

③文内に項の候補が見つからなかった場合は文外に探しに行く 動作性名詞の項構造解析へのアプローチ ①語の意味クラスの分類問題 出現文脈の情報を使って解く 事態性判別 モノ ②文内の項の同定 文構造の情報を使って解く 名詞 文内 コト 文間 一人称 外界 ③文内に項の候補が見つからなかった場合は文外に探しに行く 二人称 不定

事態性判別の方針 大量のデータから文構造を教師なし学習 出現用例獲得 辞書 大量に用意可能 新聞 記事 …に対する説得工作は失敗に… …横にある椅子の取っ手を… 大量に用意可能 新聞 記事 名詞 リスト …に対する説得工作は失敗に… …横にある椅子の取っ手を… ①日本語語彙大系の名詞意味属性体系から名詞リストを抽出 ②新聞記事に対して名詞で検索 ③用例獲得 大量のデータから文構造を教師なし学習

動作性名詞の出現パターンの学習 正例 ・・・ 説得 交渉 文節内 …説得工作は失敗に… サ変 サ変 事態性あり 負例 ・・・ 椅子 机 後文脈 …椅子の取っ手を… の 一般名詞 事態性なし 用例中の名詞の出現パターンを木構造に変換し、BACT [Kudo and Matsumoto, 2004] で学習 学習した木構造が出現パターンのルールに相当

事態性判別実験 方法: SVM を用いて動作性名詞の事態性を判別(10分割交差検定) 使った素性 意味的な素性 統語的な素性 動作性名詞の意味クラス 分類語彙表中での分類項目の上位4桁 統語的な素性 動作性名詞の周辺に項になりそうな名詞があるかどうか EDR の動詞共起パターン副辞書 BACT で獲得した動作性名詞の出現パターン

事態性判別実験結果 精度=事態性があると分類された動作性名詞のうち正解 再現率=動作性名詞のうち事態性を正しく判定できた率 名詞の出現パターンなし 72.3% 58.7% 提案手法 73.3% 80.2% 新聞記事の事態性判別 精度=事態性があると分類された動作性名詞のうち正解 再現率=動作性名詞のうち事態性を正しく判定できた率 新聞記事80記事(800文) 動作性名詞1,237個(うち590個が事態性ありの事例)

事態性判別実験エラー分析 項が文外に存在 周辺文脈が一般名詞のルールにマッチ [ ガ:外界, ヲ:外界 ] 項が文外に存在 周辺文脈が一般名詞のルールにマッチ 今年の三が日には、お雑煮を食べたらすぐに、のびのびになっている受賞後第一作の執筆に取りかかりたい。 「野良黒山の会」のリーダー、木場将弘さん方では、妻の和枝さんらが現地と電話のやりとりを続けた。

動作性名詞の項構造解析へのアプローチ モノ 名詞 項構造解析 文内 コト 文間 一人称 外界 二人称 不定

事態性を持つ動作性名詞の項の分布 ヲ格は文内(かつ動作性名詞から近い場所)に分布 ガ格は文内・文間・外界に広く分布 ニ格は絶対数が少ない 文内(同一文節/前文節) 文外(記事内/記事外) ガ 284(18/97) 306(139/167) ヲ 235(119/69) 46(44/2) ニ 34(4/13) 6(6/0) 新聞記事80記事(800文) ヲ格は文内(かつ動作性名詞から近い場所)に分布 ガ格は文内・文間・外界に広く分布 ニ格は絶対数が少ない

ヲ格の項の同定実験 対象: 文内にヲ格の項がある文 目的: 動詞の項構造解析モデル [飯田ら, 2006] が動作性名詞に対しても有効か調査 使った素性 文の構造情報 ヲ格を持つ動作性名詞の語彙・統語情報 ヲ格候補の語彙・統語・意味・位置情報 ヲ格を持つ動作性名詞とヲ格候補の対の情報 新聞記事の共起情報から計算した相互情報量 動作性名詞とヲ格候補の対の距離

ヲ格の項の同定実験結果 評価事例 文内に関しては動詞と同じモデルでもそこそこ解ける 新聞記事80記事中文内にヲ格がある動作性名詞235個 精度 文内に関しては動詞と同じモデルでもそこそこ解ける 再現率 評価事例 新聞記事80記事中文内にヲ格がある動作性名詞235個

関連研究 動作性名詞の項構造解析のコーパス 名詞句の関係解析 NomBank [Meyers et al, 2004] PropBank [Palmer et al, 2005] に従ってタグづけ 文内の項に限定 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] より一般的な枠組み 事態性判別問題を扱っていない

まとめ 動作性名詞の項構造解析のためのコーパスを作成した 名詞の出現パターンを用いた事態性判別手法を提案した 精度73.3%・再現率80.2% 動詞の項構造解析モデルを用い、動作性名詞の文内のヲ格の項同定実験を行った 精度81.9%・再現率81.5%

今後の予定 文外の候補を同定するモデルの作成 ヲ格以外の必須格についても項同定 意味役割や語彙概念構造を用いた解析