大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析

Slides:



Advertisements
Similar presentations
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
Advertisements

英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
ユーザーイメージ収集 インターフェイスの開発
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語モデル(200億文のGoogle日本語Nグラムから計算)
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
テキストから獲得可能な因果関係知識の類別 およびその自動獲得の試み -接続助詞「ため」を含む文を中心に-
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
まずオープンソース開発者に対する支援から!
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
重文・複文の基本文型に対する 文型パターン辞書のカバー率
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
述語項構造に基づいた統計 翻訳における語句の並べ替え
形態素解析および係り受け解析・主語を判別
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析
検索エンジンを利用した Covert Channelの検出
プログラム実行履歴を用いたトランザクションファンクション抽出手法
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
6.2.4 辞書項目(1) 辞書項目にも、語に対するDAGを与える。
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
音高による音色変化に着目した音源同定に関する研究
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
コードクローンの動作を比較するためのコードクローン周辺コードの解析
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
文書分類モデルの統計的性質に関する一考察
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
意味・談話解析勉強会 チュートリアル 小町守.
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
大規模コーパスに基づく同義語・多義語処理
奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
並列構造に着目した係り受け解析の改善に関する研究
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 小町守

研究背景 大規模な web データが利用可能に 有用な情報だけ取り出したい 評判分析 自動要約 質問応答システム

名詞間の関係解析 名詞間のさまざまな関係が解析対象 構造化されていないデータからの知識獲得 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 【話し手】 所有 【話し手】 [所有:車] 事態 アイドリング(する) [ガ:【話し手】] 部分全体 エアコン [部分全体:車] 名詞間のさまざまな関係が解析対象 構造化されていないデータからの知識獲得

項:事態が命題として成立するための必須要素 事態に着目した関係解析 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 事態:文が表す命題のうち、 実世界に対応するもの 【話し手】 事態 アイドリング(する) [ガ:【話し手】] 項構造:事態が伴う項のパターン 項:事態が命題として成立するための必須要素 関係解析 =項構造解析

事態名詞の項構造解析の問題設定 事態名詞の事態性判別 事態名詞の項構造決定 事態名詞の項同定 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 事態名詞: 動詞由来の名詞 サ変名詞,事態を指す名詞 【話し手】 事態 アイドリング(する) [ガ:【話し手】] 事態名詞の事態性判別 事態名詞の項構造決定 事態名詞の項同定 出現した事態名詞に事態性があるかどうか判別 事態性のある事態名詞の項構造を決定 事態性のある事態名詞の項を同定

事態名詞の項構造解析モデル ①語の意味クラスの分類問題 出現文脈の情報を使って解く 事態性判別モデル 項構造決定モデル 項構造同定モデル PAS: 項構造 CF: 格フレーム CA: 格フレームと格の対応付け pred: 述語候補(動詞・事態名詞など) event: 事態性の有無 ②文内の項構造の決定 文構造の情報を使って解く i:文内の述語候補 j:述語の格フレーム k:格フレームと格の    対応付け

目次 はじめに 事態名詞の項構造解析 事態名詞の事態性判定実験 事態名詞の項構造決定実験 事態名詞の項同定実験 まとめ 今後の予定

事態性判別の方針 出現用例獲得 辞書 出現パターン 新聞 記事 大量のデータから事態名詞を含む文構造を取得 事態性あり 事態性なし …に対する説得工作は失敗に… …横にある椅子の取っ手を… 出現パターン 事態性あり 新聞 記事 名詞 リスト …に対する説得工作は失敗に… …横にある椅子の取っ手を… ①日本語語彙大系の名詞意味属性体系から名詞リストを抽出 ②新聞記事に対して名詞で検索 ③用例獲得 事態性なし 大量のデータから事態名詞を含む文構造を取得

事態性判別実験 方法: Support Vector Machines を用いて事態名詞の事態性を判別 使った情報 意味的な情報 事態名詞の意味クラス 文法的な情報 事態名詞の周辺に項になりそうな名詞があるかどうか 新聞記事から獲得した事態名詞の出現パターン

事態性判別実験結果 名詞の出現パターンを使うことで再現率が大幅に向上 精度=事態性があると分類された事態名詞の正解率 名詞の出現パターンなし 72.3% 58.7% 提案手法 73.3% 80.2% 新聞記事の事態性判別 精度=事態性があると分類された事態名詞の正解率 再現率=事態名詞のうち事態性を正しく判定できた率 新聞記事80記事(800文) 事態名詞1,237個(うち590個が事態性ありの事例) 名詞の出現パターンを使うことで再現率が大幅に向上

事態名詞の項構造の多義性 事態名詞の1/3は項構造を決定する必要 人手によるタグづけのミスの例もある 異なり単語数 複数の項構造 頻度1以上 2,461 1,363 頻度3以上 1,285 413 事態名詞の1/3は項構造を決定する必要 人手によるタグづけのミスの例もある 事態名詞の項構造辞書があればミス防止可能

事態名詞の項構造決定実験 方法: Support Vector Machines を用いて事態名詞の項構造を決定 当てる格フレームは4種類(ガ/ガヲ/ガニ/ガヲニ) 使った情報: 事態性判別実験と同じ 対象: 新聞記事80記事(800文)中複数の格フレームを持つ事態名詞135個 正解72個/不正解63個(精度 53.3%) 格フレーム決定は難しい

事態名詞の項同定実験 対象: 文内にヲ格の項がある235文 動詞の項構造解析モデル [飯田ら, 2006] を事態名詞に対して適応 使った情報 事態名詞の文節の情報 事態名詞の項の情報 事態名詞と事態名詞の項の関係に関する情報

ヲ格の項の同定実験結果 精度 動詞と同じモデルでも8割解ける 再現率 評価事例 新聞記事80記事中文内にヲ格がある事態名詞235個

関連研究 述語項構造解析 事態名詞の項構造解析のコーパス 名詞句の関係解析 [Daniel and Jurafsky, 2002] PropBank [Palmer et al, 2005] CoNLL shared task [2004, 2005] 事態名詞の項構造解析のコーパス NomBank [Meyers et al, 2004] 文内の項に限定 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] より一般的な枠組み 事態性判別問題を扱っていない

まとめ 名詞の出現パターンを用いた事態性判別手法を提案した 事態名詞の項構造決定実験を行った 精度73.3%・再現率80.2% 事態名詞の項構造決定実験を行った 精度53.3% 動詞の項構造解析モデルを用い、事態名詞の文内のヲ格の項同定実験を行った 精度81.9%・再現率81.5%

今後の予定 実験に使ったコーパスの見直し 10月中に外部公開予定 項構造決定の精度を上げる 確率モデルの導入とシステム全体の最適化