動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語モデル(200億文のGoogle日本語Nグラムから計算)
意味属性の共起による 「AのB」型名詞句の翻訳規則
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
テキストから獲得可能な因果関係知識の類別 およびその自動獲得の試み -接続助詞「ため」を含む文を中心に-
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
重文・複文の基本文型に対する 文型パターン辞書のカバー率
述語項構造に基づいた統計 翻訳における語句の並べ替え
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
決定木とランダムフォレスト 和田 俊和.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
テキストマイニング, データマイニングと 社会活動のトレース
不確実データベースからの 負の相関ルールの抽出
超大規模ウェブコーパスを用いた 分布類似度計算
文書分類モデルの統計的性質に関する一考察
Number of random matrices
意味・談話解析勉強会 チュートリアル 小町守.
東京工科大学 コンピュータサイエンス学部 亀田弘之
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
大規模コーパスに基づく同義語・多義語処理
奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
並列構造に着目した係り受け解析の改善に関する研究
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
形態素解析と構文解析 金子邦彦.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
Presentation transcript:

動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析 奈良先端科学技術大学院大学 情報科学研究科自然言語処理学講座 小町守

事態性名詞の項構造解析の目標 意味の同じ表現の認識 全て「原子爆弾がドームを破壊した」という事態を指す 「原子爆弾によって破壊されたドーム」 「ドームが原子爆弾によって破壊された」 「原子爆弾がドームを破壊した」 「原子爆弾によるドームの破壊」 主節 能動態 名詞化 事態性名詞の項構造解析が必要 全て「原子爆弾がドームを破壊した」という事態を指す 事態の認識はテキスト要約・機械翻訳に役立つ

事態性名詞の項構造解析 ヲ ガ 【文外】 リスク管理の必要性が強く叫ばれているが、市場の実態が把握できていないため打つ手がないのが実情。BISが昨年春から調査の手法について検討していた。 ヲ ガ 項構造= 誰が、何を、どうする 管理(する) [ ガ:【文外】, ヲ:リスク ] 種類 例 サ変名詞 管理 動詞由来の名詞 動き 事態を示す名詞 運動会 調査(する) [ ガ:BIS, ヲ:実態 ] 事態性名詞= 行為・状態・出来事を指す名詞

公衆電話で電話をすることがめっきり減った。 事態性名詞の項構造解析のタスク設定 公衆電話で電話をすることがめっきり減った。 モノとしての電話 「XガYニ電話する」 というコト(事態) モノかコトか? 名詞の事態性判別 事態性名詞の項同定 文中の名詞に事態性があるかどうか判別 誰ガ何ニどうする? 事態性のある名詞の項を同定

関連研究 事態性名詞の項構造解析のコーパス 名詞句の関係解析 NomBank [Meyers et al., 2004] PropBank [Palmer et al., 2005] に従って英語のコーパス Penn TreeBank にタグづけ 文内の項に限定 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] 一般的な日本語の名詞間の関係解析(事態性名詞の項構造を包含) 事態性判別問題を扱っていない

目次 はじめに 事態性名詞の項構造解析 事態性名詞の事態性判定 事態性名詞の項同定 まとめ 今後の予定 第1節 第2節 第3節 第4節

事態性判別の方針 出現用例獲得 辞書 出現パターン 新聞 記事 大量のデータから事態性名詞を含む文構造を取得 …に対する説得工作は失敗に… …横にある椅子の取っ手を… 出現パターン 新聞 記事 名詞 リスト …に対する説得工作は失敗に… …横にある椅子の取っ手を… ①日本語語彙大系の名詞意味属性体系から名詞リストを抽出 ②新聞記事に対して名詞で検索 ③用例獲得 大量のデータから事態性名詞を含む文構造を取得

事態性名詞の出現パターンの学習 正例 ・・・ 説得 交渉 サ変 文節内 の 後文脈 一般名詞 …説得工作は失敗に… 文節ごとに 表記・品詞・複合名詞 などフラットな木を作成 事態性あり 負例 ・・・ 椅子 机 …椅子の取っ手を… 事態性なし 用例中の名詞の出現パターンを木構造に変換し、部分木構造を用いたブースティング BACT [Kudo and Matsumoto, 2004] で学習 学習した部分木構造が出現パターンに相当

事態性判別実験 方法: Support Vector Machines を用いて名詞の事態性を判別 評価:10分割交差検定 使った情報 意味的な情報 事態性名詞の意味クラス 文法的な情報 事態性名詞の周辺に項になりそうな名詞があるかどうか 新聞記事から獲得した事態性名詞の出現パターン(計算量の問題から BACT は出現パターン獲得のみに使用)

事態性判別実験結果 名詞の出現パターンを使うことで再現率が大幅に向上 精度=事態性があると分類された名詞の正解率 名詞の出現パターンなし 72.3% 58.7% 提案手法 73.3% 80.2% 新聞記事の事態性判別 精度=事態性があると分類された名詞の正解率 再現率=名詞のうち事態性を正しく判定できた率 新聞記事80記事(800文) 事態性名詞1,237個(うち590個が事態性ありの事例) 名詞の出現パターンを使うことで再現率が大幅に向上

目次 はじめに 事態性名詞の項構造解析 事態性名詞の事態性判定 事態性名詞の項同定 まとめ 今後の予定 第1節 第2節 第3節 第4節

NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 述語・事態タグと項の出現位置の分布 NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 文内 文間 文外 同一文節 係り受け その他 総数 ガ 7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%) ヲ 50%(0%) 31%(84%) 10%(13%) 8%(3%) 0%(0%) ニ 43%(3%) 22%(88%) 24%(7%) 10%(3%) 事態性名詞は述語と比べて文間に項が現れる割合が多い [飯田ら, 2007] 述語のヲ格・ニ格は9割が係り受け 事態性名詞のヲ格・ニ格は約半数が同一文節内 係り受け以外の情報を用いた項同定 共起・構文情報

共起スコア=<v,c>とnの間の相互情報量 PLSI を用いた共起スコアの計算 Probabilistic Latent Semantic Indexing [Hoffman, 1999] を用い、名詞 n が格助詞 c を介して動詞 v に係っているときの共起確率を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮 上司が推薦する が推薦する 上司 共起スコア=<v,c>とnの間の相互情報量

事態性名詞の項同定 項らしさを判定する分類器 入力: 項と文内の項以外の名詞をペアにして入力 出力: どちらがより項らしいか 日本政府による民間支援が活性化する。 支援(する) ガ 政府,民間 民間,活性 日本,民間 ヲ 政府,民間 政府,活性 日本,政府

項と項以外の名詞の共起スコアの比較 全体の71.2%が どのような事例が 第2・第4象限 含まれているのか? 第2・第4象限の事例は 項の共起スコア 第2・第4象限の事例は 共起スコアの高い方が 項とした場合精度90.0% →共起のみでも分類可能 第1・第3象限の事例は 共起スコアだけでは 決められない 項以外の名詞の共起スコア

述語項構造解析モデルを利用した実験 目的: 共起スコアだけでは項同定できない事例にどのような問題があるか分析 方法: 述語項構造解析 [Iida et al., 2006] の情報を用いて SVM による分類器を作成、第1象限で分類を誤った事例を人手で分類 対象: NAIST テキストコーパス1.2βから新聞記事1日分(137記事)を訓練データ・別の1日分(150記事)をテストデータに使用

実験に用いた情報 情報 説明(例) 事例 語彙情報 単語の表記 日本 共起情報 動詞・格要素と名詞の共起スコア 日本政府による民間支援が活性化する。 情報 説明(例) 事例 語彙情報 単語の表記 日本 共起情報 動詞・格要素と名詞の共起スコア <支援(する),ガ>, 日本→2.80 意味情報 固有表現かどうか 固有名詞・地域(日本) 構文情報 文節内の品詞列 固有名詞-一般名詞-格助詞(日本政府による) 位置情報 名詞句の先頭(または末尾)かどうか 1(日本政府による)

実験結果 情報 誤り個数 全ての情報を用いた場合 287(9.1%) −語彙情報 303(9.7%) −共起情報 320(10.2%) 新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132) 情報 誤り個数 全ての情報を用いた場合 287(9.1%) −語彙情報 303(9.7%) −共起情報 320(10.2%) −意味情報 294(9.4%) −構文情報 376(12.0%) −位置情報 290(9.3%) 共起情報のみを用いる 1,696(44.2%) 第一象限の項同定には構文情報と共起情報が有効

誤り分析(1) 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名詞)のガ格と一致 第一象限で誤った事例のうち 項のほうが共起スコアが低い事例 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名詞)のガ格と一致 述語と項を共有するような事態性名詞の出現パターンが存在 ドイツは……エリツィン政権に対する支援を続ける べきかどうか苦しい選択に迫られている。

誤り分析(2) 係り受け関係にある項の間違い 「の→ガ」「に対する→ニ」という格の交替 ロシアのチェチェン共和国に対する武力介入…… 誤りのタイプ 数 例 動詞と項を共有 19 XガYニ迫られる 格の交替がある 13 チェチェン共和国に対する武力介入 複合名詞内の項 12 安保理はガリ提案を検討 連体節内の項 6 相手は経験の浅い柴田 AのBの形の項 育英は初出場の三本木農を破り 遠く離れた係り受け

まとめ 事態性名詞の項構造解析の問題設定 教師なしに獲得した名詞の出現パターンを用いた事態性判別手法の提案 事態性名詞の項同定に向けた動詞と格要素の共起モデルと構文情報の有効性を分析

今後の予定 共起モデルの効果的な使用方法 項同定に有効な構文情報を組み込む 事態性名詞の項同定を行うシステムの作成

研究背景 自然言語処理の基盤技術の発展 単位 ツール コーパス 形態素解析 単語 ChaSen 京都テキストコーパス 構文解析 文節 新人=彼 自然言語処理の基盤技術の発展 名詞 助詞 動詞 助動詞 新人が来た。彼は上司が推薦した。 単位 ツール コーパス 形態素解析 単語 ChaSen 京都テキストコーパス 構文解析 文節 CaboCha 意味解析 単語と文節 SynCha NAISTテキストコーパス 談話解析 文 --- ガ ヲ ①事態性名詞の 項構造解析器の開発 ②事態タグつき コーパスの作成

事態性名詞の項構造解析の応用 事態クラスタリング 事態性名詞を用いた情報検索における質問拡張(query expansion) 文体変換 同じ事態を指す(統語的には異なる)複数の表現をまとめてクラスタリング 事態性名詞を用いた情報検索における質問拡張(query expansion) 同じ事態を指す動詞・名詞を用いてマッチを取る 文体変換 新聞記事を対話調に、口語体を論文風に

Web 5億文の共起スコアの分類性能

新聞記事1日分を対象に全象限のデータを用いて実験(総数13,640) 実験結果 新聞記事1日分を対象に全象限のデータを用いて実験(総数13,640) 情報 誤り個数 全ての情報を用いた場合 476(3.5%) −語彙情報 510(3.7%) −共起情報 684(5.0%) −意味情報 −構文情報 644(4.7%) −位置情報 700(5.1%) 共起情報のみを用いる 1,305(9.6%) 項同定には位置情報と共起情報が有効