大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 小町守
研究背景 大規模な web データが利用可能に 有用な情報だけ取り出したい 評判分析 自動要約 質問応答システム
名詞間の関係解析 名詞間のさまざまな関係が解析対象 構造化されていないデータからの知識獲得 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 【話し手】 所有 【話し手】 [所有:車] 事態 アイドリング(する) [ガ:【話し手】] 部分全体 エアコン [部分全体:車] 名詞間のさまざまな関係が解析対象 構造化されていないデータからの知識獲得
項:事態が命題として成立するための必須要素 事態に着目した関係解析 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 事態:文が表す命題のうち、 実世界に対応するもの 【話し手】 事態 アイドリング(する) [ガ:【話し手】] 項構造:事態が伴う項のパターン 項:事態が命題として成立するための必須要素 関係解析 =項構造解析
事態名詞の項構造解析の問題設定 事態名詞の事態性判別 事態名詞の項構造決定 事態名詞の項同定 車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か? 事態名詞: 動詞由来の名詞 サ変名詞,事態を指す名詞 【話し手】 事態 アイドリング(する) [ガ:【話し手】] 事態名詞の事態性判別 事態名詞の項構造決定 事態名詞の項同定 出現した事態名詞に事態性があるかどうか判別 事態性のある事態名詞の項構造を決定 事態性のある事態名詞の項を同定
事態名詞の項構造解析モデル ①語の意味クラスの分類問題 出現文脈の情報を使って解く 事態性判別モデル 項構造決定モデル 項構造同定モデル PAS: 項構造 CF: 格フレーム CA: 格フレームと格の対応付け pred: 述語候補(動詞・事態名詞など) event: 事態性の有無 ②文内の項構造の決定 文構造の情報を使って解く i:文内の述語候補 j:述語の格フレーム k:格フレームと格の 対応付け
目次 はじめに 事態名詞の項構造解析 事態名詞の事態性判定実験 事態名詞の項構造決定実験 事態名詞の項同定実験 まとめ 今後の予定
事態性判別の方針 出現用例獲得 辞書 出現パターン 新聞 記事 大量のデータから事態名詞を含む文構造を取得 事態性あり 事態性なし …に対する説得工作は失敗に… …横にある椅子の取っ手を… 出現パターン 事態性あり 新聞 記事 名詞 リスト …に対する説得工作は失敗に… …横にある椅子の取っ手を… ①日本語語彙大系の名詞意味属性体系から名詞リストを抽出 ②新聞記事に対して名詞で検索 ③用例獲得 事態性なし 大量のデータから事態名詞を含む文構造を取得
事態性判別実験 方法: Support Vector Machines を用いて事態名詞の事態性を判別 使った情報 意味的な情報 事態名詞の意味クラス 文法的な情報 事態名詞の周辺に項になりそうな名詞があるかどうか 新聞記事から獲得した事態名詞の出現パターン
事態性判別実験結果 名詞の出現パターンを使うことで再現率が大幅に向上 精度=事態性があると分類された事態名詞の正解率 名詞の出現パターンなし 72.3% 58.7% 提案手法 73.3% 80.2% 新聞記事の事態性判別 精度=事態性があると分類された事態名詞の正解率 再現率=事態名詞のうち事態性を正しく判定できた率 新聞記事80記事(800文) 事態名詞1,237個(うち590個が事態性ありの事例) 名詞の出現パターンを使うことで再現率が大幅に向上
事態名詞の項構造の多義性 事態名詞の1/3は項構造を決定する必要 人手によるタグづけのミスの例もある 異なり単語数 複数の項構造 頻度1以上 2,461 1,363 頻度3以上 1,285 413 事態名詞の1/3は項構造を決定する必要 人手によるタグづけのミスの例もある 事態名詞の項構造辞書があればミス防止可能
事態名詞の項構造決定実験 方法: Support Vector Machines を用いて事態名詞の項構造を決定 当てる格フレームは4種類(ガ/ガヲ/ガニ/ガヲニ) 使った情報: 事態性判別実験と同じ 対象: 新聞記事80記事(800文)中複数の格フレームを持つ事態名詞135個 正解72個/不正解63個(精度 53.3%) 格フレーム決定は難しい
事態名詞の項同定実験 対象: 文内にヲ格の項がある235文 動詞の項構造解析モデル [飯田ら, 2006] を事態名詞に対して適応 使った情報 事態名詞の文節の情報 事態名詞の項の情報 事態名詞と事態名詞の項の関係に関する情報
ヲ格の項の同定実験結果 精度 動詞と同じモデルでも8割解ける 再現率 評価事例 新聞記事80記事中文内にヲ格がある事態名詞235個
関連研究 述語項構造解析 事態名詞の項構造解析のコーパス 名詞句の関係解析 [Daniel and Jurafsky, 2002] PropBank [Palmer et al, 2005] CoNLL shared task [2004, 2005] 事態名詞の項構造解析のコーパス NomBank [Meyers et al, 2004] 文内の項に限定 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] より一般的な枠組み 事態性判別問題を扱っていない
まとめ 名詞の出現パターンを用いた事態性判別手法を提案した 事態名詞の項構造決定実験を行った 精度73.3%・再現率80.2% 事態名詞の項構造決定実験を行った 精度53.3% 動詞の項構造解析モデルを用い、事態名詞の文内のヲ格の項同定実験を行った 精度81.9%・再現率81.5%
今後の予定 実験に使ったコーパスの見直し 10月中に外部公開予定 項構造決定の精度を上げる 確率モデルの導入とシステム全体の最適化