事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成 松本研 研究会発表 2007年4月25日 奈良先端大(D1)小町守
事態性名詞の項構造解析の目標 意味の同じ表現の認識 全て「原子爆弾がドームを破壊した」という事態を指す 「原子爆弾によって破壊されたドーム」 「ドームが原子爆弾によって破壊された」 「原子爆弾がドームを破壊した」 「原子爆弾によるドームの破壊」 主節 能動態 名詞化 事態性名詞の項構造解析が必要 全て「原子爆弾がドームを破壊した」という事態を指す 事態の認識はテキスト要約・機械翻訳に役立つ
事態性名詞の項構造解析 ヲ ガ 【文外】 リスク管理の必要性が強く叫ばれているが、市場の実態が把握できていないため打つ手がないのが実情。BISが昨年春から調査の手法について検討していた。 ヲ ガ 項構造= 誰が、何を、どうする 管理(する) [ ガ:【文外】, ヲ:リスク ] 種類 例 サ変名詞 管理 動詞由来の名詞 動き 事態を示す名詞 運動会 調査(する) [ ガ:BIS, ヲ:実態 ] 事態性名詞= 行為・状態・出来事を指す名詞
公衆電話で電話をすることがめっきり減った。 事態性名詞の項構造解析のタスク設定 公衆電話で電話をすることがめっきり減った。 モノとしての電話 「XガYニ電話する」 というコト(事態) モノかコトか? 名詞の事態性判別 事態性名詞の項同定 文中の名詞に事態性があるかどうか判別 誰ガ何ニどうする? 事態性のある名詞の項を同定
目次 はじめに 動詞と格要素の共起モデルの有効性 述語項構造解析モデルを利用した項同定 関連研究 まとめ 今後の予定
NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 述語・事態タグと項の出現位置の分布 NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 文内 文間 文外 同一文節 係り受け その他 総数 ガ 7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%) ヲ 50%(0%) 31%(84%) 10%(13%) 8%(3%) 0%(0%) ニ 43%(3%) 22%(88%) 24%(7%) 10%(3%) 事態性名詞は述語と比べて文間に項が現れる割合が多い [飯田ら, 2007] 述語のヲ格・ニ格は9割が係り受け 事態性名詞のヲ格・ニ格は約半数が同一文節内 係り受け以外の情報を用いた項同定 共起・構文情報
共起スコア=<v,c>とnの間の相互情報量 PLSI を用いた共起スコアの計算 Probabilistic Latent Semantic Indexing [Hoffman, 1999] を用い、名詞 n が格助詞 c を介して動詞 v に係っているときの共起確率を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮 上司が推薦する が推薦する 上司 共起スコア=<v,c>とnの間の相互情報量
事態性名詞の項同定 項らしさを判定する分類器 入力: 項と文内の項以外の名詞をペアにして入力 出力: どちらがより項らしいか 日本政府による民間支援が活性化する。 支援(する) ガ 政府,民間 民間,活性 日本,民間 ヲ 政府,民間 政府,活性 日本,政府
項と項以外の名詞の共起スコアの比較 全体の71.2%が どのような事例が 第2・第4象限 含まれているのか? 第2・第4象限の事例は 項の共起スコア 第2・第4象限の事例は 共起スコアの高い方が 項とした場合精度90.0% →共起のみでも分類可能 第1・第3象限の事例は 共起スコアだけでは 決められない 項以外の名詞の共起スコア
述語項構造解析モデルを利用した実験 目的: 共起スコアだけでは項同定できない事例にどのような問題があるか分析 方法: 述語項構造解析 [Iida et al., 2006] の素性を用いて SVM による分類器を作成、第1象限で分類を誤った事例を人手で分類 対象: NAIST テキストコーパス1.2βから新聞記事1日分(137記事)を訓練データ・別の1日分(150記事)をテストデータに使用
実験結果 素性 誤り個数 全ての素性を用いた場合 287(9.1%) −語彙素性 303(9.7%) −共起素性 320(10.2%) 新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132) 素性 誤り個数 全ての素性を用いた場合 287(9.1%) −語彙素性 303(9.7%) −共起素性 320(10.2%) −意味素性 294(9.4%) −構文素性 376(12.0%) −位置素性 290(9.3%) 共起素性のみを用いる 1,696(44.2%) 第一象限の項同定には構文素性と共起素性が有効
正しく解析できた事例 インタファクス通信は五日夕、現地ロシア軍の高官の発言として「首都総攻撃ではないが、戦闘は続いている」と伝えた。 ガ ヲ
誤り分析(1) 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名詞)のガ格と一致 第一象限で誤った事例のうち 項のほうが共起スコアが低い事例 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名詞)のガ格と一致 述語と項を共有するような事態性名詞の出現パターンが存在 ドイツは……エリツィン政権に対する支援を続ける べきかどうか苦しい選択に迫られている。
誤り分析(2) 係り受け関係にある項の間違い 「の→ガ」「に対する→ニ」という格の交替 ロシアのチェチェン共和国に対する武力介入…… 誤りのタイプ 数 例 動詞と項を共有 19 XガYニ迫られる 格の交替がある 13 チェチェン共和国に対する武力介入 複合名詞内の項 12 安保理はガリ提案を検討 連体節内の項 6 相手は経験の浅い柴田 AのBの形の項 育英は初出場の三本木農を破り 遠く離れた係り受け
動詞と項を共有する事態性名詞 「WGが耐震性能の違いに検討を加える」 精度の高いパターンで項をフィルターできる
事態性名詞と述語の項共有の統計 NAIST テキストコーパスの27,665事態性名詞中6,015事例(21.7%)が動詞と項を共有 SがEをVする(65.4%) 「SがEを行う」:各自が検討を行う→各自が検討する SがEにVする(13.9%) 「SがEに入る」:彼が作業に入る→彼が作業する SがNにEをVする(6.3%) 「SがNにEを作る」:母が自分に料理を作る→母が料理する
述語パターンの辞書作成作業の流れ 「Xに合わせる」(X=希望・要望・変化・…) 出現していない格を補う 補った格で例文が言えるかチェック 「AがBをXに合わせる」(たとえばA=彼、B=スタイル) 補った格で例文が言えるかチェック 述語ガ:「彼が希望する」「彼を希望する」「彼に希望する」 述語ヲ:「スタイルが合わせる」「スタイルを希望する」「スタイルに希望する」 言えるパターンを辞書に登録 「Xに合わせる」:述語ガ→事態性名詞ガ
述語パターンの辞書の作成 対象: Web 5億文解析済みデータ 作業日数: 2人の作業者さんに合計1週間 作成済みパターン 見てもらったパターン: 事態性名詞が述語に係っているパターンのうち、頻度の高いもの上位2,000個 対応がついたパターン: 1,120個 精度は0.80(693/866)再現率は0.12(693/6,015)
トーナメントモデルで項同定精度評価 トーナメントモデル[Iida et al., 2005]で項同定(素性・データセットは前の実験と同じ) 辞書の述語パターンにマッチしたらトーナメントせずに事態性名詞の項を決定 素性 ガ ヲ ニ ベースライン 60.5 79.7 73.0 +パターン辞書 61.9 76.2 +共起 65.5 80.9 +パターン辞書+共起 66.7 79.4 トーナメントモデルでの各項の同定精度
誤り分析 武双山が貴乃花の連勝を止めた。 「Xを止める:述語ガ→事態性名詞ガ」にマッチしてしまう 正: 貴乃花が連勝する 誤: 武双山が連勝する 「Xを止める:述語ガ→事態性名詞ガ」にマッチしてしまう 辞書の精度を上げる 近場に候補がある場合は近場の候補を選択するモデルにする
関連研究 事態性名詞の項構造解析のコーパス NomBank [Meyers et al., 2004] PropBank [Palmer et al., 2005] に従って英語のコーパス Penn TreeBank にタグづけ 文内の項に限定 京都テキストコーパス Version 4.0 [黒橋, 2005] 京都テキストコーパス全体の1/8にタグづけ 文を超えた項もタグ付与している 格助詞相当の表層格を網羅している
関連研究(2) 事態性名詞の項構造解析 名詞句の関係解析 NomBank に対する意味役割付与 [Jiang and Ng, 2006] 基本素性は述語の意味役割付与モデルを用いる 事態性名詞の素性も追加(Support verb) 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] 一般的な日本語の名詞間の関係解析(事態性名詞の項構造を包含) 事態性判別問題を扱っていない
まとめ 事態性名詞の項構造解析の問題設定 事態性名詞の項同定に向けた動詞と格要素の共起モデルと構文情報の有効性を分析 述語と項を共有する事態性名詞を分析し、述語のパターンに関するリソースを作成
今後の予定 共起モデルの効果的な使用方法の検討 共参照解析を行い、文間・文外の解析モデルを作成(特にガ格は文間・文外に全体の4割) 精度の高い述語パターンを利用して Web 5億文から新たな事態性名詞を獲得