動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析 奈良先端科学技術大学院大学 情報科学研究科自然言語処理学講座 小町守
事態性名詞の項構造解析の目標 意味の同じ表現の認識 全て「原子爆弾がドームを破壊した」という事態を指す 「原子爆弾によって破壊されたドーム」 「ドームが原子爆弾によって破壊された」 「原子爆弾がドームを破壊した」 「原子爆弾によるドームの破壊」 主節 能動態 名詞化 事態性名詞の項構造解析が必要 全て「原子爆弾がドームを破壊した」という事態を指す 事態の認識はテキスト要約・機械翻訳に役立つ
事態性名詞の項構造解析 ヲ ガ 【文外】 リスク管理の必要性が強く叫ばれているが、市場の実態が把握できていないため打つ手がないのが実情。BISが昨年春から調査の手法について検討していた。 ヲ ガ 項構造= 誰が、何を、どうする 管理(する) [ ガ:【文外】, ヲ:リスク ] 種類 例 サ変名詞 管理 動詞由来の名詞 動き 事態を示す名詞 運動会 調査(する) [ ガ:BIS, ヲ:実態 ] 事態性名詞= 行為・状態・出来事を指す名詞
公衆電話で電話をすることがめっきり減った。 事態性名詞の項構造解析のタスク設定 公衆電話で電話をすることがめっきり減った。 モノとしての電話 「XガYニ電話する」 というコト(事態) モノかコトか? 名詞の事態性判別 事態性名詞の項同定 文中の名詞に事態性があるかどうか判別 誰ガ何ニどうする? 事態性のある名詞の項を同定
関連研究 事態性名詞の項構造解析のコーパス 名詞句の関係解析 NomBank [Meyers et al., 2004] PropBank [Palmer et al., 2005] に従って英語のコーパス Penn TreeBank にタグづけ 文内の項に限定 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] 一般的な日本語の名詞間の関係解析(事態性名詞の項構造を包含) 事態性判別問題を扱っていない
目次 はじめに 事態性名詞の項構造解析 事態性名詞の事態性判定 事態性名詞の項同定 まとめ 今後の予定 第1節 第2節 第3節 第4節
事態性判別の方針 出現用例獲得 辞書 出現パターン 新聞 記事 大量のデータから事態性名詞を含む文構造を取得 …に対する説得工作は失敗に… …横にある椅子の取っ手を… 出現パターン 新聞 記事 名詞 リスト …に対する説得工作は失敗に… …横にある椅子の取っ手を… ①日本語語彙大系の名詞意味属性体系から名詞リストを抽出 ②新聞記事に対して名詞で検索 ③用例獲得 大量のデータから事態性名詞を含む文構造を取得
事態性名詞の出現パターンの学習 正例 ・・・ 説得 交渉 サ変 文節内 の 後文脈 一般名詞 …説得工作は失敗に… 文節ごとに 表記・品詞・複合名詞 などフラットな木を作成 事態性あり 負例 ・・・ 椅子 机 …椅子の取っ手を… 事態性なし 用例中の名詞の出現パターンを木構造に変換し、部分木構造を用いたブースティング BACT [Kudo and Matsumoto, 2004] で学習 学習した部分木構造が出現パターンに相当
事態性判別実験 方法: Support Vector Machines を用いて名詞の事態性を判別 評価:10分割交差検定 使った情報 意味的な情報 事態性名詞の意味クラス 文法的な情報 事態性名詞の周辺に項になりそうな名詞があるかどうか 新聞記事から獲得した事態性名詞の出現パターン(計算量の問題から BACT は出現パターン獲得のみに使用)
事態性判別実験結果 名詞の出現パターンを使うことで再現率が大幅に向上 精度=事態性があると分類された名詞の正解率 名詞の出現パターンなし 72.3% 58.7% 提案手法 73.3% 80.2% 新聞記事の事態性判別 精度=事態性があると分類された名詞の正解率 再現率=名詞のうち事態性を正しく判定できた率 新聞記事80記事(800文) 事態性名詞1,237個(うち590個が事態性ありの事例) 名詞の出現パターンを使うことで再現率が大幅に向上
目次 はじめに 事態性名詞の項構造解析 事態性名詞の事態性判定 事態性名詞の項同定 まとめ 今後の予定 第1節 第2節 第3節 第4節
NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 述語・事態タグと項の出現位置の分布 NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 文内 文間 文外 同一文節 係り受け その他 総数 ガ 7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%) ヲ 50%(0%) 31%(84%) 10%(13%) 8%(3%) 0%(0%) ニ 43%(3%) 22%(88%) 24%(7%) 10%(3%) 事態性名詞は述語と比べて文間に項が現れる割合が多い [飯田ら, 2007] 述語のヲ格・ニ格は9割が係り受け 事態性名詞のヲ格・ニ格は約半数が同一文節内 係り受け以外の情報を用いた項同定 共起・構文情報
共起スコア=<v,c>とnの間の相互情報量 PLSI を用いた共起スコアの計算 Probabilistic Latent Semantic Indexing [Hoffman, 1999] を用い、名詞 n が格助詞 c を介して動詞 v に係っているときの共起確率を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮 上司が推薦する が推薦する 上司 共起スコア=<v,c>とnの間の相互情報量
事態性名詞の項同定 項らしさを判定する分類器 入力: 項と文内の項以外の名詞をペアにして入力 出力: どちらがより項らしいか 日本政府による民間支援が活性化する。 支援(する) ガ 政府,民間 民間,活性 日本,民間 ヲ 政府,民間 政府,活性 日本,政府
項と項以外の名詞の共起スコアの比較 全体の71.2%が どのような事例が 第2・第4象限 含まれているのか? 第2・第4象限の事例は 項の共起スコア 第2・第4象限の事例は 共起スコアの高い方が 項とした場合精度90.0% →共起のみでも分類可能 第1・第3象限の事例は 共起スコアだけでは 決められない 項以外の名詞の共起スコア
述語項構造解析モデルを利用した実験 目的: 共起スコアだけでは項同定できない事例にどのような問題があるか分析 方法: 述語項構造解析 [Iida et al., 2006] の情報を用いて SVM による分類器を作成、第1象限で分類を誤った事例を人手で分類 対象: NAIST テキストコーパス1.2βから新聞記事1日分(137記事)を訓練データ・別の1日分(150記事)をテストデータに使用
実験に用いた情報 情報 説明(例) 事例 語彙情報 単語の表記 日本 共起情報 動詞・格要素と名詞の共起スコア 日本政府による民間支援が活性化する。 情報 説明(例) 事例 語彙情報 単語の表記 日本 共起情報 動詞・格要素と名詞の共起スコア <支援(する),ガ>, 日本→2.80 意味情報 固有表現かどうか 固有名詞・地域(日本) 構文情報 文節内の品詞列 固有名詞-一般名詞-格助詞(日本政府による) 位置情報 名詞句の先頭(または末尾)かどうか 1(日本政府による)
実験結果 情報 誤り個数 全ての情報を用いた場合 287(9.1%) −語彙情報 303(9.7%) −共起情報 320(10.2%) 新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132) 情報 誤り個数 全ての情報を用いた場合 287(9.1%) −語彙情報 303(9.7%) −共起情報 320(10.2%) −意味情報 294(9.4%) −構文情報 376(12.0%) −位置情報 290(9.3%) 共起情報のみを用いる 1,696(44.2%) 第一象限の項同定には構文情報と共起情報が有効
誤り分析(1) 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名詞)のガ格と一致 第一象限で誤った事例のうち 項のほうが共起スコアが低い事例 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名詞)のガ格と一致 述語と項を共有するような事態性名詞の出現パターンが存在 ドイツは……エリツィン政権に対する支援を続ける べきかどうか苦しい選択に迫られている。
誤り分析(2) 係り受け関係にある項の間違い 「の→ガ」「に対する→ニ」という格の交替 ロシアのチェチェン共和国に対する武力介入…… 誤りのタイプ 数 例 動詞と項を共有 19 XガYニ迫られる 格の交替がある 13 チェチェン共和国に対する武力介入 複合名詞内の項 12 安保理はガリ提案を検討 連体節内の項 6 相手は経験の浅い柴田 AのBの形の項 育英は初出場の三本木農を破り 遠く離れた係り受け
まとめ 事態性名詞の項構造解析の問題設定 教師なしに獲得した名詞の出現パターンを用いた事態性判別手法の提案 事態性名詞の項同定に向けた動詞と格要素の共起モデルと構文情報の有効性を分析
今後の予定 共起モデルの効果的な使用方法 項同定に有効な構文情報を組み込む 事態性名詞の項同定を行うシステムの作成
研究背景 自然言語処理の基盤技術の発展 単位 ツール コーパス 形態素解析 単語 ChaSen 京都テキストコーパス 構文解析 文節 新人=彼 自然言語処理の基盤技術の発展 名詞 助詞 動詞 助動詞 新人が来た。彼は上司が推薦した。 単位 ツール コーパス 形態素解析 単語 ChaSen 京都テキストコーパス 構文解析 文節 CaboCha 意味解析 単語と文節 SynCha NAISTテキストコーパス 談話解析 文 --- ガ ヲ ①事態性名詞の 項構造解析器の開発 ②事態タグつき コーパスの作成
事態性名詞の項構造解析の応用 事態クラスタリング 事態性名詞を用いた情報検索における質問拡張(query expansion) 文体変換 同じ事態を指す(統語的には異なる)複数の表現をまとめてクラスタリング 事態性名詞を用いた情報検索における質問拡張(query expansion) 同じ事態を指す動詞・名詞を用いてマッチを取る 文体変換 新聞記事を対話調に、口語体を論文風に
Web 5億文の共起スコアの分類性能
新聞記事1日分を対象に全象限のデータを用いて実験(総数13,640) 実験結果 新聞記事1日分を対象に全象限のデータを用いて実験(総数13,640) 情報 誤り個数 全ての情報を用いた場合 476(3.5%) −語彙情報 510(3.7%) −共起情報 684(5.0%) −意味情報 −構文情報 644(4.7%) −位置情報 700(5.1%) 共起情報のみを用いる 1,305(9.6%) 項同定には位置情報と共起情報が有効