部分木に基づくマルコフ確率場と言語解析への適用

部分木に基づくマルコフ確率場と言語解析への適用
工藤拓松本裕治奈良先端科学技術大学院大学

統計的言語解析 (背景) History-based Methods から Global discriminative models へ
I ate a cake I ate a cake PRP VBD DT NN I ate a cake NP VP NP VBD ate PRP NN I DT a cake S NP VP X Y Part of Speech Tagging Dependency Parsing Text Chunking (Shallow Parsing) Phrase Structure Parsing History-based Methods から Global discriminative models へ方法論の変化木から木への変換　　X: 入力木, Y:　解析木　学習データ : 統計的言語解析: P(Y|X) を最大にする Y を導出

History-based Methods (HM)
言語処理 (品詞タグ付け, 構文解析) を分類問題の順次適用として実現事例 (=履歴) クラス正準的な構築順序を定義過去の履歴を元に, 現在　　のクラスを決定既知の学習アルゴリズム　　を直接適用可能 I had an apple Input: PRP PRP VBD PRP VBD DT PRP VBD DT NN

History-based Methods の問題点
履歴に依存いったん間違えると, 伝播ラベルバイアス問題 [Lafferty 01] 最適な構築順序とは? 品詞タグ付け (前向き/後ろ向き) 構文解析 (トップダウン/ボトムアップ/左隅/右隅) 一意に決定困難 (タスク依存, 入力文依存) 発見的に対処前向き, 後ろ向きの多数決 [Kudo 01]

Global discriminative models
解析結果 1 つを学習事例とみなす解析木そのものが正しいか正しくないか学習構築順序という概念は存在しない順序に関係せず, 唯一の確率値 P(Y|X)を算出 … I bought a car with this money +1 -1 事例クラス MRF/CRF [Lafferty 01] Tree Kernel [Collins 02] HMM-SVM [Altun 03]

Global discriminative models の論点
負例の構築方法 HM の N-best 解で近似陰に構築 (動的計画法) 学習アルゴリズム側で動的に生成学習方法 MRF (線形対数モデル/最大エントロピー) Boosting SVM 素性人手で発見的に定義 Tree Kernel - 全部分木の候補から素性選択

概要手法実験考察, 従来研究との比較まとめと今後の課題負例の構築方法 (N-best 解) 学習方法 (MRF)
素性 (全部分木候補から素性選択) 実験考察, 従来研究との比較まとめと今後の課題

1. 手法負例の構築方法学習方法素性

負例の構築方法 History-based Methods の N-best 解
Viterbi + A* ビーム探索 N-best 解に正解が存在すると仮定入力木 X に対する N-best 解の集合を　H(X) と表記

学習方法 (1/2) マルコフ確率場　　　　　　　　　　　　　　　　(a.k.a. 線形対数モデル / 最大エントロピーモデル) : 素性関数 : パラメータ

学習方法 (2/2) パラメータの導出最尤推定 (最大エントロピー原理) 正規分布による正則化 (過学習の抑制) [Chen99]
: ハイパーパラメータ (交差検定等で設定)

素性関数の設計 (1/3) 解析木の構造を考慮したい解析木 Y 中の部分木を素性各部分木にパラメータが対応 a b c d
素性関数の設計 (1/3) 解析木の構造を考慮したい解析木 Y 中の部分木を素性各部分木にパラメータ　　　が対応 a b c d a b c d Y 0.2 0.1 -1.0 0.3 0.4 0.5 -0.1

素性関数の設計 (2/3) X: a – b – c a b c Y1 Y2 Y3 H(X): n-best (n=3)
素性関数の設計 (2/3) X: a – b – c a b c Y1 Y2 Y3 H(X): n-best (n=3) a b c 0.2 0.1 -0.1 0.3 -0.3 P(Y1|X)=exp(0.8)/Z P(Y2|X)=exp(-0.1)/Z P(Y3|X)=exp(0.4)/Z 正解の解析木の対数確率尤度を最大にするようλを設定

素性関数の設計 (3/3) 素性集合: (全部分木) (部分木 t の有無) 素性関数:

素性選択 (1/2) 素性集合 F は巨大全部分木を使用→ 過学習, 学習困難素性選択 1,2,3 を全て満たす部分木のみを使う
頻度: ξ回以上出現する部分木のみ部分木のサイズ: サイズが L 以上 M以下クラスと素性の相関性: カイ二乗値が χ以上 1,2,3 を全て満たす部分木のみを使う Σ=<ξ,L,M,χ>: 素性選択パラメータ

素性選択 (2/2) クラスと素性の統計的な相関性「良い」部分木 t : 正例/負例に偏って出現する t
chi(t) がχ以上の部分木 t を素性正例: N-best 解負例:

実装頻出部分木マイニングの適用最右拡張を用いた高速な解析木の集合から頻出する部分木を効率よく列挙するアルゴリズム
最右拡張 (木の枚挙手法) FREQT [Asai02], TreeMinerV [Zaki02] 最右拡張を用いた高速な解析～O(|Y|) リランキングのコストは問題になりにくい

2. 実験

設定英語品詞タグ付け英語基本句同定 PTB 15 – 18: 学習, 20: テスト, 21: dev
HM: 最大エントロピー法に基づく Tagger, N=20 ☆ 英語基本句同定 PTB 15 – 18: 学習, 20: テスト, 交差検定: dev HM: 最大エントロピー法に基づく Chunker , N=20 ☆ X Y PRP VBD DT NN I ate a cake I ate a cake Part of Speech Tagging X Y NP VP NP PRP VBD DT NN I ate a cake PRP VBD DT NN I ate a cake Text Chunking (Shallow Parsing) ☆ [Ratnaparkhi 98] の拡張, 正則化付き最大エントロピー

解析木 Y の表現方法品詞タグ付け基本句同定 NP VP NP VP PP NP O BOS
PRP VP DT JJ NN NN MD VP TO RB # CD NN EOS He reckons the current account deficit will narrow to only # billon . 基本句同定 BOS NP VP NP VP PP NP O EOS PRP VP DT JJ NN NN MD VP TO RB # CD NN He reckons the current account deficit will narrow to only # billon .

実験結果 (品詞付与) モデル精度 History-based ME Tagger (n-best 出力用) 95.98%
修正学習法 [Nakagawa et al. 02] 95.87% 提案手法 96.10%

実験結果 (基本句同定) モデル精度(F値) History-based ME Chunker (n-best 出力用) 93.40
History-based SVM Chunker [Kudo et al. 00] 93.46 History-based SVM Chunker の 8システムの多数決 [Kudo et al. 01] 93.91 History-based RW Chunker [Zhang et al. 02] 93.57 History-based RW Chunker + syntactic role 素性 [Zhang et al. 02] 94.17 提案手法 94.13

考察両タスクとも、従来手法に比べ高性能恣意的な素性選択ではなく, 一般的, 統一的な選択
恣意的な素性選択ではなく, 一般的, 統一的な選択素性選択パラメータ: Σ=<ξ,L,M,χ> L = 2 に固定したときの最適な M 品詞タグ付け: M=4 基本句同定: M=5 大きな部分木は過学習の原因

関連研究との比較負例学習素性欠点 CRF/FF DP MRF SVM 本手法 [Collins01] N-best
MRF/Boosting Heuristics 素性の恣意性 [Collins02] N-Best Perceptron Kernel 解析コスト大 CRF/FF [Lafferty01] [Miyao 03] DP 陰に列挙 MRF (マルコフ性を満　　　たす必要) 学習コスト大 HMM-SVM [Altun 03] 〃 SVM 　　　〃本手法部分木　+ 　　　素性選択

まとめ部分木を素性とする MRF の提案一般的な手法, タスク非依存従来手法に比べ高精度統計的相関性に基づく素性選択
頻出部分木マイニングアルゴリズムの適用一般的な手法, タスク非依存英語品詞タグ付け英語基本句同定従来手法に比べ高精度

今後の課題他のタスクグラフ構造への拡張 (部分グラフ) 負例の構築学習アルゴリズム係り受け解析, 構文解析
係り受け解析, 構文解析グラフ構造への拡張 (部分グラフ) 頻出部分グラフマイニングアルゴリズム負例の構築 N-best に変わる新しい手法マルコフ連鎖モンテカルロ学習アルゴリズム HMM-SVM

部分木に基づくマルコフ確率場と言語解析への適用

Similar presentations

Presentation on theme: "部分木に基づくマルコフ確率場と言語解析への適用"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

部分木に基づくマルコフ確率場と言語解析への適用

Similar presentations

Presentation on theme: "部分木に基づくマルコフ確率場と言語解析への適用"— Presentation transcript:

Similar presentations

About project

フィードバック