PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

PCFG の EM アルゴリズムとスムージング二宮崇 1

今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999 D. Jurafsky, J. H. Martin, A. Kehler, K.V. Linden & N. Ward “ Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition ” Prentice Hall Series in Artificial Intelligence, 2000 2

PCFG の最尤推定次の二文を訓練データとして、パラメータ推定 “John sees Mary with_a_telescope” “Mary with_a_telescope runs” rPrPr S → NP VP 1.0 VP → VP PP θ1θ1 VP → V NP θ2θ2 VP → V θ3θ3 NP → NP PP θ4θ4 NP → John θ5θ5 NP → Mary θ6θ6 PP → with_a_telescope 1.0 V → sees θ7θ7 V → runs θ8θ8 3

PCFG の最尤推定 S S NP VP John with_a_telescope V V NP Mary sees 構文木 t 1,1 PP NP 構文木 t 1,2 S S VP John with_a_telescope V V NP Mary sees PP VP NP 構文木 t 2,1 S S VP with_a_telescope V V NP Mary runs PP NPNP NPNP θ1θ1 θ2θ2 θ2θ2 θ5θ5 θ5θ5 θ7θ7 θ7θ7 θ6θ6 θ6θ6 θ4θ4 θ3θ3 θ8θ8 θ4θ4 θ6θ6 t s,u : s は文 ID u は s に対する構文木集合の中での各々の木 ID 4

PCFG の最尤推定問題 PCFG の場合この制約を満たすように最大値を求めなければならない制約付き極値問題⇒ラグランジュの未定乗数法 PCFG の場合この制約を満たすように最大値を求めなければならない制約付き極値問題⇒ラグランジュの未定乗数法文 1 に対する確率文 2 に対する確率 5

PCFG の最尤推定ラグランジュの未定乗数法 6

PCFG の最尤推定結果 θ 1 = 0.081357 θ 2 = 0.459321 θ 3 = 0.459321 θ 4 = 0.377964 θ 5 = 0.207345 θ 6 = 0.41469 θ 7 = 0.5 θ 8 = 0.5 rPrPr S → NP VP 1.0 VP → VP PP θ1θ1 VP → V NP θ2θ2 VP → V θ3θ3 NP → NP PP θ4θ4 NP → John θ5θ5 NP → Mary θ6θ6 PP → with_a_telescope 1.0 V → sees θ7θ7 V → runs θ8θ8 7

EM アルゴリズム最尤推定をコンピュータで行うためによく用いられるアルゴリズムアルゴリズム 1. θ : = 適当な値 2. [E ステップ ] θ を用いて各構文木の確率を計算 3. [M ステップ ] 全体の尤度がより高くなる新しい θ を求める 4. 2. に戻る 8

EM アルゴリズム : E ステップ θ (i) : 前回求めたパラメータ各構文木の確率 9

EM アルゴリズム : M ステップ書換規則の適用回数 rPrPr C(r; t 11 )C(r; t 12 )C(r; t 21 )C’(r; t 11 )C’(r; t 12 )C’(r; t 21 ) S → NP VP 1.0 111??1 VP → VP PP θ1θ1 010??0 VP → V NP θ2θ2 110??0 VP → V θ3θ3 001??1 NP → NP PP θ4θ4 101??1 NP → John θ5θ5 110??0 NP → Mary θ6θ6 111??1 PP → with_a_telescope 1.0 110??0 V → sees θ7θ7 110??0 V → runs θ8θ8 001??1 10

EM アルゴリズム : M ステップ各構文木ごとの書換規則の適用回数の期待値更新パラメータ 11

EM アルゴリズムの心 S S NP VP John with_a_telescope V V NP Mary sees 構文木 t 11 PP NP 構文木 t 12 S S VP John with_a_telescope V V NP Mary sees PP VP NP 構文木 t 21 S S VP with_a_telescope V V NP Mary runs PP NPNP NPNP θ1θ1 θ2θ2 θ2θ2 θ5θ5 θ5θ5 θ7θ7 θ7θ7 θ6θ6 θ6θ6 θ4θ4 θ3θ3 θ8θ8 θ4θ4 θ6θ6 ・新しいパラメータは単純な数え上げと同様に書換規則の適用頻度から求まる・ただし、曖昧性のある文に対しては、書換規則の適用頻度の期待値として数え上げる・構文木の確率は現在のパラメータから求まる・新しいパラメータは単純な数え上げと同様に書換規則の適用頻度から求まる・ただし、曖昧性のある文に対しては、書換規則の適用頻度の期待値として数え上げる・構文木の確率は現在のパラメータから求まる 12

EM アルゴリズム : まとめ 1. θ (0) : = 適当な値 2. [E ステップ ] θ (i) を用いて各構文木の確率を計算 3. [M ステップ ] θ (i+1) を求める 4. 2. に戻る 13

EM アルゴリズム ( 一般 ) 1/2 パラメータ : θ 入力 : x 隠れ状態 : z データ : S={x (1), x (2), …, x (n) } 対数尤度 : L S (θ) 14 (Jensen の不等式 )

EM アルゴリズム ( 一般 ) 2/2 E ステップ M ステップ 15 隠れ状態の確率とパラメータを交互に動かして、 F を最大化

EM アルゴリズム : 局所解極値を求めているので最適解とは限らない良い解が得られるかどうかは初期値に依存している色々な初期値を試す他の頻度情報を使って初期値を設定 16

EM アルゴリズム : 結果 iθ1θ2θ3θ4θ5θ6θ7θ8 10.5 20.20.4 0.3333330.2222220.4444440.5 30.1578950.421053 0.3513510.2162160.4324320.5 40.134220.43289 0.3603340.2132220.4264440.5 50.1194840.440258 0.3655630.2114790.4229580.5 60.1096610.44517 0.3689080.2103640.4207280.5 530.0813580.459321 0.3779640.2073450.4146910.5 540.0813580.459321 0.3779640.2073450.414690.5 550.0813580.459321 0.3779640.2073450.414690.5 560.0813570.459321 0.3779640.2073450.414690.5 570.0813570.459321 0.3779640.2073450.414690.5....... 17

おまけ : 解析的に求めるのが難しい PCFG の例 “ 太郎が花子と映画を褒める ” S S NP VP N N がが太郎褒める NP PP をを N N N N N N とと花子映画構文木 t 1 PP PP p(t 1 ) = θ 3 θ 4 θ 5 θ 6 θ 7 θ 8 θ 9 θ 10 θ 11 θ 12 p(t 2 ) = θ 4 2 θ 5 θ 6 θ 7 θ 8 θ 9 θ 10 θ 11 θ 12 θ 3 +θ 9 +θ 10 +θ 11 =1, θ 4 +θ 5 =1, θ 6 +θ 7 +θ 8 =1, θ 12 +θ 13 =1 V V VP S S NP VP N N がが太郎褒める NP PP をを NP N N N N とと花子映画構文木 t 2 PP PP V V VP rPrPr S → NP VP θ1θ1 NP → N PP θ2θ2 N → N PP N θ3θ3 VP → NP VP θ4θ4 VP → V θ5θ5 PP → が θ6θ6 PP → を θ7θ7 PP → と θ8θ8 N → 太郎 θ9θ9 N → 花子 θ 10 N → 映画 θ 11 V → 褒める θ 12 V → 見る θ 13 18

頻度のディスカウンティングゼロ頻度問題ある単語がたまたま訓練コーパス中に出現しなかったら、その単語に対するパラメータは 0 になってしまうその単語が出現するテストコーパスの構文木の確率は 0 になってしまう ! 対策 : 出現回数を補正 19

加算法 (additive method) ラプラス法頻度に 1 を加える N: 訓練データ中に出現した単語の総数 V: 出現確率の合計を 1 にするための定数 (n 単語列の異なり総数に等しい ) 一般の方法 ( リッドストーン法とも呼ばれる ) 頻度に小さな値 (δ) を加える δ=1/2 の時、予期尤度推定法 (expected likelihood estimation) 、あるいはジェフリース・パークス法を呼ばれる 20

ヘルドアウト推定法訓練データを二分割訓練データヘルドアウトデータ ( C h をヘルドアウトデータ中の出現回数とする ) 訓練データでの出現回数をヘルドアウトデータでの出現回数で置き換える 21

削除推定法 (deleted estimation) ヘルドアウト推定法のクロスバリデーション版訓練データとヘルドアウトデータの役割をさらに交換すれば 2 倍データが増える 22

グッド・チューリング推定法 (Good-Turing estimation) 出現回数の補正値として次の r* を用いる出現確率 23

各種推定法による比較 AP コーパス中の 2 単語組の出現回数の推定最尤推定ラプラス法ヘルドアウト法削除推定法グッド・チューリング法 00.0001370.00002700.00003740.0000270 10.0002740.4480.3960.446 20.0004111.251.241.26 30.0005482.242.232.24 40.0006853.233.223.24 50.0008224.214.22 60.0009595.235.205.19 70.0010966.21 80.0012337.217.187.24 90.0013708.268.188.25 24

まとめ PCFG と EM アルゴリズム EM アルゴリズムディスカウンティング 25

PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

Similar presentations

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

Similar presentations

Similar presentations

About project

フィードバック

PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.