PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

Slides:

Advertisements

Similar presentations

1 小暮研究会２第１章ベイジアンアルゴリズム２値選択ベルヌーイ試行尤度原理同一性交換可能性尤度についてのまとめ環境情報学部３年渡邊洋一.

Advertisements

人工知能特論 II 第 11 回二宮崇二宮崇 1. 今日の講義の予定確率的識別モデル最大エントロピーモデル ( 多クラスロジスティック回帰、対数線形モデル ) パラメータ推定自然言語処理での素性ベクトル教科書 Yusuke Miyao (2006) From Linguistic Theory.

最大エントロピーモデルに基づく形態素解析と辞書による影響

数理言語情報論　第7回 2009年11月18日数理言語情報学研究室　講師　二宮　崇.

人工知能特論II 二宮　崇.

近似アルゴリズム第１０章終了時刻最小化スケジューリング

人工知能特論II　第15回二宮　崇.

数理言語情報論　第１回 2009年10月7日数理言語情報学研究室　講師　二宮　崇.

言語体系とコンピュータ第6回.

Bassモデルにおける最尤法を用いたパラメータ推定

数理言語情報論　第8回 2009年11月25日数理言語情報学研究室　講師　二宮　崇.

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

Approximation of k-Set Cover by Semi-Local Optimization

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

東京工科大学コンピュータサイエンス学部亀田弘之

人工知能特論II　第１回二宮　崇.

情報の扱いのける数学的基礎確率エントロピー統計確率分布形式言語理論計算量の理論.

時空間データからのオブジェクトベース知識発見

プログラミング言語論第４回式の構文、式の評価

計算の理論 II 文脈自由文法とプッシュダウンオートマトン

雑音重み推定と音声ＧＭＭを用いた雑音除去

12月08日構文解析入力文（記号列）が与えられたとき，文法によってその文を解析し，その構造を明らかにする.

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

京都大学化学研究所バイオインフォマティクスセンター

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

非線形方程式の近似解 (2分法，はさみうち法，Newton-Raphson法)

数理言語情報論　第7回 2007年11月19日数理言語情報学研究室　講師　二宮　崇.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

遺伝的アルゴリズムへの統計力学的アプローチ大阪大学大学院理学研究科鈴木譲 CISJ2005 於早稲田大学理工学部

人工知能特論II　第2回二宮　崇.

第9章　混合モデルとEM 修士２年北川直樹.

6.2.4 辞書項目(1) 辞書項目にも、語に対するＤＡＧを与える。

極大ﾉｲｽﾞを除去する情報量最小化学習ｱﾙｺﾞﾘｽﾞﾑ

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

創成シミュレーション工学専攻計算システム工学分野徳田・李研究室橋本佳

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

第14章　モデルの結合修士２年山川佳洋.

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

複数の相関のある情報源に対するベイズ符号化について

第7章　疎な解を持つカーネルマシン修士２年山川佳洋.

東京工科大学コンピュータサイエンス学部亀田弘之

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

プログラミング言語論第9回情報工学科木村昌臣篠埜　功.

コンパイラ 2011年10月20日

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

第3章　線形回帰モデル修士1年山田　孝太郎.

文法と言語ー文脈自由文法とLR構文解析ー

クロスバリデーションを用いたベイズ基準によるHMM音声合成

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

人工知能特論II　第8回二宮　崇.

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

ポッツスピン型隠れ変数による画像領域分割

電気回路学Ⅱ 通信工学コース 5セメ山田博仁.

４．プッシュダウンオートマトンと文脈自由文法の等価性

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

Q q 情報セキュリティ第７回：２００５年５月２７日（金） q q.

混合ガウスモデル Gaussian Mixture Model GMM

計算の理論 I 最小化月曜３校時大月美佳平成15年6月23日佐賀大学知能情報システム学科.

Presentation transcript:

PCFG の EM アルゴリズムとスムージング二宮崇 1

今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999 D. Jurafsky, J. H. Martin, A. Kehler, K.V. Linden & N. Ward “ Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition ” Prentice Hall Series in Artificial Intelligence,

PCFG の最尤推定次の二文を訓練データとして、パラメータ推定 “John sees Mary with_a_telescope” “Mary with_a_telescope runs” rPrPr S → NP VP 1.0 VP → VP PP θ1θ1 VP → V NP θ2θ2 VP → V θ3θ3 NP → NP PP θ4θ4 NP → John θ5θ5 NP → Mary θ6θ6 PP → with_a_telescope 1.0 V → sees θ7θ7 V → runs θ8θ8 3

PCFG の最尤推定 S S NP VP John with_a_telescope V V NP Mary sees 構文木 t 1,1 PP NP 構文木 t 1,2 S S VP John with_a_telescope V V NP Mary sees PP VP NP 構文木 t 2,1 S S VP with_a_telescope V V NP Mary runs PP NPNP NPNP θ1θ1 θ2θ2 θ2θ2 θ5θ5 θ5θ5 θ7θ7 θ7θ7 θ6θ6 θ6θ6 θ4θ4 θ3θ3 θ8θ8 θ4θ4 θ6θ6 t s,u : s は文 ID u は s に対する構文木集合の中での各々の木 ID 4

PCFG の最尤推定問題 PCFG の場合この制約を満たすように最大値を求めなければならない制約付き極値問題⇒ラグランジュの未定乗数法 PCFG の場合この制約を満たすように最大値を求めなければならない制約付き極値問題⇒ラグランジュの未定乗数法文 1 に対する確率文 2 に対する確率 5

PCFG の最尤推定ラグランジュの未定乗数法 6

PCFG の最尤推定結果 θ 1 = θ 2 = θ 3 = θ 4 = θ 5 = θ 6 = θ 7 = 0.5 θ 8 = 0.5 rPrPr S → NP VP 1.0 VP → VP PP θ1θ1 VP → V NP θ2θ2 VP → V θ3θ3 NP → NP PP θ4θ4 NP → John θ5θ5 NP → Mary θ6θ6 PP → with_a_telescope 1.0 V → sees θ7θ7 V → runs θ8θ8 7

EM アルゴリズム最尤推定をコンピュータで行うためによく用いられるアルゴリズムアルゴリズム 1. θ : = 適当な値 2. [E ステップ ] θ を用いて各構文木の確率を計算 3. [M ステップ ] 全体の尤度がより高くなる新しい θ を求めるに戻る 8

EM アルゴリズム : E ステップ θ (i) : 前回求めたパラメータ各構文木の確率 9

EM アルゴリズム : M ステップ書換規則の適用回数 rPrPr C(r; t 11 )C(r; t 12 )C(r; t 21 )C’(r; t 11 )C’(r; t 12 )C’(r; t 21 ) S → NP VP ??1 VP → VP PP θ1θ1 010??0 VP → V NP θ2θ2 110??0 VP → V θ3θ3 001??1 NP → NP PP θ4θ4 101??1 NP → John θ5θ5 110??0 NP → Mary θ6θ6 111??1 PP → with_a_telescope ??0 V → sees θ7θ7 110??0 V → runs θ8θ8 001??1 10

EM アルゴリズム : M ステップ各構文木ごとの書換規則の適用回数の期待値更新パラメータ 11

EM アルゴリズムの心 S S NP VP John with_a_telescope V V NP Mary sees 構文木 t 11 PP NP 構文木 t 12 S S VP John with_a_telescope V V NP Mary sees PP VP NP 構文木 t 21 S S VP with_a_telescope V V NP Mary runs PP NPNP NPNP θ1θ1 θ2θ2 θ2θ2 θ5θ5 θ5θ5 θ7θ7 θ7θ7 θ6θ6 θ6θ6 θ4θ4 θ3θ3 θ8θ8 θ4θ4 θ6θ6 ・新しいパラメータは単純な数え上げと同様に書換規則の適用頻度から求まる・ただし、曖昧性のある文に対しては、書換規則の適用頻度の期待値として数え上げる・構文木の確率は現在のパラメータから求まる・新しいパラメータは単純な数え上げと同様に書換規則の適用頻度から求まる・ただし、曖昧性のある文に対しては、書換規則の適用頻度の期待値として数え上げる・構文木の確率は現在のパラメータから求まる 12

EM アルゴリズム : まとめ 1. θ (0) : = 適当な値 2. [E ステップ ] θ (i) を用いて各構文木の確率を計算 3. [M ステップ ] θ (i+1) を求めるに戻る 13

EM アルゴリズム ( 一般 ) 1/2 パラメータ : θ 入力 : x 隠れ状態 : z データ : S={x (1), x (2), …, x (n) } 対数尤度 : L S (θ) 14 (Jensen の不等式 )

EM アルゴリズム ( 一般 ) 2/2 E ステップ M ステップ 15 隠れ状態の確率とパラメータを交互に動かして、 F を最大化

EM アルゴリズム : 局所解極値を求めているので最適解とは限らない良い解が得られるかどうかは初期値に依存している色々な初期値を試す他の頻度情報を使って初期値を設定 16

EM アルゴリズム : 結果 iθ1θ2θ3θ4θ5θ6θ7θ

おまけ : 解析的に求めるのが難しい PCFG の例 “ 太郎が花子と映画を褒める ” S S NP VP N N がが太郎褒める NP PP をを N N N N N N とと花子映画構文木 t 1 PP PP p(t 1 ) = θ 3 θ 4 θ 5 θ 6 θ 7 θ 8 θ 9 θ 10 θ 11 θ 12 p(t 2 ) = θ 4 2 θ 5 θ 6 θ 7 θ 8 θ 9 θ 10 θ 11 θ 12 θ 3 +θ 9 +θ 10 +θ 11 =1, θ 4 +θ 5 =1, θ 6 +θ 7 +θ 8 =1, θ 12 +θ 13 =1 V V VP S S NP VP N N がが太郎褒める NP PP をを NP N N N N とと花子映画構文木 t 2 PP PP V V VP rPrPr S → NP VP θ1θ1 NP → N PP θ2θ2 N → N PP N θ3θ3 VP → NP VP θ4θ4 VP → V θ5θ5 PP → が θ6θ6 PP → を θ7θ7 PP → と θ8θ8 N → 太郎 θ9θ9 N → 花子 θ 10 N → 映画 θ 11 V → 褒める θ 12 V → 見る θ 13 18

頻度のディスカウンティングゼロ頻度問題ある単語がたまたま訓練コーパス中に出現しなかったら、その単語に対するパラメータは 0 になってしまうその単語が出現するテストコーパスの構文木の確率は 0 になってしまう ! 対策 : 出現回数を補正 19

加算法 (additive method) ラプラス法頻度に 1 を加える N: 訓練データ中に出現した単語の総数 V: 出現確率の合計を 1 にするための定数 (n 単語列の異なり総数に等しい ) 一般の方法 ( リッドストーン法とも呼ばれる ) 頻度に小さな値 (δ) を加える δ=1/2 の時、予期尤度推定法 (expected likelihood estimation) 、あるいはジェフリース・パークス法を呼ばれる 20

ヘルドアウト推定法訓練データを二分割訓練データヘルドアウトデータ ( C h をヘルドアウトデータ中の出現回数とする ) 訓練データでの出現回数をヘルドアウトデータでの出現回数で置き換える 21

削除推定法 (deleted estimation) ヘルドアウト推定法のクロスバリデーション版訓練データとヘルドアウトデータの役割をさらに交換すれば 2 倍データが増える 22

グッド・チューリング推定法 (Good-Turing estimation) 出現回数の補正値として次の r* を用いる出現確率 23

各種推定法による比較 AP コーパス中の 2 単語組の出現回数の推定最尤推定ラプラス法ヘルドアウト法削除推定法グッド・チューリング法

まとめ PCFG と EM アルゴリズム EM アルゴリズムディスカウンティング 25