数理言語情報論　第7回 2007年11月19日数理言語情報学研究室　講師　二宮　崇.

Slides:

Advertisements

Similar presentations

北海道大学 Hokkaido University 1 情報理論講義資料 2016/06/22 情報エレクトロニクス学科共通科目・２年次・第 1 学期〔必修科目〕講義「情報理論」第 5 回第 3 章情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.

Advertisements

PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

数理言語情報論第 2 回数理言語情報学研究室講師二宮崇 2009 年 10 月 14 日 1.

プログラミング言語論第３回 BNF 記法について（演習付き）篠埜功. 構文の記述プログラミング言語の構文はどのように定式化できるか？例１ : for ループの中に for ループが書ける。 for (i=0; i

自然言語処理平成 24 年 11 月 5 日 (No5)- 東京工科大学コンピュータサイエンス学部亀田弘之.

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

プログラミング言語論第10回（演習）情報工学科　木村昌臣　篠埜　功.

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

最大エントロピーモデルに基づく形態素解析と辞書による影響

Problem by D. Mikurube Slides by Y. Izumi

数理言語情報論　第7回 2009年11月18日数理言語情報学研究室　講師　二宮　崇.

人工知能特論II 二宮　崇.

コンパイラ 2011年10月17日

東京工科大学コンピュータサイエンス学部亀田弘之

人工知能特論II　第15回二宮　崇.

数理言語情報論　第１回 2009年10月7日数理言語情報学研究室　講師　二宮　崇.

数理言語情報論　第12回 2007年1月28日数理言語情報学研究室　講師　二宮　崇.

数理言語情報論　第3回 2007年10月22日数理言語情報学研究室　講師　二宮　崇.

自然言語処理における文法開発の軌跡と展望

言語体系とコンピュータ第6回.

言語処理系（６）金子敬一.

数理言語情報論　第8回 2009年11月25日数理言語情報学研究室　講師　二宮　崇.

演習３最終発表情報科学科4年山崎孝裕.

部分木に基づくマルコフ確率場と言語解析への適用

東京工科大学コンピュータサイエンス学部亀田弘之

人工知能特論II　第１回二宮　崇.

プログラミング言語論第４回式の構文、式の評価

計算の理論 II 文脈自由文法とプッシュダウンオートマトン

第6章ユニフィケーション解析ユニフィケーション解析とは？

12月08日構文解析入力文（記号列）が与えられたとき，文法によってその文を解析し，その構造を明らかにする.

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

コンパイラ 2012年10月15日

コンパイラ 2012年10月22日

Semi-Supervised QA with Generative Domain-Adaptive Nets

コンパイラ 2011年10月24日

動詞の共起パターンを用いた動作性名詞の述語項構造解析

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

プログラミング言語論第３回 BNF記法について（演習付き）

人工知能特論II　第2回二宮　崇.

正則言語 2011/6/27.

決定木とランダムフォレスト和田　俊和.

形式言語の理論 5. 文脈依存言語.

6.2.4 辞書項目(1) 辞書項目にも、語に対するＤＡＧを与える。

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

Data Clustering: A Review

東京工科大学コンピュータサイエンス学部亀田弘之

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

東京工科大学コンピュータサイエンス学部亀田弘之

プログラミング言語論第9回情報工学科木村昌臣篠埜　功.

コンパイラ 2011年10月20日

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

第4章識別部の設計 4－5 識別部の最適化発表日：2003年5月16日発表者：時田陽一

第3章　線形回帰モデル修士1年山田　孝太郎.

文法と言語ー文脈自由文法とLR構文解析ー

クロスバリデーションを用いたベイズ基準によるHMM音声合成

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

人工知能特論II　第8回二宮　崇.

東京工科大学コンピュータサイエンス学部亀田弘之

４．プッシュダウンオートマトンと文脈自由文法の等価性

奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

コンパイラ 2012年10月11日

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

Presentation transcript:

数理言語情報論　第7回 2007年11月19日数理言語情報学研究室　講師　二宮　崇

今日の講義の予定前回までの復習マルコフ文法論文 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法) マルコフ文法論文 Michael Collins (1997) Three generative, lexicalised models for statistical parsing, In proc. of ACL-EACL, p.16—23 Michael Collins (1999) Head-Driven Statistical Models for Natural Language Parsing, Ph.D thesis, University of Pennsylvania Michael Collins (2003) Head-Driven Statistical Models for Natural Language Parsing, Computational Linguistics, 29(4), 589--637. Daniel M. Bikel (2004) Intricacies of Collins’ Parsing Model, Computational Linguistics, 30, 479—511

PCFG CFGの書換規則の適用確率をパラメータ化した文法構文木の確率は、適用された書換規則のパラメータの積 S → SUBJ VP1 θS → SUBJ VP1 S → SUBJ V θS → SUBJ V SUBJ → NP が θSUBJ → NP が VP1 → OBJ1 V θVP1 → OBJ1 V OBJ1 → NP を θOBJ1 → NP を NP → S NP θNP → S NP V → 送った θV → 送った V → 読んだ θV → 読んだ NP → 香織 θNP → 香織 NP → 恵 θNP → 恵 NP → 電子メール θNP → 電子メール NP → プレゼント θNP → プレゼント NP → 香織 NP1 θNP → 香織 NP1 NP → 恵 NP1 θNP → 恵 NP1 NP1 → と NP θNP1 → と NP CFGの書換規則の適用確率をパラメータ化した文法構文木の確率は、適用された書換規則のパラメータの積各パラメータは0.0≦θ≦1.0

構文木の確率 NP P(t) = θS → SUBJ VP1 × θSUBJ → NP が × θNP → 香織 × 簡単なCFGの例パラメータ S → SUBJ VP1 θS → SUBJ VP1 S → SUBJ V θS → SUBJ V SUBJ → NP が θSUBJ → NP が VP1 → OBJ1 V θVP1 → OBJ1 V OBJ1 → NP を θOBJ1 → NP を NP → S NP θNP → S NP V → 送った θV → 送った V → 読んだ θV → 読んだ NP → 香織 θNP → 香織 NP → 恵 θNP → 恵 NP → 電子メール θNP → 電子メール NP → プレゼント θNP → プレゼント NP → 香織 NP1 θNP → 香織 NP1 NP → 恵 NP1 θNP → 恵 NP1 NP1 → と NP θNP1 → と NP NP OBJ1 V が読んだ香織 NP を S NP SUBJ V 電子メール NP が送った恵 P(t) = θS → SUBJ VP1 × θSUBJ → NP が × θNP → 香織 × θVP1 → OBJ1 V × θOBJ1 → NP を × θNP → S NP × θS → SUBJ V × θSUBJ → NP が × θNP → 恵× θV → 送った× θNP → 電子メール × θV → 読んだ

書換規則の制約 CFG書換規則をA→ αと表したとき、(Aは非終端記号、αは非終端記号列)すべての非終端記号Aに対し、　とする。

構文木tの確率を計算 p(t) = θS → NP VP × θNP → N PP × θN → 太郎 × CFG G パラメータ値 S → NP VP θS → NP VP 1.0 NP → N PP θNP → N PP N → N PP N θN → N PP N 0.1 VP → NP VP θVP → NP VP 0.3 VP → V θVP → V 0.7 PP → が θPP → が 0.5 PP → を θPP → を PP → と θPP → と 0.2 N → 太郎 θN → 太郎 N → 花子 θN → 花子 N → 映画 θN → 映画 0.4 V → 褒める θV → 褒める V → 見る θV → 見る VP NP VP N PP NP V 太郎が PP N 褒めるを N PP N 花子と映画 p(t) = θS → NP VP × θNP → N PP × θN → 太郎 × θPP → が × θVP → NP VP × θNP → N PP × θN → N PP N × θN → 花子 × θPP → と× θN → 映画 × θPP → を × θVP → V × θV → 褒める = 1.0×1.0×0.3×0.5×0.3×1.0× 0.1×0.2×0.2×0.4×0.3×0.7×0.3 = 0.000004536

構文木tの確率 C(r; t): CFG<VN, VT, P, σ>の書換規則r∈Pが構文木t中で使われた回数

最大確率の木を選ぶある文sに対し、CFG<VN, VT, P, σ>を用いてsを導出できる全ての構文木集合をT(s)としたとき、

パラメータ推定教師付学習教師無学習正解構文木の集合（＝ツリーバンクと呼ばれる）が存在する場合の学習正解構文木の集合が与えられない状況で、パラメータの推定を行う学習

パラメータ推定単純な数え上げ最尤推定教師付学習のもっとも単純な実現正解構文木の集合(ツリーバンクと呼ばれる)があれば、その中で使われているCFG書換規則の頻度をカウントすれば各々のパラメータを簡単に計算できる最尤推定教師無学習の最も有名な実現正解構文木がない場合や書換規則パラメータ以外のパラメータが存在する場合に使われる

パラメータ推定: 単純な数え上げ正解構文木の集合（ツリーバンク）Treebankが与えられた時、

パラメータは条件付き確率 A→αという形のCFGルールに対するパラメータθA→α パラメータの関数と明示するほうがわかりやすいけど、その確率は親が生成された時の条件確率 θA→α = p(α | A) 今後は、パラメータの形ではなくて、条件付き確率の形式で説明していきます

PCFG概説

ツリーバンクを使った構文解析人間が文法を直接定義するのは困難構文木の実例（ツリーバンク）に基づく定量的評価が必要文法はツリーバンクから導出（ツリーバンク文法） S → NP VP NP → DET N NP → N … 文法規則、辞書検証・開発ツリーバンクコンピュータ

ツリーバンク実世界の文に対して人手で構文木を付与する明示的な文法を仮定しない構造は開発者の言語直感とガイドラインに依存文法？ガイドラインはあるが、文法で定義されるような「何が正解か」の客観的基準は存在しない文法？ A record date has n’t been set.

有名なツリーバンク構文木や係り受け木を人手で付与したコーパス（ツリーバンク）の登場 Penn Treebank [Marcus et al. 1993] SUSANNE [Sampson 1995] TIGER Treebank [Brants et al. 2002] Prague Dependency Treebank [Hajic 1998] Verbmobil [Hinrichs et al. 2000] EDRコーパス [EDR 1995] 京都大学テキストコーパス [黒橋ら 1997] 日本語話し言葉コーパス [前川ら 2000]

Penn Treebank (1/2) 構文木が付与された最初の大規模英語ツリーバンク [Marcus et al. 1993] 様々な分野の英語テキストを収録 Wall Street Journal （新聞）約5万文、100万語 ATIS （航空券予約の会話） Brown （様々な分野のテキスト） Switchboard （電話の自由発話）

Penn Treebank (2/2) 品詞： NN（普通名詞）, VBZ（三単現動詞）… 構文木： NP（名詞句）, VP（動詞句）… Function tag, null element: 述語項構造を計算するための付加情報（詳細省略） S 名詞句 VP NP VP 限定詞 DT NN NN VBZ RB VBN VBN A record date has n’t been set. 普通名詞三単現動詞副詞過去分詞

ツリーバンクから文法を抽出するツリーバンクの背後にある文法を自動抽出文法？潜在的な規則性を自動獲得できるはず文法抽出 S VP NP VP DT NN NN VBZ RB VBN VBN A record date has n’t been set. ツリーバンク開発

確率CFGの自動抽出(1/2) ツリーバンクの各分岐をCFG規則だと仮定して抽出する [Charniak 1996; 1997] c.f. [Sekine1995] CFG規則 S S → NP VP NP → DT NN NN VP → VBZ RB VP VP → VBN VBN VP NP VP DT NN NN VBZ RB VBN VBN A record date has n’t been set.

確率CFGの自動抽出(2/2) ツリーバンクでの出現頻度から確率値を推定確率値最大の木を探索することで、構文解析の曖昧性解消ができる S S → NP VP NP → DT NN NN VP → VBZ RB VP VP → VBN VBN 0.5 0.03 0.02 0.1 VP NP VP DT NN NN VBZ RB VBN VBN A record date has n’t been set.

問題点（１）：文法が大きい 40,000文から約15,000のCFG規則 CFG規則数が収束しない [Carpenter et al. 1997] →　抽象化・一般化しきれていない

問題点（２）：精度が低い Charniak [1996]: 80% S VP VP PP VP → VP PP NP NP NP We applied the algorithm to IE NN VBD DT NN IN NN We selected the approach to IE NP NP → NP PP NP NP PP NP 同じ品詞列でも、単語によって構文木の形が変わる VP S

ツリーバンク文法の改良 (1) 文法が大きい (2) 精度が低い CFG規則の自動圧縮 [Krotov et al. 1998; 1999] CFG規則の確率モデル化 [Magerman 1995; Collins 1997; Charniak 2000] (2) 精度が低い非終端記号の細分化 [Magerman 1995; Collins 1996; 1997; Johnson 1998; Charniak 2000]

CFG規則の確率モデル化 Markov Grammar: CFG規則を確率的に生成する [Collins 1997; Charniak 2000] 原理的には、全てのCFG規則をもつ PCFG Penn Treebank から抽出したそのままのPCFG より高精度を達成する p(NP → DT NN NN | NP) = p(NN | NP) p(NN | NN, NP) p(DT | NN, NN, NP)

非終端記号の細分化(1/2) 語彙化: Head percolation table (Magerman 1995) を用いて、非終端記号に head word を付与（参考）語彙化の意味 [Gildea 2001; Bikel 2004] S applied Head percolation table VP 親の記号主辞になる子の記号 S VP, … VP VP, VBD, VBZ, … NP NN, … PP IN, … applied VP PP applied to NP NP NP We algorithm IE NN VBD DT NN IN NN We applied the algorithm to IE Charniak [1996]: 80% vs. Magerman [1995]: 86%

非終端記号の細分化(2/2) 非終端記号だけでは構造を決める情報が少ない（例）親の非終端記号で細分化 [Johnson 1998] 主語のNPと目的語のNPが区別できる主語は代名詞が出やすい目的語は長くなりやすいその他、様々な周辺情報で細分化 [Charniak 2000; Klein et al. 2003] S S NP VP NP-S VP-S V NP V-VP NP-VP

マルコフ文法

マルコフ文法 CFG規則を確率的に生成する [Collins 1997; Charniak 2000] 原理的には、全てのCFG規則をもつ PCFG Penn Treebank から抽出したそのままのPCFG より高精度を達成する State-of-the-artの性能のパーザーの基本的な仕組 p(NP → DT NN NN | NP) = p(NN | NP) p(NN | NN, NP) p(DT | NN, NN, NP)

何故マルコフ文法を講義で扱うのか？現在の（おおよそ）最高性能のパーザー(Charniak&Johnson2005)の基礎 Charniak(2000)のパーザーの出力をエントロピー最大化法を用いてreranking Charniakパーザーもマルコフ文法の一種モデル精度(LF) collins1999 88.19% charniak2000 89.55% charniak&johnson2005 91.02%

マルコフ過程: シャノンゲーム Nana eats an ???? 次に何が来るのか予測バイグラムトライグラム

マルコフ過程: 確率モデル条件付き確率はだから、つまり、

マルコフ過程: 確率モデル単語列の確率モデル単語列のNグラムモデル(N-1次のマルコフ過程) 直前のN-1個の単語列の影響のみ受けるユニグラム(0次のマルコフ過程) バイグラム(1次のマルコフ過程) トライグラム(2次のマルコフ過程)

高次のマルコフ過程の問題高い次数のマルコフ過程より精度が高いことが期待できる訓練データに出現しなかった単語列に対しては推定ができない(ゼロ頻度問題、データスパースネス) 次数が高いほどデータスパースになってしまう

スムージング線形補間法(linear interporation) Nグラムの確率値を低次のMグラム(M<N)の確率値と線形に補間する方法トライグラムの場合

スムージング補間係数λを推定ヘルドアウト補間法(held-out interpolation) 訓練データとヘルドアウトデータにわけるヘルドアウトデータで補間係数を学習補間係数はEMアルゴリズムで最尤推定トライグラムの場合

スムージング削除補間法(deleted interporation) データをm個に分割(L1, L2, ..., Lm) L2,...LmをNグラムの訓練データ、L1を補間係数推定のためのヘルドアウトデータとしてヘルドアウト推定法で学習同様にL1, L3, ..., LmでNグラム、L2で補間係数を学習 … これを繰り返して、L1,...Lm-1でNグラム、Lmで補間係数を学習以上のようにして求めた補間係数の平均をとる |Li|=1の時、リーヴィング・ワン・アウト法と呼ばれる（リーブ・ワン・アウトともいう）

COLLINS MODEL 1

ツリーバンクの変形語彙化 Head percolation table 親の記号主辞になる子の記号 S VP, … VP VP, VBD, VBZ, … NP NN, … PP IN, … TOP S(bought, VBD) NP(IBM, NNP) NP(week, NN) VP(bought, VBD) NNP(IBM, NNP) JJ(Last, JJ) VBD(bought, VBD) NP(Lotus, NNP) IBM NN(week, NN) NNP(Lotus, NNP) Last bought week Lotus

語彙化構文木ノードが非終端記号から(非終端記号＋主辞語＋主辞品詞)の組になった書換規則も語彙化されたノードで表現 pure CFGの構文木ノード: NP 語彙化 CFGの構文木ノード: NP(IBM, NNP) 書換規則も語彙化されたノードで表現 pure CFG: S → NP NP VP 語彙化CFG: S(bought, VBD) → NP(week, NN) NP(IBM, NNP) VP(bought, VBD)

語彙化CFGの書換規則書換規則書換規則の確率 M(h) → Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm) H: head-child M: 親 L: 主辞の左側の修飾句 R: 主辞の右側の修飾句 h: 主辞語と主辞品詞のペア li: Liの主辞語と主辞品詞のペア ri: Riの主辞語と主辞品詞のペア書換規則の確率

書換規則のマルコフ化書換規則の確率

書換規則のマルコフ化書換規則の確率 0次のマルコフ過程 (c.f. charniak(2000)は3次のマルコフ文法) つまり、、、（語彙化と）書換規則の確率の定義が変わるだけで、その他はpure PCFGと同じであることに注意！

書換規則のマルコフ化: 例 S(bought) → NP(week) NP(IBM) VP(bought) p(NP(week)NP(IBM)VP(bought)|S(bought)= ph(VP|S, bought)× pl(NP(IBM)|S, VP, bought)× pl(NP(week)|S, VP, bought)× pl(STOP|S, VP, bought)× pr(STOP|S, VP, bought)

Distance関数の追加マルコフ化の際にDistance関数を追加書換規則の確率

Distance関数の中身 Distance関数が指す部分木 M(h) L1(l1) H(h) R1(r1) ... Ri-1(ri-1) Rm(rm) δ(i-1)はこの木のこと

Distance関数の中身求めようとする構文木ノードの条件付き確率p(Ri(ri)|...)の一つ手前のノードRi-1(ri-1)の下に広がる部分構文木が対象 Distance関数の返す値 R1かL1である？部分構文木の下に動詞を含むか否か？

COLLINS MODEL 2

ツリーバンクの変形語彙化+補語(句)/修飾語(句)の区別 TOP S(bought, VBD) VP(bought, VBD) NP-C(IBM, NNP) NP(week, NN) NNP(IBM, NNP) NP-C(Lotus, NNP) NN(week, NN) VB(bought, VBD) JJ(Last, JJ) IBM NNP(Lotus, NNP) Last week bought Lotus

ツリーバンクの変形補語(complements)/修飾語(adjuncts)の区別非終端記号は次のうちのいずれかである親がSであるNP, SBAR, S 親がVPであるNP, SBAR, S 親がSBARであるS 非終端記号は次のうちのいずれかのsemantic tagをもっていてはいけない ADV, VOC, BNF, DIR, EXT, LOC, NMR, TMP, CLR or PRP それに加えて、前置詞句の主辞の後にすぐに続く兄弟ノードは補語である

下位範疇化フレーム: 問題補語や修飾語の区別をつけても、文法的に誤った構文と正しい構文の確率に差がつかない (例1) 正解不正解 S S NP-C VP VP NP-C NP-C NP NP was was ADJP ADJP Dreyfus the best fund Dreyfus the best fund low low

下位範疇化フレーム: 問題補語や修飾語の区別をつけても、文法的に誤った構文と正しい構文の確率に差がつかない (例2) 正解不正解 S S VP VP NP-C was NP-C NP-C VP-C VP NP was NP-C The issue The issue NP-C a bill NP-C a bill funding funding Congress Congress

下位範疇化フレーム解決策下位範疇化フレーム(subcat frame)を導入補語として取る非終端記号の多重集合(multi set) HPSGで出てきたVALの下のSUBJやCOMPSやSPR

書換規則の確率モデル LC(左側の下位範疇化フレーム)とRC(右側の下位範疇化フレーム)の導入例 RC={NP-C, NP-C}, LC={NP-C} plc({NP-C, NP-C}|S, VP, bouht}やprc({NP-C, VP-C}|VP, VB, was)は低い

下位範疇化フレーム下位範疇化フレームは補語をひとつとる度に消費される（減っていく）下位範疇化フレームに要素が残っている間はSTOPに対する確率は0 下位範疇化フレームに要素が無い場合は、補語をとる確率は0

下位範疇化フレーム: 例 S(bought) → NP(week) NP-C(IBM) VP(bought)の確率 ph(VP|S, bought)× plc({NP-C}|S, VP, bought)× prc({}|S, VP, bought)× pl(NP-C(IBM)|S, VP, bought, {NP-C})× pl(NP(week)|S, VP, bought, {})× pl(STOP|S, VP, bought, {})× pr(STOP|S, VP, bought, {})

Collins Model 3 痕跡(Trace)とwh-移動 ex.1 The store (SBAR which TRACE bought Brooks Brothers) ex.2 The store (SBAR which Marks bought TRACE) ex.3 The store (SBAR which Marks bought Brooks Brothers from TRACE)

Collins Model 3 例 boughtの下位範疇化フレーム: {NP-C} boughtがTRACEをとった後の下位範疇化フレームは空: {} NP(store) SBAR(that)(+gap) NP(store) WHNP(that) S(bought)(+gap) The store WDT NP-C(Marks) VP(bought)(+gap) that Marks VBD TRACE NP(week) boughtの下位範疇化フレーム: {NP-C} bought last week

スムージング plとpr 削除補間法(deleted interporation) 主辞品詞主辞語 back-off level ph(H|...) plc(LC|...) prc(RC|...) pl1(Li(lti)|...) pr1(Ri(rti)|...) pl2(lwi|...) pr2(rwi|...) 1 M,w,t M,H,w,t M,H,w,t,δ,LC Li,lti,M,H,w,t,δ,LC 2 M,t M,H,t M,H,t,δ,LC Li,lti,M,H,t,δ,LC 3 M M,H M,H,δ,LC Li,lti 4 - lti

性能評価 PARSEVALという基準で評価構文木ノードの位置（左端の位置と右端の位置）と非終端記号ラベル Labeled Precision (LP)=(パーザーが正解したラベル数)/(パーザーが出力したラベル数) Labeled Recall (LR) = (パーザーが正解したラベル数)/(ツリーバンク中のラベル数) Labeled F-Score(F1-Score) = labeled precisionとlabeled recallの調和平均=2*LP*LR/(LP+LR) model LP LR LF Magerman95 84.3% 84.0% 84.1% Collins96 85.7% 85.3% 85.5% Model 1 87.6% 86.8% 87.2% Model 2 88.1% 87.5% 87.8% Model 3

まとめ PCFG概要マルコフ文法次回は、11/26(月) 16:30～構文解析(decoding) 講義資料マルコフ過程スムージング Collins Model 1 Collins Model 2 Collins Model 3 次回は、11/26(月) 16:30～構文解析(decoding) 講義資料 http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/mistH19w/