Presentation is loading. Please wait.

Presentation is loading. Please wait.

自然言語処理における 文法開発の軌跡と展望

Similar presentations


Presentation on theme: "自然言語処理における 文法開発の軌跡と展望"— Presentation transcript:

1 自然言語処理における 文法開発の軌跡と展望
二宮 崇 (東京大学) 宮尾祐介 (東京大学)

2 いわゆる“自然言語処理” 形態素解析 “太郎は花子が好きだ” 名詞 助詞 名詞 助詞 形容動詞 太郎 花子 好きだ

3 いわゆる“自然言語処理” 構文解析 動詞句 名詞句 動詞句 名詞句 名詞 助詞 名詞 助詞 形容動詞 太郎 花子 好きだ

4 いわゆる“自然言語処理” 意味解析 太郎 は 花子 が 好きだ 文 動詞句 名詞句 動詞句 名詞句 名詞 助詞 名詞 助詞 形容動詞 目的語
対象 述語 主語 動作主

5 いわゆる“自然言語処理” 文脈解析 太郎 は 花子 が 好きだ 次郎 も 彼女 が 好きだ 述語 目的語 対象 主語 動作主 名詞 助詞
形容動詞 名詞句 動詞句 文脈解析 動詞句 名詞句 動詞句 名詞句 名詞 助詞 名詞 助詞 形容動詞 次郎 彼女 好きだ 目的語 対象 述語 主語 動作主 =花子

6 いわゆる“自然言語処理” “太郎は花子が好きだ” 太郎/名詞 は/助詞 花子/名詞 が/助詞 好きだ/形容動詞
形態素解析 太郎/名詞 は/助詞 花子/名詞 が/助詞 好きだ/形容動詞 構文解析 (文 (名詞句-主語太郎/名詞 は/助詞) (名詞句-目的語 花子/名詞 が/助詞) (動詞句 好きだ/形容動詞)) 意味解析 太郎/名詞/主語/動作主/人物 花子/名詞/目的語/対象/人物 好きだ/動詞/動作主-太郎/対象-花子 文脈解析

7 “浅いところ”から“深いところ”へ 理想 形態素解析 構文解析 意味解析 文脈解析

8 “浅いところ”から“深いところ”へ 現実 思いの他 深い! 形態素解析 構文解析 意味解析 文脈解析 TAG, LFG, HPSGなどあまたの複雑精巧な文法が提案・研究されてきたにも関わらず、実テキストを解析できる文法はなかなかできなかった

9 “深海”を目指すよりも“浅瀬”を ・コーパスベース ・統計モデル ・機械学習 複雑精巧な文法理論に頼らなくてもそこそこの出力が得られる
形態素解析 構文解析 意味解析 文脈解析 ・コーパスベース ・統計モデル ・機械学習 複雑精巧な文法理論に頼らなくてもそこそこの出力が得られる

10 文法開発の難しさ さて、いったい何が難しくて文法開発がうまくいかなかったのだろうか?

11 構造と言語能力と文法理論 文法 適格文、非文を人間に判断させることによって、人間がもつ言語能力の規則性(=文法)を発見する 文法規則 辞書
S → NP VP NP → DET N NP → N 文法規則 (=生成規則+制約) 辞書

12 自然科学と文法理論 不可知な真の自然 理論化、検証を繰り返すことによって、真の自然の姿により近づく 原子、分子、 クォーク

13 自然科学と文法理論 理論化、検証を繰り返すことによって、真の文法の姿により近づく S → NP VP 不可知な真の文法 NP → DET N
NP → N 不可知な真の文法 S → NP VP NP → DET N NP → N 理論化、検証を繰り返すことによって、真の文法の姿により近づく 文法規則、辞書、シソーラス

14 文法理論と科学的サイクル 思考実験 コーパスに対する検証 データ収集・観察・分析 理論の検証 コーパス収集 コーパス開発 コーパス分析
カテゴリー化 文法理論 辞書項目 理論化

15 どこに落とし穴があったのか?

16 アウトライン 導入 合理主義的文法 経験主義的文法 文法開発の再解釈と展望 合理主義的文法と経験主義的文法を超えて

17 合理主義的文法

18 合理主義的文法 ・文法を人間が定義、分類、記述する ・辞書と文法規則を開発 ・コーパスは検証のための副次的存在 S → NP VP
NP → DET N NP → N 文法規則、辞書 検証 コーパス

19 合理主義的文法の文法開発 文法規則をつくる 辞書をつくる 生コーパス 検証 文法規則 辞書項目 文法開発者 理論化

20 有名な合理主義的文法 Core Language Engine (English) [Alshawi 1992]
TAG [Joshi et al. 1996] XTAG (English/Korean) [XTAG Research Group 1995] FTAG (French) [Abeillé et al. 2000] LFG [Bresnan 1982] ParGram (English, Chinese, French, German, Norwegian, Japanese, Turkish, Urdu, Welsh, Malagasy, Arabic, Hungarian, Vietnamese) [Butt et al. 2002] English XLE [Riezler et al. 2002; Kaplan et al. 2004] German XLE [Forst and Rohrer 2006] Japanese XLE [Masuichi and Okuma 2003]

21 有名な合理主義的文法 HPSG [Pollard et al. 1994]
DELPHIN (English, Japanese, German, Spanish, Norwegian, Modern Greek, Korean, Italian) [Bender et al. 2002] LinGO ERG (English) [Flickinger 2002] JACY (Japanese) [Melanie et al. 2002] Babel (German) [Stefan Müller 1996] ALPINO (Dutch) [Bouma et al. 2002] RASP (English) [Carroll and Briscoe 2002]

22 HPSG 現代の言語学において代表的な文法理論 文法開発や高速化の研究もさかん 中心的概念:文法=辞書項目+文法規則
辞書項目:単語固有の構文・意味的性質を記述する 文法規則:構文木の一般的規則性を規定する

23 HPSG: 構成素 構文木の各ノードや辞書項目を素性構造で表現 音声形式(表層形) 主辞から継承する制約 修飾先の制約 下位範疇化フレーム
sign PHON string 音声形式(表層形) synsem local category head HEAD 主辞から継承する制約 MOD synsem LOCAL CAT valence 修飾先の制約 SPR list SYNSEM VAL SUBJ list list 下位範疇化フレーム COMPS CONT content 意味表現 nonlocal QUE list NONLOCAL REL list 長距離依存の制約 SLASH list 構文的・意味的制約 構文的カテゴリ

24 HPSG: 辞書項目 単語特有の統語的性質を規定 このチュートリアルではこのように省略します PHON “loves” HEAD verb
MOD <> VFORM finite INV minus AUX minus HEAD SPR <> HEAD noun SPR <> SUBJ <> COMPS <> VAL LOCAL CAT CAT SUBJ < > LOCAL NUM 3rd PERS sing CONT|HOOK INDEX 1 VAL SYNSEM HEAD noun CAT SPR <> SUBJ <> COMPS <> PHON “loves” HEAD verb SUBJ <HEAD noun> COMPS <HEAD noun> COMPS < > LOCAL VAL CONT|HOOK 2 love CONT HOOK ARG1 1 ARG2 2 RELS <> QUE <> REL <> SLASH <> NONLOCAL

25 HPSG: 構文解析 Mary walked slowly 名詞 動詞 副詞 主語をとらない 名詞の主語を一つとる 動詞を一つ修飾
目的語をとらない 動詞 名詞の主語を一つとる 目的語をとらない 副詞 動詞を一つ修飾 辞書項目(終端記号) HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 HEAD adverb MOD 〈HEAD verb〉 Mary walked slowly

26 HPSG: 構文解析 単一化 Mary walked slowly 構文規則 HEAD SUBJ COMPS HEAD SUBJ COMPS
1 2 3 構文規則 HEAD SUBJ COMPS 1 2 MOD 〈 〉 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 HEAD adverb MOD 〈HEAD verb〉 Mary walked slowly

27 HPSG: 構文解析 Mary walked slowly HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉
HEAD adverb MOD 〈HEAD verb〉 Mary walked slowly

28 HPSG: 構文解析 もう一度よくみてみよう! 単一化 Mary walked slowly 構文規則 HEAD SUBJ COMPS
1 2 3 構文規則 HEAD SUBJ COMPS 1 2 MOD 〈 〉 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ 〈HEAD noun〉 COMPS 〈〉 HEAD adverb MOD 〈HEAD verb〉 Mary walked slowly

29 HPSG: 構文解析 情報の伝達 単一化 Mary walked slowly verb 構文規則 verb HEAD SUBJ COMPS
1 2 3 構文規則 verb HEAD SUBJ COMPS 1 2 MOD 〈 〉 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ 〈HEAD noun〉 COMPS 〈〉 1 HEAD adverb MOD 〈HEAD verb〉 Mary walked slowly

30 HPSG: 構文解析 情報の伝達 単一化 Mary walked slowly 構文規則 HEAD verb SUBJ
COMPS 1 〈HEAD noun〉 2 3 構文規則 HEAD verb SUBJ COMPS 1 〈HEAD noun〉 2 MOD 〈 〉 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ  〈HEAD noun〉 COMPS 〈〉 1 HEAD adverb MOD 〈HEAD verb〉 2 Mary walked slowly

31 HPSG: 構文解析 情報の伝達 単一化 Mary walked slowly 構文規則 HEAD verb
SUBJ 〈HEAD noun〉 COMPS 1 2 〈〉 3 構文規則 HEAD verb SUBJ 〈HEAD noun〉 COMPS 1 2 MOD 〈 〉 〈〉 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ  〈HEAD noun〉 COMPS  〈〉 1 HEAD adverb MOD 〈HEAD verb〉 2 3 Mary walked slowly

32 この二つはまったく同じ情報をもつようになった!
HPSG: 構文解析 この二つはまったく同じ情報をもつようになった! 情報の伝達 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 1 2 3 構文規則 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 1 2 MOD 〈 〉 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ  〈HEAD noun〉 COMPS  〈〉 1 HEAD adverb MOD 〈HEAD verb〉 2 3 Mary walked slowly

33 HPSG: 構文解析 単一化 Mary walked slowly 構文規則 HEAD verb SUBJ 〈HEAD noun〉
COMPS 〈〉 1 2 3 構文規則 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 1 2 MOD 〈 〉 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ  〈HEAD noun〉 COMPS  〈〉 1 HEAD adverb MOD 〈HEAD verb〉 2 3 Mary walked slowly

34 HPSG: 構文解析 情報の伝達と制約 単一化 Mary walked slowly 構文規則 HEAD verb
SUBJ 〈HEAD noun〉 COMPS 〈〉 1 2 3 構文規則 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 1 HEAD adverb MOD 〈 〉 2 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ  〈HEAD noun〉 COMPS  〈〉 1 HEAD adverb MOD 〈HEAD verb〉 2 3 Mary walked slowly

35 HPSG: 構文解析 情報の伝達と制約 単一化 Mary walked slowly
HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 1 2 3 構文規則 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 1 HEAD adverb MOD 〈 〉 5 2 3 単一化 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  verb SUBJ  〈HEAD noun〉 COMPS  〈〉 1 HEAD adverb MOD 〈HEAD verb〉 5 2 3 Mary walked slowly

36 HPSG: 構文解析 非文を与えると、、、、 情報の伝達と制約 Mary Mary slowly
nounとverbは単一化できないので、文法規則の適用に失敗する 非文を与えると、、、、 情報の伝達と制約 HEAD noun SUBJ 〈〉 COMPS 〈〉 1 2 3 構文規則 HEAD noun SUBJ 〈〉 COMPS 〈〉 1 HEAD adverb MOD 〈 〉 5 2 3 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD  noun SUBJ  〈〉 COMPS  〈〉 1 HEAD adverb MOD 〈HEAD verb〉 5 2 3 Mary Mary slowly

37 HPSG: 構文解析 Mary walked slowly ・主辞が動詞 ・主語を一つとる ⇒動詞句であることもわかる HEAD verb
SUBJ 〈HEAD noun〉 COMPS 〈〉 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 HEAD adverb MOD 〈HEAD verb〉 Mary walked slowly

38 HPSG: 構文解析 構文規則を繰り返し適用することにより、構文構造を表す構文木が生成される Mary walked slowly
辞書項目の中に、 ・どのような主語がとれる ・どのような修飾先に修飾できる といったことが書ける HEAD verb SUBJ 〈〉 COMPS 〈〉 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 HEAD noun SUBJ 〈〉 COMPS 〈〉 HEAD verb SUBJ 〈HEAD noun〉 COMPS 〈〉 HEAD adverb MOD 〈HEAD verb〉 Mary walked slowly

39 HPSG: 構文解析 複雑な構文木の例 SLASH, REL 素性により長距離依存の構造を説明
(例)WH移動, topicalization, 関係節 HEAD noun SUBJ < > COMPS < > SPR < > HEAD det SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > SPR < > 1 the 1 HEAD noun SUBJ < > COMPS < > SPR < > HEAD verb SUBJ < > COMPS < > REL < > 2 1 2 prices HEAD verb SUBJ < > COMPS < > SLASH < > 2 HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > SLASH < > 3 3 we 2 HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > SLASH < > 3 4 3 4 2 were charged

40 HPSG: 文法規則 … 文法規則=構文規則、文法制約、語彙規則など 構文規則:構文木の親子間の制約を規定
HEAD SUBJ <> HEAD COMPS< > HEAD SLASH < > 2 3 3 2 2 HEAD SUBJ < > HEAD SLASH < | > 2 3 HEAD COMPS < | > 1 3 1 1 1 1 2 1 2 subject-head 構文 (例: “John runs”) complement-head 構文 (例: “loves Mary”) filler-head 構文 (例: “what he bought”) このような構文規則が8~数十ほど定義される 子供と子供の間での制約 子供と親の間で情報を伝播

41 HPSG: 文法規則 文法制約:構文規則が満たすべき一般的制約 Head Feature Principle
[HEAD ] → … [HEAD ] … 主辞 Valence Principle 残った下位範疇化要素はすべて親に伝播 Immediate Dominance (ID) Principle 親子の間で構文規則のうちどれか一つを満たさないといけない その他たくさんの制約: NONLOCALの伝播、意味素性の構成など 1 1

42 合理主義的文法開発の現状と問題点 大規模かつ複雑な構造を実装するのは非常に難しい
複雑な文法を効率的に開発するために、様々な文法開発ツールが開発された XTAG [XTAG Research Group 1995] ConTroll [Götz et al. 1997] LKB [Copestake et al. 1999] [incr tsdb()] [Oepen et al. 2000] XLE [Butt et al. 2002] しかし、実世界のテキストを網羅的に解析できる文法の開発は難しかった [Baldwin et al. 2004]

43 合理主義的文法開発の最先端 Grammar Matrix (in DELPHIN Project) [Bender et al. 2002]
多言語文法開発のための文法コンポーネントの共通化(English, Japanese, German, Spanish, Norwegian, Modern Greek, Korean, Italian) Optimality Theory (in LFG XLE) [Frank et al. 1998] 曖昧性解消のために規則に優先順位を付与 ツリーバンク開発(後述) 曖昧性解消のための学習用 評価用 c.f. The PARC 700 Dependency Bank [King et al. 2003] LinGO Redwoods [Oepen et al. 2002] Hinoki [Bond et al. 2004]

44 合理主義的文法開発の前提 網羅性 識別性 実世界の文を解析するためには,あらゆる文を網羅する大規模な文法が必要 継続的に文法を修正・拡張
適格文のみ構文木が導出できて、非文は導出されない 文法的に解釈できる構文木はすべて出力 どの構文木をもっともらしい解とするかは、選好(preference)の問題であって、別モジュールで解決すべき問題 一文に対し文法的に解釈できる解の数は少ないほうがよい

45 合理主義的文法開発の問題点(1/2) 網羅性と一貫性のトレードオフ 文法を修正・拡張する際,一貫性・無矛盾性を保つのが非常に困難
コーパス中の問題の一箇所を改良すると、他の箇所に悪影響が及ぶ ポリシーの変更により10万オーダーの辞書項目を大幅に書き換える必要がある場合もある 文法修正により改良されたのか改悪されたのか明確に判断できない

46 合理主義的文法開発の問題点 (2/2) 曖昧性解消の必要性 実際のアプリケーションは一つの文に対し一つの解析結果を要求する
合理主義的文法の文法開発では曖昧性解消の問題を先送りしている

47 経験主義的文法

48 経験主義的文法 人間が文法を直接定義するのは困難 構文木の実例(ツリーバンク)に基づく定量的評価が必要
文法はツリーバンクから導出 (ツリーバンク文法) S → NP VP NP → DET N NP → N 文法規則、辞書 検証・開発 ツリーバンク コンピュータ

49 ツリーバンク 実世界の文に対して人手で構文木を付与する 明示的な文法を仮定しない 構造は開発者の言語直感とガイドラインに依存 文法?
ガイドラインはあるが、文法で定義されるような「何が正解か」の客観的基準は存在しない 文法? A record date has n’t been set.

50 有名なツリーバンク 構文木や係り受け木を人手で付与したコーパス (ツリーバンク)の登場
Penn Treebank [Marcus et al. 1993] SUSANNE [Sampson 1995] TIGER Treebank [Brants et al. 2002] Prague Dependency Treebank [Hajic 1998] Verbmobil [Hinrichs et al. 2000] EDRコーパス [EDR 1995] 京都大学テキストコーパス [黒橋ら 1997] 日本語話し言葉コーパス [前川ら 2000]

51 ツリーバンクの開発過程 ツリーバンク開発者(アノテータ)による手作業
アノテータのためのマニュアル(アノテーションガイドライン)による品質管理 編纂 検証 アノテーション ガイドライン ツリーバンク ツリーバンク開発者 解釈 編集 生コーパス

52 Penn Treebank (1/2) 構文木が付与された最初の大規模英語ツリーバンク [Marcus et al. 1993]
様々な分野の英語テキストを収録 Wall Street Journal (新聞) 約5万文、100万語 ATIS (航空券予約の会話) Brown (様々な分野のテキスト) Switchboard (電話の自由発話)

53 Penn Treebank (2/2) 品詞: NN(普通名詞), VBZ(三単現動詞)… 構文木: NP(名詞句), VP(動詞句)…
Function tag, null element: 述語項構造を計算するための付加情報 (詳細省略) S 名詞句 VP NP VP 限定詞 DT NN NN VBZ RB VBN VBN A record date has n’t been set. 普通名詞 三単現動詞 副詞 過去分詞

54 Penn Treebank アノテーションガイドライン
“Bracketing Guidelines for Treebank II Style Penn Treebank Project” Bies et al. 1995 13. Gerunds and Participles 14. Infinitives 15. Small Clauses and their near relatives 16. Clefts 17. It-Extraposition 18. Subject-Raising Predicates 19. Whether it and Referential it 20. Existential there 21. Tough-Clefts 22. Comparatives 23. “Financialspeak” conventions 24. Numbered Lists 25. Correlative the-Clauses 26. Orphans 1. An Overview of Basic Clause Structure 2. Notation 3. Punctuation 4. Null Elements 5. Pseudo-Attach 6. Copular Verbs 7. Coordination 8. Shared Complements and Modifiers in Coordinated Structures 9. WH-Phrases 10. Subordinate Clauses 11. Modification of NP 12. Titles 全318ページ!

55 Penn Treebank アノテーションガイドラインの例 (1/3)
基本的には自然言語による解説とたくさんの例示 1.1.4 名詞句内の補語 名詞にかかるPPがadjunctなのかargumentかを区別するのは難しいので、たんにNPにくっつける (NP (NP a teacher) (PP of (NP chemistry))) ただし、補文がかかる場合は次のようにする (NP the belief (SBAR that (S the world is flat)))

56 Penn Treebank アノテーションガイドライン (2/3)
ADJP vs. S 動名詞は2種類の解釈がある: 形容詞的名詞句修飾 (ADJP) vs 動名詞句 (S) “Flying planes can be dangerous” (a) (S (NP-SBJ Flying planes) (VP can (VP be (ADJP-PRD dangerous)))) (b) (S (S-NOM-SBJ (NP-SBJ *) (VP Flying (NP planes))) 判断がつかないときのデフォルトは(a)

57 Penn Treebank アノテーションガイドライン (3/3)
Small clause to-不定詞に関する句のアノテーション 1. monotransitive (S) vs. ditransitive (NP+S) (a) (S (NP-SBJ This) (VP does not (VP allow (S (NP-SBJ the mystery) (VP to (VP invade (NP us))))))) (b) (S (NP-SBJ He) (VP told (NP-1 me) (S (NP-SBJ *-1) (VP wake (NP you)))))) advise, ask, beg, beseech, challenge, command, counsel, detail, direct, enjoin, exhort, forbid, implore, incite, inform, instruct, invite, order, persuade, pray, promise, remind, request, recommend, teach, tell, urge の場合は(b)と解釈

58 ツリーバンクから文法を抽出する ツリーバンクの背後にある文法を自動抽出 文法? 潜在的な規則性を自動獲得できるはず 文法抽出
S VP NP VP DT NN NN VBZ RB VBN VBN A record date has n’t been set. ツリーバンク 開発

59 確率CFGの自動抽出(1/2) ツリーバンクの各分岐をCFG規則だと仮定 して抽出する [Charniak 1996; 1997] c.f. [Sekine1995] CFG規則 S S → NP VP NP → DT NN NN VP → VBZ RB VP VP → VBN VBN VP NP VP DT NN NN VBZ RB VBN VBN A record date has n’t been set.

60 確率CFGの自動抽出(2/2) ツリーバンクでの出現頻度から確率値を推定 確率値最大の木を探索することで、構文解析の曖昧性解消ができる
S S → NP VP NP → DT NN NN VP → VBZ RB VP VP → VBN VBN 0.5 0.03 0.02 0.1 VP NP VP DT NN NN VBZ RB VBN VBN A record date has n’t been set.

61 問題点(1):文法が大きい 40,000文から約15,000のCFG規則
CFG規則数が収束しない [Carpenter et al. 1997] → 抽象化・一般化しきれていない

62 問題点(2):精度が低い Charniak [1996]: 80% S VP VP PP VP → VP PP NP NP NP
We applied the algorithm to IE NN VBD DT NN IN NN We selected the approach to IE NP NP → NP PP NP NP PP NP 同じ品詞列でも、単語によって 構文木の形が変わる VP S

63 問題点(3):構造が浅い CFG構文木しか出力できない 意味構造へのマッピングがない 有用な情報が得られない 文生成に使えない
S VP NP-SBJ-1 VP DT NN NN VBZ RB VBN VBN 主語、目的語はどこ? 時制、アスペクトは? A record date has n’t been set.

64 ツリーバンク文法の改良 (1) 文法が大きい (2) 精度が低い (3) 構造が浅い → 後述
CFG規則の自動圧縮 [Krotov et al. 1998; 1999] CFG規則の確率モデル化 [Magerman 1995; Collins 1997; Charniak 2000] (2) 精度が低い 非終端記号の細分化 [Magerman 1995; Collins 1996; 1997; Johnson 1998; Charniak 2000] (3) 構造が浅い → 後述

65 CFG規則の確率モデル化 Markov Grammar: CFG規則を確率的に生成する [Collins 1997; Charniak 2000] 原理的には、全てのCFG規則をもつ PCFG Penn Treebank から抽出したそのままのPCFG より高精度を達成する p(NP → DT NN NN | NP) = p(NN | NP) p(NN | NN, NP) p(DT | NN, NN, NP)

66 非終端記号の細分化(1/2) 語彙化: Head percolation table [Magerman 1995] を用いて、非終端記号に head word を付与 (参考)語彙化の意味 [Gildea 2001; Bikel 2004] S applied Head percolation table VP 親の記号 主辞になる子の記号 S VP, … VP VP, VBD, VBZ, … NP NN, … PP IN, … applied VP PP applied to NP NP NP We algorithm IE NN VBD DT NN IN NN We applied the algorithm to IE Charniak [1996]: 80% vs. Magerman [1995]: 86%

67 非終端記号の細分化(2/2) 非終端記号だけでは構造を決める情報が少ない (例)親の非終端記号で細分化 [Johnson 1998]
主語のNPと目的語のNPが区別できる 主語は代名詞が出やすい 目的語は長くなりやすい その他、様々な周辺情報で細分化 [Charniak 2000; Klein et al. 2003] S S NP VP NP-S VP-S V NP V-VP NP-VP

68 → Penn Treebank から、より高度な文法を 自動抽出できないか?
より深い構造の抽出 CFGより深い構文構造や意味構造がほしい より深い構造のツリーバンクを作る? 非現実的: 高コスト 構造が複雑になると、矛盾・間違いが多発 → Penn Treebank から、より高度な文法を 自動抽出できないか?

69 ヒューリスティックルールで 構文木を分解する
LTAG文法の自動抽出 構文木から LTAG の elementary tree を抽出[Xia 1999; Chen et al. 2000; Chiang 2000] S ヒューリスティックルールで 構文木を分解する S NP VP NP VP NL is ADVP VP NL is ADVP VP officially making NP officially making NP Elementary tree を抽出 the offer the offer VP S NP VP ADVP VP* NP VP NP NP NL is VP* officially making NP the NP* offer

70 LFG文法の自動抽出 構文木に f-structure を自動付与する [Cahill et al. 2002; Frank et al. 2003] 自動付与ルール S 親の記号 子の記号 S NP:↑subj=↓, VP:↑=↓ VP NP:↑obj=↓, VP:↑=↓ NP VP ↑subj=↓ ↑=↓ NL is VP ↑=↓ ↑aux=↓ ↑=↓ f-structure ADVP VP 制約解決 PRED make SUBJ NL ↑adjunct=↓ ↑=↓ PRED offer DET the officially making NP OBJ ↑=↓ ↑=↓ ↑obj=↓ ADJUNCT officially AUX be the offer ↑det=↓ ↑=↓

71 経験主義的文法の問題点(1/2) ツリーバンク開発の問題 正解の客観的基準が存在しない 深い構造・複雑な構造の品質管理は困難
→ 文法理論に基づく合理的な品質管理・ 構造化が必要 こんなややこしい構造を 書いてられない! 検証・開発 ツリーバンク

72 経験主義的文法の問題点(2/2) 自動的な文法抽出の妥当性 自動抽出した LTAG, LFG 文法は正しいのか?
S → NP VP NP → DET N NP → N → 文法を合理的に検証する必要 文法規則、辞書 自動生成された文法規則は多すぎて人手では検証困難 本当に正しい? ツリーバンク コンピュータ

73 文法開発の再解釈と展望

74 合理主義的文法の文法開発の難しさ さて、いったい何が難しくて文法開発がうまくいかなかったのだろうか? どこに落とし穴があったのか?

75 比較検討(1/2) 経験主義的文法開発と合理主義的文法開発の違い 文法作成方法 コーパスの役割 評価手段 合理主義的文法 人手 生コーパス
補助的リソース 定性的評価 経験主義的文法 自動 ツリーバンク 中心的リソース 定量的評価

76 比較検討(2/2) 言語学者と言語処理研究者が求める文法、コーパスの役割の違い 目的 文法 コーパス 言語学者 言語能力の法則性の発見
適格文、非文を区別するために必要な規則 人間の言語能力を調べるための資料 言語処理研究者 応用システムに有用な構文構造の自動解析 コーパスを解析するための道具 機械学習・統計学習のためのリソース。性能評価のためのリソース

77 合理主義的文法開発の落とし穴 (1/2) コーパス軽視 文法開発の対象は、文法規則と辞書。 コーパスはあくまで補助的な検証の対象にすぎない
S → NP VP NP → DET N NP → N 文法規則、辞書 文法開発の対象は、文法規則と辞書。 コーパスはあくまで補助的な検証の対象にすぎない

78 合理主義的文法開発の落とし穴 (2/2) 定量的評価の不足 ツリーバンクの作成が困難 文法を変更するとその都度正解が変化
Penn Treebankのようなツリーバンクに対して評価すれば? Penn Treebankにおける構文木の解釈と文法開発者の構文木の解釈が異なるため、Penn Treebankで評価するのは文法を開発するのに匹敵するほど困難

79 経験主義的文法と合理主義的文法の歩み寄り
コンピュータ ・ツリーバンク開発 S → NP VP NP → DET N NP → N 文法規則、辞書 ・ツリーバンクの詳細化、構造化 ・ツリーバンクからの文法抽出 ツリーバンク

80 文法とツリーバンクの双対性 (1/3) 経験主義的文法の中の文法的知識 評価 学習 学習手法と評価にだけ注目されがちだが、、、
コンピュータ ツリーバンク ツリーバンク 評価 学習 学習手法と評価にだけ注目されがちだが、、、 ツリーバンクに文法的知識 ・ツリーバンク作成指針の中に暗黙的に ・構文木の構造から文法や辞書を作成するのに十分な情報 精度をあげるために文法的知識を導入 ・最初から文法的制約と構造をツリーバンクに導入したほうがすっきり

81 文法とツリーバンクの双対性 (2/3) 合理主義的文法でのツリーバンク S NP-1 VP NP *-1 have to choose
this particular moment NP they NP-1 did n’t *-1 こういう構文木をつくりたいからtheyはこんな辞書項目で 文法規則はこれとこれで この辞書項目と文法規則を組み合わせるとこんな構文木ができる

82 文法とツリーバンクの双対性 (3/3) 経験主義的文法 合理主義的文法 ツリーバンクに含まれる暗黙の文法
ツリーバンク作成の指針に含まれる文法的知識 構文木の構造に含まれる文法的知識 合理主義的文法 辞書項目と文法規則をつくる際に、構文木を想定

83 文法の3つのリソース 文法開発では3つのリソースを想定している 文法規則 ツリーバンク 辞書項目

84 経験主義的文法と合理主義的文法を超えて 三つのリソースを同時につくれば万事解決? S → NP VP NP → DET N NP → N …
ツリーバンクだけいただきます ツリーバンク、 文法規則、辞書

85 ≠ 合理主義的文法開発のジレンマ ツリーバンクと文法の不一致 データと理論の不一致? 文法規則 辞書 S → NP VP
NP → DET N NP → N データと理論の不一致? 作成したツリーバンク 導出されたツリーバンク

86 文法理論の恣意性 同じような機能・構造によって分類 観点・基準によって分類が異なる 極端な話、百人いれば百の文法理論がありうる! HPSG
LFG TAG c.f. 分類学 (進化分類学, 分岐分類学, 表形分類学) 極端な話、百人いれば百の文法理論がありうる!

87 星座と文法理論 あそこの星の並びが蟹にみえるなぁ

88 まぁ、星座の話はおいといて、、、 違う基準・違う方法論でつくるツリーバンクはなかなか一致しない 直感+アノテーションガイドライン
辞書と文法規則による文法理論

89 不一致が生じたときにどちらを修正すべきか?
文法が先かツリーバンクが先か? ツリーバンク 文法 S → NP VP NP → DET N NP → N 文法なんかいらねーよ 不一致が生じたときにどちらを修正すべきか? どちらにあわせればいいのだろうか? どちらを先に開発すべきか?

90 文法を先につくる 文法がツリーバンクを説明 辞書と文法規則による文法理論 ・ツリーバンクは文法に導出される副産物
・文を解釈するときの観点・基準を与えるのが文法なのだから、ツリーバンクは文法に従うべき

91 ツリーバンクを先につくる ツリーバンクが文法を説明 直感+アノテーションガイドライン
S → NP VP NP → DET N NP → N 外在化されたツリーバンクを説明できるように文法を開発、導出 自分の頭の中にある文法解析結果をまず外在化

92 合理主義的文法と経験主義的文法を超えて

93 ツリーバンクと文法の協調関係 文法開発ではツリーバンクの役割が重要 ツリーバンク開発では合理的な構造化が必要
曖昧性解消モデルのための統計情報を提供する 文法の不備・矛盾・間違いを検出する 構文解析・文生成の性能を客観的に評価する ツリーバンク開発では合理的な構造化が必要 文法理論による構文構造の明示化 より複雑な構造のアノテーション・文法開発を容易にする 統語構造の一般化 (例、能動態と受動態) 性能向上のために文法的知識を断片的に導入 最初から文法的制約と構造化を導入したほうが良い ツリーバンクの一貫性の向上

94 ツリーバンクと文法の開発 文法評価のためのツリーバンク 文法開発のためのツリーバンク
PARC 700 Dependency Bank [King et al. 2003] Penn Treebank Section 23 から無作為に700文を抽出 English XLE パーザで構文解析し、人手で正解の f-structure を選択 XLE パーザと Collins パーザを客観的に比較 [Kaplan et al. 2004] 構文解析時間は Collins パーザが速い 構文解析精度は XLE パーザの方が高い 文法開発のためのツリーバンク ツリーバンキング (文法が先の文法開発) コーパス指向文法開発 (ツリーバンクが先の文法開発)

95 ツリーバンキング (文法が先) 文法開発過程にツリーバンク開発を組み込む 生コーパスを構文解析し、人手で正解を選択
Redwoods [Oepen et al. 2002], Hinoki [Bond et al. 2004] 編集 検証 文法規則 辞書 ツリーバンク 開発者 正解選択 構文解析器 生コーパス

96 ツリーバンキングの利点 効率的・系統的にツリーバンクが開発できる
ツリーバンクを曖昧性解消モデルの学習データとして利用する [Toutanova et al. 2002] ツリーバンク開発を通して、文法の不備・矛盾・間違いを発見できる 文法規則 ツリーバンク 辞書項目

97 this particular moment
再考:辞書とツリーバンクの関係 品詞 動詞 主語 < > 目的語 < > 品詞 名詞 主語 < > 目的語 < > 品詞 動詞 主語 < > 目的語 < > 1 1 品詞 動詞 主語 < > 目的語 < > 品詞 動詞 主語 < > 目的語 < > they 3 1 2 1 2 副詞 修飾 品詞 動詞 主語 < > 目的語 < > 品詞 動詞 主語 < > 目的語 < > 3 品詞 3 1 4 1 主語 < > 目的語 < > 4 did 品詞 動詞 主語 < > 目的語 < > 品詞 動詞 主語 < > 目的語 < > have 1 5 1 n’t 5 ツリーバンクがあれば、葉ノードを収集すれば辞書項目が得られる 品詞 動詞 主語 < > 目的語 < > 品詞 名詞 主語 < > 目的語 < > to 1 6 6 choose this particular moment

98 ツリーバンク > 辞書 ツリーバンクがあれば辞書は得られる ツリーバンクの方が辞書より情報が多い 文法の不備・矛盾・間違いが検出できる
統計情報が得られる 文法規則 ツリーバンク 辞書項目

99 コーパス指向文法開発 (ツリーバンクが先)
辞書の代わりにツリーバンクを作る CCG [Hockenmaier et al. 2002], HPSG [Miyao et al. 2004] 辞書項目はツリーバンクから収集する 編集 検証 文法規則 ツリーバンク 辞書 文法開発者 辞書項目 収集器

100 コーパス指向文法開発の利点 ツリーバンクと辞書が同時に得られる
ツリーバンク開発を通して、ツリーバンクや文法規則の不備・矛盾・間違いを発見できる 文法規則 ツリーバンク 辞書項目

101 どうやってツリーバンクを作るのか? Penn Treebank を再利用し、文法規則に合致するように変換
文法開発=文法規則に合致するようにツリーバンクを編集する過程 HEAD verb SUBJ < > COMPS < > S HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 NP VP NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > NL is ADVP VP 1 2 1 2 officially making NP HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > MOD HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > 3 1 1 4 2 4 the offer 3 is officially making the offer

102 文法自動抽出との違い (1/3) 目標 文法自動抽出: なるべく人手を介在させず、すでにあるリソースからいかに楽をして文法を獲得できるか コーパス指向: なるべく人手を介在させて、いかに良いコーパスをつくれるか(=良い文法をつくれるか) 開発過程 文法自動抽出:全自動なので、アルゴリズムができれば数時間から数日 コーパス指向: 手作業で半年から数年

103 文法自動抽出との違い (2/3) 品質管理 文法自動抽出: 抽出された文法を主に評価 コーパス指向: ツリーバンク、文法規則は人間が管理する
文法規則によるツリーバンクの構造化 ツリーバンクの品質が必然的に検証される 得られる辞書は文法規則に従うことが保証される 文法規則 文法規則 コーパス指向文法開発 文法自動抽出 ツリーバンク ツリーバンク 辞書項目 辞書項目

104 文法自動抽出との違い (3/3) 品質管理の例 (Head Feature Principle)
HEAD verb SUBJ < > COMPS < > 3 VP HEAD noun SUBJ < > COMPS < > SPR < > 4 NP NN HEAD verb SUBJ < > COMPS < > HEAD det SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > SPR < > VBG DT 3 1 2 making offer the 4 making the 1 offer ツリーバンクの句構造が文法的制約を満たしているかチェックされる

105 HPSG ツリーバンク の開発 Penn Treebank の構造をHPSG理論に基づく構造に変換する HPSG の文法規則を適用
木構造変換・素性の追加 下位範疇化、受身、命令形・疑問形、時制、格、量化、control/raising、 small clause、長距離依存、関係節、tough 構文、自由関係詞、並列構造、外置変形、倒置、挿入、同格、引用、etc. HPSG の文法規則を適用 文法規則やツリーバンクの不備・矛盾・間違いは、制約違反として検出される

106 辞書・ツリーバンク開発の概要 S NP VP make: ADVP VP NP HPSG 表現 へマッピング 辞書項目収集 文法規則適用
HEAD verb HEAD noun CONT 2 COMPS < > 1 SUBJ < > CONT make’ ARG1 ARG2 NP VP make: NL is ADVP VP officially making NP HPSG 表現 へマッピング the offer 辞書項目収集 HEAD verb SUBJ < > COMPS < > 文法規則適用 HEAD verb SUBJ < > COMPS < > subject-head HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > 1 head-comp NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 2 1 NL HEAD verb HEAD verb SUBJ < > 2 1 head-mod head-comp HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > MOD HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > 3 1 1 4 HEAD verb HEAD adv HEAD verb 2 4 3 is officially making the offer is officially making the offer

107 助動詞・control/raising 不飽和構成素を補語としてとるようにする S VP NP NP-1 *-1 S NP-1 VP VP
have to choose this particular moment NP they NP-1 did n’t *-1 S NP-1 VP 1 SUBJ < > 2 they VP VP SUBJ < > 2 = 3 did n’t have VP SUBJ < > 1 to VP SUBJ < > 3 choose NP this particular moment

108 the energy and ambitions
長距離依存・関係節 REL < > SLASH < > NP REL < > SLASH < > NP SBAR 2 2 the energy and ambitions WHNP-3 S SLASH < > 1 REL < > 1 2 that NP-2 VP SLASH < > 1 reformers wanted S SLASH < > 1 NP SLASH: 移動した項を表す REL: 関係詞と先行詞の関係を表す VP SLASH < > 1 *-2 to VP SLASH < > 1 reward NP *T*-3

109 HPSGのカテゴリへマッピング (非)終端記号を素性構造へマッピング HEAD: noun AGR: 3sg NN
(普通名詞) HEAD: verb AGR: 3sg VFORM: finite TENSE: present VBZ (三単現動詞)

110 具体例 “NL is officially making the offer” S NP VP VP VP NP NL NL is
HEAD verb SUBJ < > COMPS < > subject-head S HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > NP VP 1 head-comp NL VP VP NL HEAD verb SUBJ < > HEAD verb 1 is officially making NP head-mod head-comp HEAD noun SUBJ < > COMPS < > the offer HEAD verb HEAD adv HEAD verb is officially making the offer

111 文法規則の適用 “NL is officially making the offer” NL is officially making
HEAD verb SUBJ < > COMPS < > subject-head HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > 1 head-comp NL HEAD verb SUBJ < > HEAD verb 1 head-mod head-comp HEAD noun SUBJ < > COMPS < > HEAD verb HEAD adv HEAD verb is officially making the offer

112 文法規則の適用 “NL is officially making the offer” NL is officially making
HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 2 1 2 HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD adv MOD 3 1 1 4 3 2 4 is officially making the offer

113 複雑な例 NP VP S SBAR WHNP-1 *-2 *T*-1 the we were the prices charged
HEAD noun SUBJ < > COMPS < > SPR < > HEAD det SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > SPR < > 1 the 1 HEAD noun SUBJ < > COMPS < > SPR < > HEAD verb SUBJ < > COMPS < > REL < > NP we were VP the prices S SBAR WHNP-1 head arg charged *-2 *T*-1 2 1 2 prices HEAD verb SUBJ < > COMPS < > SLASH < > 2 HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > SLASH < > 3 3 we 2 HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > SLASH < > 3 4 3 4 2 were charged

114 辞書項目の収集 HPSG構文木の葉ノードは、辞書項目の実例 NL is officially making the offer 1 1 1
HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 2 1 2 HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD adv MOD 3 1 1 4 3 2 4 is officially making the offer

115 HPSG文法の評価実験 HPSG ツリーバンクから収集した辞書項目を評価
未知の文に対する被覆率 ツリーバンクのサイズと被覆率の関係 Penn Treebank Section (39,832文) をHPSG ツリーバンクに変換し、辞書項目を収集 テストデータ:Section 23 を HPSG ツリーバンクに変換したもの (2,299 文)

116 被覆率と構文解析精度 被覆率: 99.8% 構文解析精度: 適合率 90.44%,再現率 90.19% 強意の被覆率: 84.4%
構文解析に成功した文の割合 構文解析精度: 適合率 90.44%,再現率 90.19% 述語-項関係の精度 強意の被覆率: 84.4% 構文森が完全一致の構文木を含む文の割合 ARG1 he saw girl ARG2

117 文法とツリーバンクの両方を開発することが重要!
まとめ (1/3) 合理主義的文法 人手による文法規則と辞書の開発と中心とした文法開発 合理的な利点 言語学的な妥当性 複雑な構造、深い構造の記述が容易 問題点 網羅性と一貫性のトレードオフ 曖昧性解消の先送り 性能評価の問題 経験主義的文法 ツリーバンクを中心とした文法開発 経験的な利点 網羅性 一貫性 機械学習・統計学習が容易 評価も容易 正解の客観的基準が存在しない 深い構造・複雑な構造の品質管理は困難 自動的な文法抽出の妥当性 文法とツリーバンクの両方を開発することが重要!

118 まとめ (2/3) 違う基準・違う方法論でつくるツリーバンクはなかなか一致しない 合理主義的文法開発 経験主義的文法開発
直感+アノテーションガイドライン 辞書と文法規則による文法理論

119 まとめ (2/2) コーパスと文法の両方を開発 経験主義的文法と合理主義的文法の双方の利点
理論(=文法)とデータ(=ツリーバンク)をいかに一致させるか? ツリーバンキング(文法が先の文法開発) 文法規則や辞書を優先し、ツリーバンクを開発 例: Redwoods, Hinoki, PARC 700 Dependency Bank コーパス指向文法開発(ツリーバンクが先の文法開発) ツリーバンクを優先し、文法規則や辞書を開発 文法的知識をツリーバンクとして外在化 例: CCGツリーバンクからCCG文法、HPSGツリーバンクからHPSG文法

120 ご清聴ありがとうございました!

121 参考文献 H. Alshawi (Ed.) (1992) The Core Language Engine. MIT Press.
A. K. Joshi and Y. Schabes (1997) Tree Adjoining Grammars. in G. Rosenberg and A. Salomaa, (eds.), Handbook of Formal Languages, vol. 3, pp XTAG Research Group (2001) A lexicalized tree adjoining grammar for English. Technical Report IRCS-01-03, University of Pennsylvania. A. Abeillé and M.-H. Candito and A. Kinyon (2000) FTAG: developping and maintaining a wide-coverage grammar for French. ESSLLI-2000. J. Bresnan (1982) The Mental Representation of Grammatical Relations. MIT Press.

122 参考文献 S. Riezler, T. H. King, R. S. Crouch, J. T. Maxwell, R. M. Kaplan (2002) Parsing the Wall Street Journal using a lexical-functional grammar and discriminative estimation techniques. In Proc. of ACL 2002. R. M. Kaplan, S. Riezler, T. H. King, J. T. Maxwell, A. Vasserman (2004) Speed and accuracy in shallow and deep stochastic parsing. In Proc. of HLT/NAACL-2004. M. Forst and C. Rohrer (2006). Improving coverage and parsing quality of a large-scale LFG for German. In Proc. of LREC 2006. C. Pollard and I. A. Sag (1994) Head-Driven Phrase Structure Grammar. University of Chicago Press.

123 参考文献 S. Müller (1996) The Babel-System – An HPSG Prolog Implementation. In Proc. of 4th International Conference on the Practical Application of Prolog, pp. 263—277. M. Siegel and E. M. Bender (2002) Efficient Deep Processing of Japanese. In Proc. of the 3rd Workshop on Asian Language Resources and International Standardization. COLING 2002 Post-Conference Workshop. G. Bouma, G. van Noord, R. Malouf (2000) Alpino: Wide-coverage Computational Analysis of Dutch. Computational Linguistics in the Netherlands. Selected Papers from the 11th CLIN Meeting. J. Carroll and T. Briscoe (2002) High Precision Extraction of Grammatical Relations. In Proc. of COLING 2002.

124 参考文献 M. Butt, H. Dyvik, T. H. King, H. Masuichi, and C. Rohrer (2002) The Parallel Grammar Project. In Proceedings of COLING-2002 Workshop on Grammar Engineering and Evaluation. pp. 1-7. D. Flickinger (2002) On building a more efficient grammar by exploiting types. In Stephan Oepen, Dan Flickinger, Jun'ichi Tsujii and Hans Uszkoreit (eds.) Collaborative Language Engineering. Stanford: CSLI Publications, pp E. M. Bender, D. Flickinger, and S. Oepen (2002) The grammar Matrix. An open-source starter-kit for the rapid development of cross-linguistically consistent broad-coverage precision grammar. In Proc. of the Workshop on Grammar Engineering and Evaluation at COLING 2002.

125 参考文献 T. Götz and D. Meurers (1997) The ConTroll System as Large Grammar Development Platform. ``ENVGRAM'' ACL-Workshop. A. Copestake and D. Flickinger (2000) An open-source grammar development environment and broadcoverage English grammar using HPSG. In Proc. LREC-2000. S. Oepen and J. Carroll (2000) Performance profiling for parser engineering. Natural Language Engineering, 6 (1) (Special Issue on Efficient Processing with HPSG):81–97. T. Baldwin, E. M. Bender, D. Flickinger, A. Kim, and S. Oepen (2004) Road-testing the English Resource Grammar over the British National Corpus. In Proc. LREC 2004, pages 2047–2050.

126 参考文献 A. Frank, T. H. King, J. Kuhn, J. Maxwell (1998) Optimality Theory Style Constraint Ranking in Large-scale LFG Grammars. In Proc. of the 3rd LFG Conference. M. Marcus, B. Santorini, Marcinkiewicz (1993) Building a large annotated corpus of English: the Penn Treebank. Computational Linguistics 19. A. Bies, M. Ferguson, K. Katz, R. MacIntyre, V. Tredinnick, Grace Kim, M. A. Marcinkiewicz, B. Schasberger (1995) Bracketing Guidelines for Treebank II Style Penn Treebank Project G. Sampson (1995) English for the computer. Oxford University Press. S. Brants, S. Dipper, S. Hansen, W. Lezius, and G. Smith (2002) The TIGER Treebank. In Proc. Workshop on Treebanks and Linguistic Theories.

127 参考文献 J. Hajic (1998) Building a syntactically annotated corpus: The Prague Dependency Treebank. In Issues of Valency and Meaning. E. Hinrichs, J. Bartels, Y. Kawata, V. Kordoni, and H. Telljohann (2000) The Tubingen treebanks for spoken German, English, and Japanese. In W. Wahlster (ed.), Verbmobil: Foundations of Speech-to-Speech Translation. Springer. EDR (1995) EDR 電子化辞書使用説明書第2版. Technical Report TR-045. 黒橋、長尾 (1997) 京都大学テキストコーパス・プロジェクト.言語処理学会第3回年次大会発表論文集. 前川、籠宮、小磯、小椋、菊池 (2000) 日本語話し言葉コーパスの設計. 音声研究 4-2.

128 参考文献 E. Charniak (1996) Tree-bank Grammars. Technical Report CS-96-02, Department of Computer Science, Brown University. E. Charniak (1997) Statistical parsing with a context-free grammar and word statistics. In Proc. 14th National Conference on Artificial Intelligence. S. Sekine and R. Grishman (1995) A Corpus-based Probabilistic Grammar with Only Two Non-terminals. In IWPT ’95. B. Carpenter and C. Manning (1997) Probabilistic parsing using left corner language models. In 5th IWPT. D. Magerman (1995) Statistical decision-tree models for parsing. In Proc. 33rd ACL.

129 参考文献 A. Krotov, M. Hepple, R. Gaizauskas, Y. Wilks (1998) Compacting the Penn Treebank grammar. In Proc. 17th COLING. A. Krotov, M. Hepple, R. Gaizauskas, Y. Wilks (1999) Evaluating two methods for Treebank grammar compaction. Natural Language Engineering 5(4). M. Collins (1996) A new statistical parser based on bigram lexical dependencies. In Proc. 34th ACL. M. Collins (1997) Three generative lexicalised models for statistical parsing. In Proc. 35th ACL.

130 参考文献 E. Charniak (2000) A maximum-entropy-inspired parser. In Proc. NAACL-2000. M. Johnson (1998) PCFG models of linguistic tree representations. Computational Linguistics 24(4). D. Gildea (2001) Corpus variation and parser performance. In Proc D. Bikel (2004) Intricacies of Collins’ parsing model. Computational Linguistics 30(4). D. Klein and C. Manning (2003) Accurate unlexicalized parsing. In Proc. ACL 2003.

131 参考文献 F. Xia (1999) Extracting tree adjoining grammars from bracketed corpora. In Proc. 5th NLPRS. J. Chen and K. Vijay-Shanker (2000) Automated extraction of LTAGs from the Penn Treebank. In Proc. 6th IWPT. D. Chiang (2000) Statistical parsing with an automatically-extracted tree adjoining grammar. In Proc. 38th ACL. A. Cahill, M. McCarthy, J. van Genabith, and A. Way (2002) Parsing with PCFGs and automatic f-structure annotation. In Proc. 7th International Lexical-Functional Grammar Conference.

132 参考文献 A. Frank, L. Sadler, J. van Genabith, and A. Way (2003) From treebank resources to LFG f-structures: Automatic f-structure annotation of treebank trees and CFGs extracted from treebanks. In A. Abeille (ed), Building and Using Syntactically Annotated Corpora. Kluwer Academic Publishers. T. H. King, R. Crouch, S. Riezler, M. Dalrymple, and R. Kaplan (2003) The PARC 700 Dependency Bank. In Proc. LINC 2003. S. Oepen, K. Toutanova, S. Shieber, C. Manning, D. Flickinger, and T. Brants (2002) The LinGO Redwoods Treebank: Motivation and preliminary applications. In Proc. COLING 2002.

133 参考文献 F. Bond, S. Fujita, C. Hashimoto, K. Kasahara, S. Nariyama, E. Nichols, A. Ohtani, T. Tanaka, S. Amano (2004) The Hinoki Treebank: A treebank for text understanding. In IJCNLP-04. K. Toutanova, C. Manning, and S. Oepen (2002) Parse ranking for a rich HPSG grammar. In Proc. TLT2002. J. Hockenmaier and M. Steedman (2002) Acquiring compact lexicalized grammars from a cleaner treebank. In Proc. 3rd LREC. Y. Miyao, T. Ninomiya, and J. Tsujii (2004) Corpus-oriented grammar development for acquiring a Head-Driven Phrase Structure Grammar from the Penn Treebank. In Proc. IJCNLP-04.

134 バックアップ

135 例:長距離依存 SLASH, RELなどの素性が長距離依存関係を説明する WH移動 話題化 関係節, etc. prices charged
HEAD noun SUBJ < > COMPS < > SPR < > HEAD verb SUBJ < > COMPS < > SLASH < > charged were we 2 HEAD verb SUBJ < > COMPS < > REL < > HEAD noun SUBJ < > COMPS < > 3 HEAD verb SUBJ < > COMPS < > 4 HEAD verb SUBJ < > COMPS < > SLASH < > 1 HEAD det SUBJ < > COMPS < > the HEAD noun SUBJ < > COMPS < > SPR < > SLASH, RELなどの素性が長距離依存関係を説明する WH移動 話題化 関係節, etc.

136 文法開発の困難さ 実世界の文を解析するためには,文を網羅する大規模な文法が必要である
大規模な文法を開発するには,継続的に文法を修正・拡張していく必要がある しかし,文法を修正・拡張する際,一貫性・無矛盾性を保つのが非常に困難

137 一貫性・無矛盾性を保証しながら, 文法を修正・拡張していく文法開発戦略が必要
困難さの原因 任意の入力文を処理するためには,網羅的な辞書項目が必要 詳細な情報・制約を矛盾無く修正・拡張していくのは非常に難しい 文法を修正・拡張すると,その副作用で今まで解析できていた文が解析できなくなる 一貫性・無矛盾性を保証しながら, 文法を修正・拡張していく文法開発戦略が必要

138 方法論 Treebank HPSG treebank Treebank conversion Lexicon extraction
Principles Lexicon pretty/JJ database/NN Grammar writer

139 Treebank-based development
文法開発方法の比較 Manual development Treebank-based development Corpus Principles Lexicon edit Principles Treebank Parser Lexicon extractor 文法開発者 Treebank Lexicon verify

140 コーパス指向文法開発とは? 一貫性・無矛盾性を管理しながら,文法規則とツリーバンクを修正・拡張していく
文法規則やツリーバンクに矛盾があると,ツリーバンクに対する文法規則適用の失敗という形で自動的に検出できる 文法規則に合致するようにツリーバンクを再構築することで,文法を開発していく

141 変換例 入力: Penn Treebank の構文木 S VP Noun Verb Adv Mary walked slowly

142 1. HPSG 的情報の付加 S VP Noun Verb Adv HPSGに基づく情報を付加する
Head, argument, modifier の区別 活用形,WH移動,受身などの情報 S head VP argument modifier head Noun Verb Adv Mary walked slowly

143 2. HPSG のカテゴリにマッピング Penn Treebank のシンボルを素性構造に変換する Mary walked slowly
品詞 動詞 主語 〈〉 目的語 〈〉 品詞 動詞 品詞 名詞 品詞 動詞 品詞 副詞 Mary walked slowly

144 3. 文法規則の適用 各中間ノードに文法規則を適用する 矛盾があればここで検出される Mary walked slowly 品詞 動詞
品詞 動詞 主語 〈〉 目的語 〈〉 主語をとる規則 品詞 動詞 主語 〈名詞〉 目的語 〈〉 修飾語がかかる規則 品詞 名詞 主語 〈〉 目的語 〈〉 品詞 動詞 主語 〈名詞〉 目的語 〈〉 品詞 副詞 修飾先 〈動詞〉 Mary walked slowly

145 変換結果:HPSGの統語構造 文法規則を満たした統語構造が得られる Mary walked slowly 品詞 動詞 主語 〈〉
品詞 動詞 主語 〈〉 目的語 〈〉 品詞 動詞 主語 〈名詞〉 目的語 〈〉 品詞 名詞 主語 〈〉 目的語 〈〉 品詞 動詞 主語 〈名詞〉 目的語 〈〉 品詞 副詞 修飾先 〈動詞〉 Mary walked slowly

146 語彙規則の適用 HPSG構文木の葉ノードは活用後の辞書項目 語彙規則を逆向きに適用することで、基本形の辞書項目を得る 例:受身化語彙規則
HEAD: verb SUBJ: <HEAD: noun> COMPS: <HEAD: prep_by> HEAD: verb SUBJ: <HEAD: noun> COMPS: <HEAD: noun> written write

147 経験的か合理的か? ツリーバンクから統計量を学習、テストセットで評価 人間がもつ言語能力を規則化、説明してこそ合理的 S → NP VP
NP → DET N NP → N 文法規則、辞書

148 構造と文法理論 構成素と構成素の関係 ・関係だけが重要で、その背後にある意味や真の構造というものは考えない
・一見異なるように見える構造の背後に潜む規則性を発見し、変形・移動で構造間の関係、ひいては全体を説明する

149 構造と文法理論 構成素と構成素の関係 ・関係だけが重要で、その背後にある意味や真の構造というものは考えない
NP NP DET N N DET ADJ a book book a red ・関係だけが重要で、その背後にある意味や真の構造というものは考えない ・一見異なるように見える構造の背後に潜む規則性を発見し、変形・移動で構造間の関係、ひいては全体を説明する

150 構造と言語能力と文法理論 人間が生成した文書、発話を観察し、そこから規則性を発見する
適格文、非文を人間に判断させることによって、人間がもつ言語能力の規則性を発見する

151 合理主義的文法開発の落とし穴 (1/3) 合理性 合理主義的文法は人間の手によって規則化、検証されなくてはその正しさを保証できない
S → NP VP NP → DET N NP → N 文法規則、辞書 合理主義的文法は人間の手によって規則化、検証されなくてはその正しさを保証できない

152 被覆率 テストデータ中の辞書項目を文法が含んでいる割合を測定 文中の全ての辞書項目が被覆されていれば文が被覆されていると判定 辞書項目単位
文単位 未知語処理なし 96.52% 54.7% 未知語処理あり 99.15% 84.8%

153 ツリーバンクのサイズ vs. 被覆率


Download ppt "自然言語処理における 文法開発の軌跡と展望"

Similar presentations


Ads by Google