数理言語情報論　第14回 2010年1月27日数理言語情報学研究室　講師　二宮　崇.

Slides:

Advertisements

Similar presentations

PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

Advertisements

数理言語情報論第 2 回数理言語情報学研究室講師二宮崇 2009 年 10 月 14 日 1.

自然言語処理平成 24 年 11 月 5 日 (No5)- 東京工科大学コンピュータサイエンス学部亀田弘之.

関連する学会、会議について松本裕治研究会資料 2006 年 7 月 26 日. 情報処理関係の国内の学会情報処理学会電子情報通信学会人工知能学会ソフトウェア科学会言語処理学会認知科学会計量国語学会.

プログラミング言語論第10回（演習）情報工学科　木村昌臣　篠埜　功.

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

最大エントロピーモデルに基づく形態素解析と辞書による影響

数理言語情報論　第7回 2009年11月18日数理言語情報学研究室　講師　二宮　崇.

人工知能特論II 二宮　崇.

制約に基づく言語処理から制約なしの言語処理へ

東京工科大学コンピュータサイエンス学部亀田弘之

人工知能特論II　第15回二宮　崇.

数理言語情報論　第１回 2009年10月7日数理言語情報学研究室　講師　二宮　崇.

数理言語情報論　第12回 2007年1月28日数理言語情報学研究室　講師　二宮　崇.

自然言語処理における文法開発の軌跡と展望

言語体系とコンピュータ第6回.

SSR 論文調査 Safety and Cyber-Physical Systems

数理言語情報論　第8回 2009年11月25日数理言語情報学研究室　講師　二宮　崇.

一致の非対称の極小理論的分析小林亜希子島根大学「言語と情報研究プロジェクト研究会：言語理論の動向を考える」広島大学

部分木に基づくマルコフ確率場と言語解析への適用

東京工科大学コンピュータサイエンス学部亀田弘之

人工知能特論II　第１回二宮　崇.

How to Become a Supply Chain Analyst with Free

統率･束縛理論２.

東京工科大学コンピュータサイエンス学部亀田弘之

第6章ユニフィケーション解析ユニフィケーション解析とは？

12月08日構文解析入力文（記号列）が与えられたとき，文法によってその文を解析し，その構造を明らかにする.

数理言語情報論　第7回 2007年11月19日数理言語情報学研究室　講師　二宮　崇.

CRLA Project Assisting the Project of

日本語解析済みコーパス管理ツール「茶器」

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

人工知能特論II　第2回二宮　崇.

決定木とランダムフォレスト和田　俊和.

Online Decoding of Markov Models under Latency Constraints

BioIE のための自然言語処理技術東京大学　辻井研究室 JST研究員　鶴岡慶雅.

中京大学工学部電気電子工学科白井研究室 4年 T 為房直人

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

東京工科大学コンピュータサイエンス学部亀田弘之

知能情報システム特論 Introduction

東京工科大学コンピュータサイエンス学部亀田弘之

Nightmare at Test Time: Robust Learning by Feature Deletion

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

法数学のための機械学習の基礎京大(医)　統計遺伝学分野山田　亮 2017/04/15.

The difference between adjectives and adverbs

東北大情報科学田中和之,吉池紀子山口大工庄野逸理化学研究所岡田真人

HMM音声合成における変分ベイズ法に基づく線形回帰

人工知能特論II　第8回二宮　崇.

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

明示的文法知識が正確な言語使用に結びつかないケース浦野研（北海学園大学）

コーパスコーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

JEFFREY WITZEL (University of Texas at Arlington, USA)

自然言語処理2015 Natural Language Processing 2015

蓄積されたオブジェクトの動作履歴を用いた実行履歴削減手法の提案

奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp

ICML読む会資料（鹿島担当）教師ナシの構造→構造マッピング読んだ論文： Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.

発表者: 稲葉一浩複雑ネットワーク・地図グラフセミナー 2017/1/19

コンパイラ 2012年10月11日

自然言語処理2016 Natural Language Processing 2016

ガウシアングラフィカルモデルにおける一般化された確率伝搬法

アノテーションガイドラインの管理を行うアノテーションシステムの提案

１．２言語処理の諸観点（１）言語処理の利用分野

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

Detecting Software Modularity Violations

Presentation transcript:

数理言語情報論　第14回 2010年1月27日数理言語情報学研究室　講師　二宮　崇

今日の講義の予定文法開発 (後半) 教科書文法開発の再解釈と展望コーパス指向文法 Yusuke Miyao (2006) From Linguistic Theory to Syntactic Analysis: Corpus-Oriented Grammar Development and Feature Forest Model, Ph.D Thesis, University of Tokyo

文法開発の再解釈と展望

合理主義的文法の文法開発の難しささて、いったい何が難しくて文法開発がうまくいかなかったのだろうか？どこに落とし穴があったのか？

比較検討(1/2) 経験主義的文法開発と合理主義的文法開発の違い文法作成方法コーパスの役割評価手段合理主義的文法人手生コーパス補助的リソース定性的評価経験主義的文法自動ツリーバンク中心的リソース定量的評価 5

比較検討(2/2) 言語学者と言語処理研究者が求める文法、コーパスの役割の違い目的文法コーパス言語学者言語能力の法則性の発見適格文、非文を区別するために必要な規則人間の言語能力を調べるための資料言語処理研究者応用システムに有用な構文構造の自動解析コーパスを解析するための道具機械学習・統計学習のためのリソース。性能評価のためのリソース 6

合理主義的文法開発の落とし穴 (1/2) コーパス軽視文法開発の対象は、文法規則と辞書。コーパスはあくまで補助的な検証の対象にすぎない S → NP VP NP → DET N NP → N … 文法規則、辞書文法開発の対象は、文法規則と辞書。コーパスはあくまで補助的な検証の対象にすぎない

合理主義的文法開発の落とし穴 (2/2) 定量的評価の不足ツリーバンクの作成が困難文法を変更するとその都度正解が変化 Penn Treebankのようなツリーバンクに対して評価すれば？ Penn Treebankにおける構文木の解釈と文法開発者の構文木の解釈が異なるため、Penn Treebankで評価するのは文法を開発するのに匹敵するほど困難

経験主義的文法と合理主義的文法の歩み寄りコンピュータ・ツリーバンク開発 S → NP VP NP → DET N NP → N … 文法規則、辞書・ツリーバンクの詳細化、構造化・ツリーバンクからの文法抽出ツリーバンク

文法とツリーバンクの双対性 (1/3) 経験主義的文法の中の文法的知識評価学習学習手法と評価にだけ注目されがちだが、、、コンピュータツリーバンクツリーバンク評価学習学習手法と評価にだけ注目されがちだが、、、ツリーバンクに文法的知識・ツリーバンク作成指針の中に暗黙的に・構文木の構造から文法や辞書を作成するのに十分な情報精度をあげるために文法的知識を導入・最初から文法的制約と構造をツリーバンクに導入したほうがすっきり

文法とツリーバンクの双対性 (2/3) 合理主義的文法でのツリーバンク S NP-1 VP NP *-1 have to choose this particular moment NP they NP-1 did n’t *-1 こういう構文木をつくりたいからtheyはこんな辞書項目で文法規則はこれとこれでこの辞書項目と文法規則を組み合わせるとこんな構文木ができる

文法とツリーバンクの双対性 (3/3) 経験主義的文法合理主義的文法ツリーバンクに含まれる暗黙の文法ツリーバンク作成の指針に含まれる文法的知識構文木の構造に含まれる文法的知識合理主義的文法辞書項目と文法規則をつくる際に、構文木を想定

文法の３つのリソース文法開発では３つのリソースを想定している文法規則ツリーバンク辞書項目

経験主義的文法と合理主義的文法を超えて三つのリソースを同時につくれば万事解決？ S → NP VP NP → DET N NP → N … ツリーバンクだけいただきますツリーバンク、文法規則、辞書

≠ 合理主義的文法開発のジレンマツリーバンクと文法の不一致データと理論の不一致？文法規則辞書 S → NP VP NP → DET N NP → N … データと理論の不一致？ ≠ 作成したツリーバンク導出されたツリーバンク

文法理論の恣意性同じような機能・構造によって分類観点・基準によって分類が異なる極端な話、百人いれば百の文法理論がありうる! HPSG LFG TAG … c.f. 分類学 (進化分類学, 分岐分類学, 表形分類学) 極端な話、百人いれば百の文法理論がありうる!

星座と文法理論あそこの星の並びが蟹にみえるなぁ

まぁ、星座の話はおいといて、、、違う基準・違う方法論でつくるツリーバンクはなかなか一致しない直感＋アノテーションガイドライン辞書と文法規則による文法理論

不一致が生じたときにどちらを修正すべきか？文法が先かツリーバンクが先か？ツリーバンク文法 S → NP VP NP → DET N NP → N … 文法なんかいらねーよ不一致が生じたときにどちらを修正すべきか？どちらにあわせればいいのだろうか？どちらを先に開発すべきか？

文法を先につくる文法がツリーバンクを説明辞書と文法規則による文法理論・ツリーバンクは文法に導出される副産物・文を解釈するときの観点・基準を与えるのが文法なのだから、ツリーバンクは文法に従うべき

ツリーバンクを先につくるツリーバンクが文法を説明直感＋アノテーションガイドライン S → NP VP NP → DET N NP → N … 外在化されたツリーバンクを説明できるように文法を開発、導出自分の頭の中にある文法解析結果をまず外在化

合理主義的文法と経験主義的文法を超えて

ツリーバンクと文法の協調関係文法開発ではツリーバンクの役割が重要ツリーバンク開発では合理的な構造化が必要曖昧性解消モデルのための統計情報を提供する文法の不備・矛盾・間違いを検出する構文解析・文生成の性能を客観的に評価するツリーバンク開発では合理的な構造化が必要文法理論による構文構造の明示化より複雑な構造のアノテーション・文法開発を容易にする統語構造の一般化（例、能動態と受動態) 性能向上のために文法的知識を断片的に導入最初から文法的制約と構造化を導入したほうが良いツリーバンクの一貫性の向上

ツリーバンクと文法の開発文法評価のためのツリーバンク文法開発のためのツリーバンク PARC 700 Dependency Bank [King et al. 2003] Penn Treebank Section 23 から無作為に700文を抽出 English XLE パーザで構文解析し、人手で正解の f-structure を選択 XLE パーザと Collins パーザを客観的に比較 [Kaplan et al. 2004] 構文解析時間は Collins パーザが速い構文解析精度は XLE パーザの方が高い文法開発のためのツリーバンクツリーバンキング (文法が先の文法開発) コーパス指向文法開発 (ツリーバンクが先の文法開発)

ツリーバンキング (文法が先) 文法開発過程にツリーバンク開発を組み込む生コーパスを構文解析し、人手で正解を選択編集検証 Redwoods [Oepen et al. 2002], Hinoki [Bond et al. 2004] 編集検証文法規則辞書ツリーバンク開発者正解選択構文解析器生コーパス

ツリーバンキングの利点効率的・系統的にツリーバンクが開発できるツリーバンクを曖昧性解消モデルの学習データとして利用する [Toutanova et al. 2002] ツリーバンク開発を通して、文法の不備・矛盾・間違いを発見できる文法規則ツリーバンク辞書項目

this particular moment 再考：辞書とツリーバンクの関係品詞　動詞主語 < > 目的語 < > 品詞　名詞主語 < > 目的語 < > 品詞　動詞主語 < > 目的語 < > 1 1 品詞　動詞主語 < > 目的語 < > 品詞　動詞主語 < > 目的語 < > they 3 1 2 1 2 副詞修飾品詞　動詞主語 < > 目的語 < > 品詞　動詞主語 < > 目的語 < > 3 品詞 3 1 4 1 主語 < > 目的語 < > 4 did 品詞　動詞主語 < > 目的語 < > 品詞　動詞主語 < > 目的語 < > have 1 5 1 n’t 5 ツリーバンクがあれば、葉ノードを収集すれば辞書項目が得られる品詞　動詞主語 < > 目的語 < > 品詞　名詞主語 < > 目的語 < > to 1 6 6 choose this particular moment

ツリーバンク＞辞書ツリーバンクがあれば辞書は得られるツリーバンクの方が辞書より情報が多い文法の不備・矛盾・間違いが検出できる統計情報が得られる文法規則ツリーバンク辞書項目

コーパス指向文法開発 (ツリーバンクが先) 辞書の代わりにツリーバンクを作る CCG [Hockenmaier et al. 2002], HPSG [Miyao et al. 2004] 辞書項目はツリーバンクから収集する編集検証文法規則ツリーバンク辞書文法開発者辞書項目収集器

コーパス指向文法開発の利点ツリーバンクと辞書が同時に得られるツリーバンク開発を通して、ツリーバンクや文法規則の不備・矛盾・間違いを発見できる文法規則ツリーバンク辞書項目

どうやってツリーバンクを作るのか？ Penn Treebank を再利用し、文法規則に合致するように変換文法開発＝文法規則に合致するようにツリーバンクを編集する過程 HEAD verb SUBJ < > COMPS < > S HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 NP VP NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > NL is ADVP VP 1 2 1 2 officially making NP HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > MOD HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > 3 1 1 4 2 4 the offer 3 is officially making the offer

文法自動抽出との違い (1/3) 目標文法自動抽出: なるべく人手を介在させず、すでにあるリソースからいかに楽をして文法を獲得できるかコーパス指向: なるべく人手を介在させて、いかに良いコーパスをつくれるか（＝良い文法をつくれるか）開発過程文法自動抽出：全自動なので、アルゴリズムができれば数時間から数日コーパス指向: 手作業で半年から数年

文法自動抽出との違い (2/3) 品質管理文法自動抽出: 抽出された文法を主に評価コーパス指向: ツリーバンク、文法規則は人間が管理する文法規則によるツリーバンクの構造化ツリーバンクの品質が必然的に検証される得られる辞書は文法規則に従うことが保証される文法規則文法規則コーパス指向文法開発文法自動抽出ツリーバンクツリーバンク辞書項目辞書項目

文法自動抽出との違い (3/3) 品質管理の例 (Head Feature Principle) HEAD verb SUBJ < > COMPS < > 3 VP HEAD noun SUBJ < > COMPS < > SPR < > 4 NP NN HEAD verb SUBJ < > COMPS < > HEAD det SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > SPR < > VBG DT 3 1 2 making offer the 4 making the 1 offer ツリーバンクの句構造が文法的制約を満たしているかチェックされる

HPSG ツリーバンクの開発 Penn Treebank の構造をHPSG理論に基づく構造に変換する HPSG の文法規則を適用木構造変換・素性の追加下位範疇化、受身、命令形・疑問形、時制、格、量化、control/raising、 small clause、長距離依存、関係節、tough 構文、自由関係詞、並列構造、外置変形、倒置、挿入、同格、引用、etc. HPSG の文法規則を適用文法規則やツリーバンクの不備・矛盾・間違いは、制約違反として検出される

辞書・ツリーバンク開発の概要 S NP VP make: ADVP VP NP HPSG 表現へマッピング辞書項目収集文法規則適用 HEAD verb HEAD noun CONT 2 COMPS < > 1 SUBJ < > CONT make’ ARG1 ARG2 NP VP make: NL is ADVP VP officially making NP HPSG 表現へマッピング the offer 辞書項目収集 HEAD verb SUBJ < > COMPS < > 文法規則適用 HEAD verb SUBJ < > COMPS < > subject-head HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > 1 head-comp NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 2 1 NL HEAD verb HEAD verb SUBJ < > 2 1 head-mod head-comp HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > MOD HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > 3 1 1 4 HEAD verb HEAD adv HEAD verb 2 4 3 is officially making the offer is officially making the offer

助動詞・control/raising 不飽和構成素を補語としてとるようにする S VP NP NP-1 *-1 S NP-1 VP VP have to choose this particular moment NP they NP-1 did n’t *-1 S NP-1 VP 1 SUBJ < > 2 they VP VP SUBJ < > 2 = 3 did n’t have VP SUBJ < > 1 to VP SUBJ < > 3 choose NP this particular moment

the energy and ambitions 長距離依存・関係節 REL < > SLASH < > NP REL < > SLASH < > NP SBAR 2 2 the energy and ambitions WHNP-3 S SLASH < > 1 REL < > 1 2 that NP-2 VP SLASH < > 1 reformers wanted S SLASH < > 1 NP SLASH: 移動した項を表す REL: 関係詞と先行詞の関係を表す VP SLASH < > 1 *-2 to VP SLASH < > 1 reward NP *T*-3

HPSGのカテゴリへマッピング（非）終端記号を素性構造へマッピング HEAD: noun AGR: 3sg NN （普通名詞） HEAD: verb AGR: 3sg VFORM: finite TENSE: present VBZ （三単現動詞）

具体例 “NL is officially making the offer” S NP VP VP VP NP NL NL is HEAD verb SUBJ < > COMPS < > subject-head S HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > NP VP 1 head-comp NL VP VP NL HEAD verb SUBJ < > HEAD verb 1 is officially making NP head-mod head-comp HEAD noun SUBJ < > COMPS < > the offer HEAD verb HEAD adv HEAD verb is officially making the offer

文法規則の適用 “NL is officially making the offer” NL is officially making HEAD verb SUBJ < > COMPS < > subject-head HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > 1 head-comp NL HEAD verb SUBJ < > HEAD verb 1 head-mod head-comp HEAD noun SUBJ < > COMPS < > HEAD verb HEAD adv HEAD verb is officially making the offer

文法規則の適用 “NL is officially making the offer” NL is officially making HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 2 1 2 HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD adv MOD 3 1 1 4 3 2 4 is officially making the offer

複雑な例 NP VP S SBAR WHNP-1 *-2 *T*-1 the we were the prices charged HEAD noun SUBJ < > COMPS < > SPR < > HEAD det SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > SPR < > 1 the 1 HEAD noun SUBJ < > COMPS < > SPR < > HEAD verb SUBJ < > COMPS < > REL < > NP we were VP the prices S SBAR WHNP-1 head arg charged *-2 *T*-1 2 1 2 prices HEAD verb SUBJ < > COMPS < > SLASH < > 2 HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > SLASH < > 3 3 we 2 HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > SLASH < > 3 4 3 4 2 were charged

辞書項目の収集 HPSG構文木の葉ノードは、辞書項目の実例 NL is officially making the offer 1 1 1 HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 1 NL HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > 1 2 1 2 HEAD verb SUBJ < > COMPS < > HEAD verb SUBJ < > COMPS < > HEAD noun SUBJ < > COMPS < > HEAD adv MOD 3 1 1 4 3 2 4 is officially making the offer

HPSG文法の評価実験 HPSG ツリーバンクから収集した辞書項目を評価未知の文に対する被覆率ツリーバンクのサイズと被覆率の関係 Penn Treebank Section 02-21 (39,832文) をHPSG ツリーバンクに変換し、辞書項目を収集テストデータ：Section 23 を HPSG ツリーバンクに変換したもの (2,299 文)

被覆率と構文解析精度被覆率： 99.8% 構文解析精度：適合率 90.44%，再現率 90.19% 強意の被覆率： 84.4% 構文解析に成功した文の割合構文解析精度：適合率 90.44%，再現率 90.19% 述語-項関係の精度強意の被覆率： 84.4% 構文森が完全一致の構文木を含む文の割合 ARG1 he saw girl ARG2

被覆率テストデータ中の辞書項目を文法が含んでいる割合を測定文中の全ての辞書項目が被覆されていれば文が被覆されていると判定辞書項目単位文単位未知語処理なし 96.52% 54.7% 未知語処理あり 99.15% 84.8%

ツリーバンクのサイズ vs. 被覆率 48

文法とツリーバンクの両方を開発することが重要! まとめ (1/3) 合理主義的文法人手による文法規則と辞書の開発と中心とした文法開発合理的な利点言語学的な妥当性複雑な構造、深い構造の記述が容易問題点網羅性と一貫性のトレードオフ曖昧性解消の先送り性能評価の問題経験主義的文法ツリーバンクを中心とした文法開発経験的な利点網羅性一貫性機械学習・統計学習が容易評価も容易正解の客観的基準が存在しない深い構造・複雑な構造の品質管理は困難自動的な文法抽出の妥当性文法とツリーバンクの両方を開発することが重要!

まとめ (2/3) 違う基準・違う方法論でつくるツリーバンクはなかなか一致しない合理主義的文法開発経験主義的文法開発直感＋アノテーションガイドライン辞書と文法規則による文法理論

まとめ (3/3) コーパスと文法の両方を開発講義資料経験主義的文法と合理主義的文法の双方の利点理論（＝文法）とデータ（＝ツリーバンク）をいかに一致させるか？ツリーバンキング(文法が先の文法開発) 文法規則や辞書を優先し、ツリーバンクを開発例: Redwoods, Hinoki, PARC 700 Dependency Bank コーパス指向文法開発(ツリーバンクが先の文法開発) ツリーバンクを優先し、文法規則や辞書を開発文法的知識をツリーバンクとして外在化例： CCGツリーバンクからCCG文法、HPSGツリーバンクからHPSG文法講義資料 http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/mistH21w/cl/

参考文献 H. Alshawi (Ed.) (1992) The Core Language Engine. MIT Press. A. K. Joshi and Y. Schabes (1997) Tree Adjoining Grammars. in G. Rosenberg and A. Salomaa, (eds.), Handbook of Formal Languages, vol. 3, pp. 69-124. XTAG Research Group (2001) A lexicalized tree adjoining grammar for English. Technical Report IRCS-01-03, University of Pennsylvania. A. Abeillé and M.-H. Candito and A. Kinyon (2000) FTAG: developping and maintaining a wide-coverage grammar for French. ESSLLI-2000. J. Bresnan (1982) The Mental Representation of Grammatical Relations. MIT Press.

参考文献 S. Riezler, T. H. King, R. S. Crouch, J. T. Maxwell, R. M. Kaplan (2002) Parsing the Wall Street Journal using a lexical-functional grammar and discriminative estimation techniques. In Proc. of ACL 2002. R. M. Kaplan, S. Riezler, T. H. King, J. T. Maxwell, A. Vasserman (2004) Speed and accuracy in shallow and deep stochastic parsing. In Proc. of HLT/NAACL-2004. M. Forst and C. Rohrer (2006). Improving coverage and parsing quality of a large-scale LFG for German. In Proc. of LREC 2006. C. Pollard and I. A. Sag (1994) Head-Driven Phrase Structure Grammar. University of Chicago Press.

参考文献 S. Müller (1996) The Babel-System – An HPSG Prolog Implementation. In Proc. of 4th International Conference on the Practical Application of Prolog, pp. 263—277. M. Siegel and E. M. Bender (2002) Efficient Deep Processing of Japanese. In Proc. of the 3rd Workshop on Asian Language Resources and International Standardization. COLING 2002 Post-Conference Workshop. G. Bouma, G. van Noord, R. Malouf (2000) Alpino: Wide-coverage Computational Analysis of Dutch. Computational Linguistics in the Netherlands. Selected Papers from the 11th CLIN Meeting. J. Carroll and T. Briscoe (2002) High Precision Extraction of Grammatical Relations. In Proc. of COLING 2002.

参考文献 M. Butt, H. Dyvik, T. H. King, H. Masuichi, and C. Rohrer (2002) The Parallel Grammar Project. In Proceedings of COLING-2002 Workshop on Grammar Engineering and Evaluation. pp. 1-7. D. Flickinger (2002) On building a more efficient grammar by exploiting types. In Stephan Oepen, Dan Flickinger, Jun'ichi Tsujii and Hans Uszkoreit (eds.) Collaborative Language Engineering. Stanford: CSLI Publications, pp. 1-17. E. M. Bender, D. Flickinger, and S. Oepen (2002) The grammar Matrix. An open-source starter-kit for the rapid development of cross-linguistically consistent broad-coverage precision grammar. In Proc. of the Workshop on Grammar Engineering and Evaluation at COLING 2002.

参考文献 T. Götz and D. Meurers (1997) The ConTroll System as Large Grammar Development Platform. ``ENVGRAM'' ACL-Workshop. A. Copestake and D. Flickinger (2000) An open-source grammar development environment and broadcoverage English grammar using HPSG. In Proc. LREC-2000. S. Oepen and J. Carroll (2000) Performance profiling for parser engineering. Natural Language Engineering, 6 (1) (Special Issue on Efficient Processing with HPSG):81–97. T. Baldwin, E. M. Bender, D. Flickinger, A. Kim, and S. Oepen (2004) Road-testing the English Resource Grammar over the British National Corpus. In Proc. LREC 2004, pages 2047–2050.

参考文献 A. Frank, T. H. King, J. Kuhn, J. Maxwell (1998) Optimality Theory Style Constraint Ranking in Large-scale LFG Grammars. In Proc. of the 3rd LFG Conference. M. Marcus, B. Santorini, Marcinkiewicz (1993) Building a large annotated corpus of English: the Penn Treebank. Computational Linguistics 19. A. Bies, M. Ferguson, K. Katz, R. MacIntyre, V. Tredinnick, Grace Kim, M. A. Marcinkiewicz, B. Schasberger (1995) Bracketing Guidelines for Treebank II Style Penn Treebank Project G. Sampson (1995) English for the computer. Oxford University Press. S. Brants, S. Dipper, S. Hansen, W. Lezius, and G. Smith (2002) The TIGER Treebank. In Proc. Workshop on Treebanks and Linguistic Theories.

参考文献 J. Hajic (1998) Building a syntactically annotated corpus: The Prague Dependency Treebank. In Issues of Valency and Meaning. E. Hinrichs, J. Bartels, Y. Kawata, V. Kordoni, and H. Telljohann (2000) The Tubingen treebanks for spoken German, English, and Japanese. In W. Wahlster (ed.), Verbmobil: Foundations of Speech-to-Speech Translation. Springer. EDR (1995) EDR 電子化辞書使用説明書第2版. Technical Report TR-045. 黒橋、長尾 (1997) 京都大学テキストコーパス・プロジェクト.言語処理学会第３回年次大会発表論文集. 前川、籠宮、小磯、小椋、菊池 (2000) 日本語話し言葉コーパスの設計. 音声研究 4-2.

参考文献 E. Charniak (1996) Tree-bank Grammars. Technical Report CS-96-02, Department of Computer Science, Brown University. E. Charniak (1997) Statistical parsing with a context-free grammar and word statistics. In Proc. 14th National Conference on Artificial Intelligence. S. Sekine and R. Grishman (1995) A Corpus-based Probabilistic Grammar with Only Two Non-terminals. In IWPT ’95. B. Carpenter and C. Manning (1997) Probabilistic parsing using left corner language models. In 5th IWPT. D. Magerman (1995) Statistical decision-tree models for parsing. In Proc. 33rd ACL.

参考文献 A. Krotov, M. Hepple, R. Gaizauskas, Y. Wilks (1998) Compacting the Penn Treebank grammar. In Proc. 17th COLING. A. Krotov, M. Hepple, R. Gaizauskas, Y. Wilks (1999) Evaluating two methods for Treebank grammar compaction. Natural Language Engineering 5(4). M. Collins (1996) A new statistical parser based on bigram lexical dependencies. In Proc. 34th ACL. M. Collins (1997) Three generative lexicalised models for statistical parsing. In Proc. 35th ACL.

参考文献 E. Charniak (2000) A maximum-entropy-inspired parser. In Proc. NAACL-2000. M. Johnson (1998) PCFG models of linguistic tree representations. Computational Linguistics 24(4). D. Gildea (2001) Corpus variation and parser performance. In Proc. 2001. D. Bikel (2004) Intricacies of Collins’ parsing model. Computational Linguistics 30(4). D. Klein and C. Manning (2003) Accurate unlexicalized parsing. In Proc. ACL 2003.

参考文献 F. Xia (1999) Extracting tree adjoining grammars from bracketed corpora. In Proc. 5th NLPRS. J. Chen and K. Vijay-Shanker (2000) Automated extraction of LTAGs from the Penn Treebank. In Proc. 6th IWPT. D. Chiang (2000) Statistical parsing with an automatically-extracted tree adjoining grammar. In Proc. 38th ACL. A. Cahill, M. McCarthy, J. van Genabith, and A. Way (2002) Parsing with PCFGs and automatic f-structure annotation. In Proc. 7th International Lexical-Functional Grammar Conference.

参考文献 A. Frank, L. Sadler, J. van Genabith, and A. Way (2003) From treebank resources to LFG f-structures: Automatic f-structure annotation of treebank trees and CFGs extracted from treebanks. In A. Abeille (ed), Building and Using Syntactically Annotated Corpora. Kluwer Academic Publishers. T. H. King, R. Crouch, S. Riezler, M. Dalrymple, and R. Kaplan (2003) The PARC 700 Dependency Bank. In Proc. LINC 2003. S. Oepen, K. Toutanova, S. Shieber, C. Manning, D. Flickinger, and T. Brants (2002) The LinGO Redwoods Treebank: Motivation and preliminary applications. In Proc. COLING 2002.

参考文献 F. Bond, S. Fujita, C. Hashimoto, K. Kasahara, S. Nariyama, E. Nichols, A. Ohtani, T. Tanaka, S. Amano (2004) The Hinoki Treebank: A treebank for text understanding. In IJCNLP-04. K. Toutanova, C. Manning, and S. Oepen (2002) Parse ranking for a rich HPSG grammar. In Proc. TLT2002. J. Hockenmaier and M. Steedman (2002) Acquiring compact lexicalized grammars from a cleaner treebank. In Proc. 3rd LREC. Y. Miyao, T. Ninomiya, and J. Tsujii (2004) Corpus-oriented grammar development for acquiring a Head-Driven Phrase Structure Grammar from the Penn Treebank. In Proc. IJCNLP-04.

レポート課題課題（いずれか一つ）言語学、パージングもしくは機械学習に関する論文を一つ以上読んで内容をまとめ、考察を加えよ。ただし、論文は次の国際会議から選ぶこととする。 NLP系の国際会議: ACL, NAACL, EACL, COLING, EMNLP 機械学習系の国際会議: ICML, NIPS, COLT, UAI, AIStats 人工知能系の国際会議: IJCAI, AAAI データマイニング系の国際会議: KDD, SDM, ICDM 授業内容でよくわからなかった箇所を教科書やスライドを頼りに例題を作りつつ内容をまとめ、考察せよ例: CCGやHPSGで簡単な文法を紙の上に書き、紙の上で構文解析例: 正規分布の混合分布に対するEMの導出例: エントロピー最大化によるパラメータ推定とパラメトリック形式の最尤法によるパラメータ推定が一致することを確認授業内容に関連する内容を発展させた内容を調査もしくは考察例: 最大エントロピー法のスムージングのための正規分布の事前分布例: 準ニュートン法について調べる

レポート課題 A4で4ページ以上日本語か英語締切: 2010年2月17日(水曜) 提出先レポートには所属、学籍番号、名前を記入工学部6号館 1F 計数教務室レポートには所属、学籍番号、名前を記入