奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp

奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp
FSNLP 勉強会 Chapter 8 ( ) 奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp 2019年1月2日

語彙獲得第5章での内容はコロケーションや句の獲得第8章ではもっと複雑なものの獲得を扱う語彙獲得の目標は機械が読める辞書の作成
コロケーション以外の語彙獲得選択制限サブカテゴリー化フレーム意味カテゴリー化フレーム 2019年1月2日

機械が読める辞書巨大なテキストコーパスから単語のパターンの出現頻度を見て構築自然言語の生産性常に更新する必要新語
既知の語の新しい用法常に更新する必要 2019年1月2日

Trask(1993) による語彙の定義ある言語における全ての単語の語彙項目を含んだ文法の一部
伝統的な辞書は人間用に作られているので計算機の処理には向かない(e.g. 頻度の情報がない) 2019年1月2日

Trask による語彙の定義(後半) ある言語における特定の文法理論に基づいたさまざまな情報を含んだ文法の一部
語彙情報と語彙情報以外の間に明確な境界線はない（文法理論に依存）前置詞句の付加（PP attachment）は統語的な問題か? 語彙的な問題か? 2019年1月2日

第8章の内容前半（小町の担当部分）後半（青山さんの担当部分）動詞のサブカテゴリー化付加の曖昧性選択制限意味の類似性
2019年1月2日

8.1 評価尺度 Evaluation Measures 2019年1月2日

評価尺度精度と再現率はトレードオフ 2019年1月2日

F値 P=精度 R=再現率 α=0.5とするとこの式はF=2PR/(R+P) 2019年1月2日

精度と再現率を使う理由 accuracyとerrorという尺度もあるが…… accuracyは少数の真の正例・偽の正例・偽の負例に敏感でない
F値は真の正例をより強く反映する尺度であり、これは我々の直観に合致する精度と再現率を使えばほしいものが取れたかどうか、ゴミまで取ったかどうかに違うコストをつけることができる 2019年1月2日

fallout fallout=偽の正例/(偽の正例+真の負例) あまり使われない
偽の正例をあまり出さないシステムを作るのがどれくらい難しいか測る尺度再現率とfalloutのROCカーブがよく使われる領域もある 2019年1月2日

Verb Subcategorization
8.2 動詞のサブカテゴリー化 Verb Subcategorization 2019年1月2日

動詞のサブカテゴリー化動詞は意味役割を担った項をさまざまな統語的方法を用いて表現する
動詞が伴うことのできる統語的カテゴリーのことをサブカテゴリー化フレームというフレーム機能 NP NP 主語目的語 NP S 主語節 NP INF 主語不定詞 2019年1月2日

なぜサブカテゴリー化と呼ぶか? ある意味役割を担った項の集合をひとつのカテゴリーだと考えることができる
これらのカテゴリーはいくつかの統語的な方法を用いて意味役割を担う項を表すことができる(=サブカテゴリー) themeとrecipientを項に取るクラスの動詞は、それらの項を目的語+前置詞句でも二重目的語でも表現できる 2019年1月2日

サブカテゴリー化フレーム She told the man where Peter grew up.
She found the place where Peter grew up. 動詞サブカテゴリー化フレーム機能 tell NP NP S 主語目的語節 find NP NP 主語目的語 tellとfindのサブカテゴリー化フレームを知っていれば正しく付加先を決定できる 2019年1月2日

現在の辞書の問題点ほとんどの辞書はサブカテゴリー化フレームの情報を含んでいない
Levin(1993)が現在のところいちばん包括的だが、全てのサブカテゴリーを含んでいないし、量的な情報もないコーパスからサブカテゴリー化フレームの情報を獲得する必要性 2019年1月2日

Brent の Lerner アルゴリズムキューステップ仮説検定ステップ
キュー cj に基づいてフレーム f を動詞 v に割り当てたときのエラー確率を εj とする仮説検定ステップ帰無仮説 H0: そのフレームはその動詞には適切ではない cj が高い確率で H0 は間違っていると示した場合この仮説を棄却 2019年1月2日

Brent(1993) のキューステップフレーム “NP NP” のキュー取れる文間違って取れる文
(OBJ | SUBJ_OBJ | CAP) (PUNC CC) 取れる文 [...] greet-V Peter-CAP ,-PUNC [...] 間違って取れる文 I came Thursday, before the storm started. 数は少ないので気にしない間違いを減らすとよく出る動詞しかテストできない 2019年1月2日

Brent(ibid.) の仮説検定ステップ
動詞 vi がフレーム fj を取らない fj のエラーレート (そのフレームではないのにキュー cj が出る確率) 動詞 vi がキュー cj と共起した回数が m 以上 pE は帰無仮説 H0 が正しいとしたときの観測データの確率(pE が小さければ H0 を棄却) 2019年1月2日

Brent の実験精度はほぼ100%だが…… 再現率は47-100%
動詞のトークンでなくタイプでランダムサンプリングしたとするならかなり低い数字既存の辞書には低頻度の語はあまり載ってないように思われるので、高頻度の語よりちゃんと当てないといけない 2019年1月2日

Manning(1993) の問題提起タガーを使ってそれに対してキュー検出(正規表現を使う)
間違う部分が2箇所(タギングとキュー)になるので間違いやすくなる? 間違いは仮説検定の段階で取り除かれるので、間違いを含む手がかりからでも信頼のおけるデータが得られる 2019年1月2日

タガーを使う利点低い信頼性のキューやタガーの出力に基づいたキューを使うと利用できるキューの数がかなり増える
高い信頼性のキューを持たないサブカテゴリー化フレームもたくさんある(例:動詞の後ろの前置詞)が、これらも得ることができる 2019年1月2日

Manning の実験精度は高いエラー分析
PP が項なのかそうでないのか判断するのは難しい(OALD が gold standard なのでそれに従う) 一見項がないように見えるので自動詞のフレームを remark に割り当ててしまった 2019年1月2日

Manning の手法の問題点高精度・低再現率は仮説検定のフレームワークの帰結よく知られているサブカテゴリー化フレームしか見つからない
稀なサブカテゴリー化フレームは見つからない 2019年1月2日

Manning の手法の改善案事前知識を入れるとかなりよくなる
同じパターンはある動詞の新しいサブカテゴリー化フレームの強い証拠になるが、他の動詞のフレームの証拠としても使えるサブカテゴリー化の検出にパーザーなどもっと構造化された入力を使う場合特に有効辞書にあるサブカテゴリー化フレームには高い優先度を与えるなどして利用 2019年1月2日

8.3 付加の曖昧性 Attachment Ambiguity 2019年1月2日

The children ate the cake with a spoon.
曖昧な文 The children ate the cake with a spoon. どうすれば曖昧性が解消できるか? 2019年1月2日

PP 付加の曖昧性がない文語彙的な制限が曖昧性解消に役立つ動詞と PP、名詞と PP の共起頻度情報だけでもほとんどの場合十分
a. Moscow sent more than 100,000 soldiers into Afghanistan ... b. Sydney Water breached an agreement with NSW health ... 語彙的な制限が曖昧性解消に役立つ動詞と PP、名詞と PP の共起頻度情報だけでもほとんどの場合十分 2019年1月2日

語彙的な制限を使うモデル λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら名詞に付加
動詞 v のあとに p で始まる PP が来る確率名詞 n のあとに p で始まる PP が来る確率 λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら名詞に付加 2019年1月2日

尤度比を使うモデルの問題点句は解析木の下の方につけるという原則を考慮していない
動詞と名詞とで前置詞句がどちらにも付加できるときには下の方につけるというバイアスを無視している PP 付加に関してこのバイアスを考慮した確率モデルが Hindle and Rooth (1993) 2019年1月2日

8.3.1 Hindle と Rooth (1993) の手法 Hindle and Rooth (1993) 2019年1月2日

Hindle と Rooth (1993) の設定事象空間同時には1つの前置詞しか見ない同じ前置詞が2つある場合は最初のものだけ見る
動詞が他動詞であり動詞の後に NP を持ち NP の後に PP を持つ同時には1つの前置詞しか見ない同じ前置詞が2つある場合は最初のものだけ見る 2019年1月2日

一般的なケースで考える p をヘッドとし、動詞 v に付加される PP があるか?
p をヘッドとし、名詞 n に付加される PP があるか? n を修飾する PP と v を修飾する PP は独立動詞が PP によって修飾されるかは名詞とは無関係、名詞が PP によって修飾されるかは動詞とは無関係。 2019年1月2日

動詞を修飾するか名詞を修飾するかは独立な事象か?
直観的には動詞にかかれば名詞にかからず、名詞にかかれば動詞にかからないが、動詞にも名詞にもかかる例がある独立であると仮定すると経験的な推定が簡単になる 2019年1月2日

PP が目的語の名詞にかかるか PP が目的語の名詞にかかるかどうかはその PP が動詞にかかるかどうかとは無関係
2019年1月2日

VAp = 1 かつ NAp = 1 のときタイプ p の前置詞をヘッドにする2つの PP がある
2つのうちの1つ目は名詞にかかり、2つ目は動詞にかからなければならない(句構造の木で線が交差してはいけないので) ∴最初の PP は名詞にかからなければならない⇔Attach(p)≠v 2019年1月2日

PP が動詞にかかるか句構造木で線が跨いではいけない 2019年1月2日

尤度比による評価 λが大きい正の値なら動詞に付加し、λが大きい負の値なら名詞に付加
ゼロに近い場合もどちらかに付加できるが、エラー率が高くなってしまう 2019年1月2日

確率の推定(最尤推定) ラベルなしコーパスからどのように数を計算すればいいのか p が v にかかっている回数
p が n にかかっている回数 v の出現回数 n の出現回数ラベルなしコーパスからどのように数を計算すればいいのか 2019年1月2日

p が名詞にかかるか動詞にかかるか決めるヒューリスティック
曖昧性がない例を全て数え上げて初期モデルを構築する初期モデルを全ての曖昧性のある例に適用し、λが閾値以上なら適当なカウントを割り当てる残りの曖昧性のある例でカウントを平等に分ける 2019年1月2日

実際に判定してみると…… 名詞より動詞にかかりやすい(26.13≒70倍) 正しい推定閾値を変えれば精度と再現率を調節できる
2019年1月2日

General remarks on PP attachment
2019年1月2日

Hindle と Rooth の問題点(1) 前置詞とそれの付加する名詞、もしくは動詞しか考慮しない
名詞の前に最上級の形容詞が来ると NP にとても付加しやすくなる傾向があるが、これは Hindle と Rooth のモデルでは無視 PP の内部でヘッドとなる名詞の情報も役に立つ 2019年1月2日

Hindle と Rooth の問題点(2) NP の直後に来る PP が直前の名詞か動詞に付加されるといった単純な場合しか考えていない
目的語の NP から他の PP によって切り離された PP は、先行する PP の中にある全ての名詞、目的語の名詞、先行する動詞のいずれにもかかることができる複文では上位の動詞にかかることすらできる 2019年1月2日

その他の問題付加の曖昧性は PP だけでなく副詞句・分詞句・分詞節や複合名詞でも起こる
複合名詞の場合もここでの手法が使えるが、data sparseness の問題があるので単語の意味クラスを付加の情報とともに用いることもかなりの数の PP において実は名詞にかかるか動詞にかかるかは決定不能 2019年1月2日

Selectional Preference 青山さん乞うご期待!
8.4 選択制限 Selectional Preference 青山さん乞うご期待! 2019年1月2日

奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp

Similar presentations

Presentation on theme: "奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

奈良先端科学技術大学院大学 小町守 mamoru-k＠is.naist.jp

Similar presentations

Presentation on theme: "奈良先端科学技術大学院大学 小町守 mamoru-k＠is.naist.jp"— Presentation transcript:

Similar presentations

About project

フィードバック

奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp

Presentation on theme: "奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp"— Presentation transcript: