Presentation is loading. Please wait.

Presentation is loading. Please wait.

奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp

Similar presentations


Presentation on theme: "奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp"— Presentation transcript:

1 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
FSNLP 勉強会 Chapter 8 ( ) 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 2019年1月2日

2 語彙獲得 第5章での内容はコロケーションや句の獲得 第8章ではもっと複雑なものの獲得を扱う 語彙獲得の目標は機械が読める辞書の作成
コロケーション以外の語彙獲得 選択制限 サブカテゴリー化フレーム 意味カテゴリー化フレーム 2019年1月2日

3 機械が読める辞書 巨大なテキストコーパスから単語のパターンの出現頻度を見て構築 自然言語の生産性 常に更新する必要 新語
既知の語の新しい用法 常に更新する必要 2019年1月2日

4 Trask(1993) による語彙の定義 ある言語における全ての単語の語彙項目を含んだ文法の一部
伝統的な辞書は人間用に作られているので計算機の処理には向かない(e.g. 頻度の情報がない) 2019年1月2日

5 Trask による語彙の定義(後半) ある言語における特定の文法理論に基づいたさまざまな情報を含んだ文法の一部
語彙情報と語彙情報以外の間に明確な境界線はない(文法理論に依存) 前置詞句の付加(PP attachment)は統語的な問題か? 語彙的な問題か? 2019年1月2日

6 第8章の内容 前半(小町の担当部分) 後半(青山さんの担当部分) 動詞のサブカテゴリー化 付加の曖昧性 選択制限 意味の類似性
2019年1月2日

7 8.1 評価尺度 Evaluation Measures 2019年1月2日

8 評価尺度 精度と再現率はトレードオフ 2019年1月2日

9 F値 P=精度 R=再現率 α=0.5とするとこの式はF=2PR/(R+P) 2019年1月2日

10 精度と再現率を使う理由 accuracyとerrorという尺度もあるが…… accuracyは少数の真の正例・偽の正例・偽の負例に敏感でない
F値は真の正例をより強く反映する尺度であり、これは我々の直観に合致する 精度と再現率を使えばほしいものが取れたかどうか、ゴミまで取ったかどうかに違うコストをつけることができる 2019年1月2日

11 fallout fallout=偽の正例/(偽の正例+真の負例) あまり使われない
偽の正例をあまり出さないシステムを作るのがどれくらい難しいか測る尺度 再現率とfalloutのROCカーブがよく使われる領域もある 2019年1月2日

12 Verb Subcategorization
8.2 動詞のサブカテゴリー化 Verb Subcategorization 2019年1月2日

13 動詞のサブカテゴリー化 動詞は意味役割を担った項をさまざまな統語的方法を用いて表現する
動詞が伴うことのできる統語的カテゴリーのことをサブカテゴリー化フレームという フレーム 機能 NP NP 主語 目的語 NP S 主語 節 NP INF 主語 不定詞 2019年1月2日

14 なぜサブカテゴリー化と呼ぶか? ある意味役割を担った項の集合をひとつのカテゴリーだと考えることができる
これらのカテゴリーはいくつかの統語的な方法を用いて意味役割を担う項を表すことができる(=サブカテゴリー) themeとrecipientを項に取るクラスの動詞は、それらの項を目的語+前置詞句でも二重目的語でも表現できる 2019年1月2日

15 サブカテゴリー化フレーム She told the man where Peter grew up.
She found the place where Peter grew up. 動詞 サブカテゴリー化フレーム 機能 tell NP NP S 主語 目的語 節 find NP NP 主語 目的語 tellとfindのサブカテゴリー化フレームを知っていれば正しく付加先を決定できる 2019年1月2日

16 現在の辞書の問題点 ほとんどの辞書はサブカテゴリー化フレームの情報を含んでいない
Levin(1993)が現在のところいちばん包括的だが、全てのサブカテゴリーを含んでいないし、量的な情報もない コーパスからサブカテゴリー化フレームの情報を獲得する必要性 2019年1月2日

17 Brent の Lerner アルゴリズム キューステップ 仮説検定ステップ
キュー cj に基づいてフレーム f を動詞 v に割り当てたときのエラー確率を εj とする 仮説検定ステップ 帰無仮説 H0: そのフレームはその動詞には適切ではない cj が高い確率で H0 は間違っていると示した場合この仮説を棄却 2019年1月2日

18 Brent(1993) のキューステップ フレーム “NP NP” のキュー 取れる文 間違って取れる文
(OBJ | SUBJ_OBJ | CAP) (PUNC CC) 取れる文 [...] greet-V Peter-CAP ,-PUNC [...] 間違って取れる文 I came Thursday, before the storm started. 数は少ないので気にしない 間違いを減らすとよく出る動詞しかテストできない 2019年1月2日

19 Brent(ibid.) の仮説検定ステップ
動詞 vi がフレーム fj を取らない fj のエラーレート (そのフレームではないのにキュー cj が出る確率) 動詞 vi がキュー cj と共起した回数が m 以上 pE は帰無仮説 H0 が正しいとしたときの観測データの確率(pE が小さければ H0 を棄却) 2019年1月2日

20 Brent の実験 精度はほぼ100%だが…… 再現率は47-100%
動詞のトークンでなくタイプでランダムサンプリングしたとするならかなり低い数字 既存の辞書には低頻度の語はあまり載ってないように思われるので、高頻度の語よりちゃんと当てないといけない 2019年1月2日

21 Manning(1993) の問題提起 タガーを使ってそれに対してキュー検出(正規表現を使う)
間違う部分が2箇所(タギングとキュー)になるので間違いやすくなる? 間違いは仮説検定の段階で取り除かれるので、間違いを含む手がかりからでも信頼のおけるデータが得られる 2019年1月2日

22 タガーを使う利点 低い信頼性のキューやタガーの出力に基づいたキューを使うと利用できるキューの数がかなり増える
高い信頼性のキューを持たないサブカテゴリー化フレームもたくさんある(例:動詞の後ろの前置詞)が、これらも得ることができる 2019年1月2日

23 Manning の実験 精度は高い エラー分析
PP が項なのかそうでないのか判断するのは難しい(OALD が gold standard なのでそれに従う) 一見項がないように見えるので自動詞のフレームを remark に割り当ててしまった 2019年1月2日

24 Manning の手法の問題点 高精度・低再現率は仮説検定のフレームワークの帰結 よく知られているサブカテゴリー化フレームしか見つからない
稀なサブカテゴリー化フレームは見つからない 2019年1月2日

25 Manning の手法の改善案 事前知識を入れるとかなりよくなる
同じパターンはある動詞の新しいサブカテゴリー化フレームの強い証拠になるが、他の動詞のフレームの証拠としても使える サブカテゴリー化の検出にパーザーなどもっと構造化された入力を使う場合特に有効 辞書にあるサブカテゴリー化フレームには高い優先度を与えるなどして利用 2019年1月2日

26 8.3 付加の曖昧性 Attachment Ambiguity 2019年1月2日

27 The children ate the cake with a spoon.
曖昧な文 The children ate the cake with a spoon. どうすれば曖昧性が解消できるか? 2019年1月2日

28 PP 付加の曖昧性がない文 語彙的な制限が曖昧性解消に役立つ 動詞と PP、名詞と PP の共起頻度情報だけでもほとんどの場合十分
a. Moscow sent more than 100,000 soldiers into Afghanistan ... b. Sydney Water breached an agreement with NSW health ... 語彙的な制限が曖昧性解消に役立つ 動詞と PP、名詞と PP の共起頻度情報だけでもほとんどの場合十分 2019年1月2日

29 語彙的な制限を使うモデル λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら名詞に付加
動詞 v のあとに p で始まる PP が来る確率 名詞 n のあとに p で始まる PP が来る確率 λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら名詞に付加 2019年1月2日

30 尤度比を使うモデルの問題点 句は解析木の下の方につけるという原則を考慮していない
動詞と名詞とで前置詞句がどちらにも付加できるときには下の方につけるというバイアスを無視している PP 付加に関してこのバイアスを考慮した確率モデルが Hindle and Rooth (1993) 2019年1月2日

31 8.3.1 Hindle と Rooth (1993) の手法 Hindle and Rooth (1993) 2019年1月2日

32 Hindle と Rooth (1993) の設定 事象空間 同時には1つの前置詞しか見ない 同じ前置詞が2つある場合は最初のものだけ見る
動詞が他動詞であり 動詞の後に NP を持ち NP の後に PP を持つ 同時には1つの前置詞しか見ない 同じ前置詞が2つある場合は最初のものだけ見る 2019年1月2日

33 一般的なケースで考える p をヘッドとし、動詞 v に付加される PP があるか?
p をヘッドとし、名詞 n に付加される PP があるか? n を修飾する PP と v を修飾する PP は独立 動詞が PP によって修飾されるかは名詞とは無関係、 名詞が PP によって修飾されるかは動詞とは無関係。 2019年1月2日

34 動詞を修飾するか名詞を修飾 するかは独立な事象か?
直観的には動詞にかかれば名詞にかからず、名詞にかかれば動詞にかからないが、動詞にも名詞にもかかる例がある 独立であると仮定すると経験的な推定が簡単になる 2019年1月2日

35 PP が目的語の名詞にかかるか PP が目的語の名詞にかかるかどうかはその PP が動詞にかかるかどうかとは無関係
2019年1月2日

36 VAp = 1 かつ NAp = 1 のとき タイプ p の前置詞をヘッドにする2つの PP がある
2つのうちの1つ目は名詞にかかり、2つ目は動詞にかからなければならない(句構造の木で線が交差してはいけないので) ∴最初の PP は名詞にかからなければならない⇔Attach(p)≠v 2019年1月2日

37 PP が動詞にかかるか 句構造木で線が跨いではいけない 2019年1月2日

38 尤度比による評価 λが大きい正の値なら動詞に付加し、λが大きい負の値なら名詞に付加
ゼロに近い場合もどちらかに付加できるが、エラー率が高くなってしまう 2019年1月2日

39 確率の推定(最尤推定) ラベルなしコーパスからどのように数を計算すればいいのか p が v にかかっている回数
p が n にかかっている回数 v の出現回数 n の出現回数 ラベルなしコーパスからどのように数を計算すればいいのか 2019年1月2日

40 p が名詞にかかるか動詞にかかるか決めるヒューリスティック
曖昧性がない例を全て数え上げて初期モデルを構築する 初期モデルを全ての曖昧性のある例に適用し、λが閾値以上なら適当なカウントを割り当てる 残りの曖昧性のある例でカウントを平等に分ける 2019年1月2日

41 実際に判定してみると…… 名詞より動詞にかかりやすい(26.13≒70倍) 正しい推定 閾値を変えれば精度と再現率を調節できる
2019年1月2日

42 General remarks on PP attachment
2019年1月2日

43 Hindle と Rooth の問題点(1) 前置詞とそれの付加する名詞、もしくは動詞しか考慮しない
名詞の前に最上級の形容詞が来ると NP にとても付加しやすくなる傾向があるが、これは Hindle と Rooth のモデルでは無視 PP の内部でヘッドとなる名詞の情報も役に立つ 2019年1月2日

44 Hindle と Rooth の問題点(2) NP の直後に来る PP が直前の名詞か動詞に付加されるといった単純な場合しか考えていない
目的語の NP から他の PP によって切り離された PP は、先行する PP の中にある全ての名詞、目的語の名詞、先行する動詞のいずれにもかかることができる 複文では上位の動詞にかかることすらできる 2019年1月2日

45 その他の問題 付加の曖昧性は PP だけでなく副詞句・分詞句・分詞節や複合名詞でも起こる
複合名詞の場合もここでの手法が使えるが、data sparseness の問題があるので単語の意味クラスを付加の情報とともに用いることも かなりの数の PP において実は名詞にかかるか動詞にかかるかは決定不能 2019年1月2日

46 Selectional Preference 青山さん乞うご期待!
8.4 選択制限 Selectional Preference 青山さん乞うご期待! 2019年1月2日


Download ppt "奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp"

Similar presentations


Ads by Google