奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp

Slides:



Advertisements
Similar presentations
PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
Advertisements

統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
データ分析入門(12) 第12章 単回帰分析 廣野元久.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
国内線で新千歳空港を利用している航空会社はどこですか?
レポートの作成 効果的な発表の仕方.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
実証分析の手順 経済データ解析 2011年度.
言語体系とコンピュータ 第6回.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
第6章 ユニフィケーション解析 ユニフィケーション解析とは?
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
条件式 (Conditional Expressions)
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
形態素解析および係り受け解析・主語を判別
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
Semi-Supervised QA with Generative Domain-Adaptive Nets
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
プログラム実行履歴を用いたトランザクションファンクション抽出手法
第6章 連立方程式モデル ー 計量経済学 ー.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
6.2.4 辞書項目(1) 辞書項目にも、語に対するDAGを与える。
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
第14章 モデルの結合 修士2年 山川佳洋.
訓練データとテストデータが 異なる分布に従う場合の学習
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
知識情報演習Ⅲ(後半第2回) 辻 慶太
説明可能なAI(Explainable AI)
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Data Clustering: A Review
付属書Ⅰ.7 予備危険源分析 (PHA).
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
文書分類モデルの統計的性質に関する一考察
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第16章 動的計画法 アルゴリズムイントロダクション.
ブースティングとキーワードフィルタリング によるシステム要求検出
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
設計情報の再利用を目的とした UML図の自動推薦ツール
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
保守請負時を対象とした 労力見積のためのメトリクスの提案
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
メソッドの同時更新履歴を用いたクラスの機能別分類法
奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
PROGRAMMING IN HASKELL
識別子の読解を目的とした名詞辞書の作成方法の一試案
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
Presentation transcript:

奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp FSNLP 勉強会 Chapter 8 (8.1-8.3) 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 2019年1月2日

語彙獲得 第5章での内容はコロケーションや句の獲得 第8章ではもっと複雑なものの獲得を扱う 語彙獲得の目標は機械が読める辞書の作成 コロケーション以外の語彙獲得 選択制限 サブカテゴリー化フレーム 意味カテゴリー化フレーム 2019年1月2日

機械が読める辞書 巨大なテキストコーパスから単語のパターンの出現頻度を見て構築 自然言語の生産性 常に更新する必要 新語 既知の語の新しい用法 常に更新する必要 2019年1月2日

Trask(1993) による語彙の定義 ある言語における全ての単語の語彙項目を含んだ文法の一部 伝統的な辞書は人間用に作られているので計算機の処理には向かない(e.g. 頻度の情報がない) 2019年1月2日

Trask による語彙の定義(後半) ある言語における特定の文法理論に基づいたさまざまな情報を含んだ文法の一部 語彙情報と語彙情報以外の間に明確な境界線はない(文法理論に依存) 前置詞句の付加(PP attachment)は統語的な問題か? 語彙的な問題か? 2019年1月2日

第8章の内容 前半(小町の担当部分) 後半(青山さんの担当部分) 動詞のサブカテゴリー化 付加の曖昧性 選択制限 意味の類似性 2019年1月2日

8.1 評価尺度 Evaluation Measures 2019年1月2日

評価尺度 精度と再現率はトレードオフ 2019年1月2日

F値 P=精度 R=再現率 α=0.5とするとこの式はF=2PR/(R+P) 2019年1月2日

精度と再現率を使う理由 accuracyとerrorという尺度もあるが…… accuracyは少数の真の正例・偽の正例・偽の負例に敏感でない F値は真の正例をより強く反映する尺度であり、これは我々の直観に合致する 精度と再現率を使えばほしいものが取れたかどうか、ゴミまで取ったかどうかに違うコストをつけることができる 2019年1月2日

fallout fallout=偽の正例/(偽の正例+真の負例) あまり使われない 偽の正例をあまり出さないシステムを作るのがどれくらい難しいか測る尺度 再現率とfalloutのROCカーブがよく使われる領域もある 2019年1月2日

Verb Subcategorization 8.2 動詞のサブカテゴリー化 Verb Subcategorization 2019年1月2日

動詞のサブカテゴリー化 動詞は意味役割を担った項をさまざまな統語的方法を用いて表現する 動詞が伴うことのできる統語的カテゴリーのことをサブカテゴリー化フレームという フレーム 機能 NP NP 主語 目的語 NP S 主語 節 NP INF 主語 不定詞 2019年1月2日

なぜサブカテゴリー化と呼ぶか? ある意味役割を担った項の集合をひとつのカテゴリーだと考えることができる これらのカテゴリーはいくつかの統語的な方法を用いて意味役割を担う項を表すことができる(=サブカテゴリー) themeとrecipientを項に取るクラスの動詞は、それらの項を目的語+前置詞句でも二重目的語でも表現できる 2019年1月2日

サブカテゴリー化フレーム She told the man where Peter grew up. She found the place where Peter grew up. 動詞 サブカテゴリー化フレーム 機能 tell NP NP S 主語 目的語 節 find NP NP 主語 目的語 tellとfindのサブカテゴリー化フレームを知っていれば正しく付加先を決定できる 2019年1月2日

現在の辞書の問題点 ほとんどの辞書はサブカテゴリー化フレームの情報を含んでいない Levin(1993)が現在のところいちばん包括的だが、全てのサブカテゴリーを含んでいないし、量的な情報もない コーパスからサブカテゴリー化フレームの情報を獲得する必要性 2019年1月2日

Brent の Lerner アルゴリズム キューステップ 仮説検定ステップ キュー cj に基づいてフレーム f を動詞 v に割り当てたときのエラー確率を εj とする 仮説検定ステップ 帰無仮説 H0: そのフレームはその動詞には適切ではない cj が高い確率で H0 は間違っていると示した場合この仮説を棄却 2019年1月2日

Brent(1993) のキューステップ フレーム “NP NP” のキュー 取れる文 間違って取れる文 (OBJ | SUBJ_OBJ | CAP) (PUNC CC) 取れる文 [...] greet-V Peter-CAP ,-PUNC [...] 間違って取れる文 I came Thursday, before the storm started. 数は少ないので気にしない 間違いを減らすとよく出る動詞しかテストできない 2019年1月2日

Brent(ibid.) の仮説検定ステップ 動詞 vi がフレーム fj を取らない fj のエラーレート (そのフレームではないのにキュー cj が出る確率) 動詞 vi がキュー cj と共起した回数が m 以上 pE は帰無仮説 H0 が正しいとしたときの観測データの確率(pE が小さければ H0 を棄却) 2019年1月2日

Brent の実験 精度はほぼ100%だが…… 再現率は47-100% 動詞のトークンでなくタイプでランダムサンプリングしたとするならかなり低い数字 既存の辞書には低頻度の語はあまり載ってないように思われるので、高頻度の語よりちゃんと当てないといけない 2019年1月2日

Manning(1993) の問題提起 タガーを使ってそれに対してキュー検出(正規表現を使う) 間違う部分が2箇所(タギングとキュー)になるので間違いやすくなる? 間違いは仮説検定の段階で取り除かれるので、間違いを含む手がかりからでも信頼のおけるデータが得られる 2019年1月2日

タガーを使う利点 低い信頼性のキューやタガーの出力に基づいたキューを使うと利用できるキューの数がかなり増える 高い信頼性のキューを持たないサブカテゴリー化フレームもたくさんある(例:動詞の後ろの前置詞)が、これらも得ることができる 2019年1月2日

Manning の実験 精度は高い エラー分析 PP が項なのかそうでないのか判断するのは難しい(OALD が gold standard なのでそれに従う) 一見項がないように見えるので自動詞のフレームを remark に割り当ててしまった 2019年1月2日

Manning の手法の問題点 高精度・低再現率は仮説検定のフレームワークの帰結 よく知られているサブカテゴリー化フレームしか見つからない 稀なサブカテゴリー化フレームは見つからない 2019年1月2日

Manning の手法の改善案 事前知識を入れるとかなりよくなる 同じパターンはある動詞の新しいサブカテゴリー化フレームの強い証拠になるが、他の動詞のフレームの証拠としても使える サブカテゴリー化の検出にパーザーなどもっと構造化された入力を使う場合特に有効 辞書にあるサブカテゴリー化フレームには高い優先度を与えるなどして利用 2019年1月2日

8.3 付加の曖昧性 Attachment Ambiguity 2019年1月2日

The children ate the cake with a spoon. 曖昧な文 The children ate the cake with a spoon. どうすれば曖昧性が解消できるか? 2019年1月2日

PP 付加の曖昧性がない文 語彙的な制限が曖昧性解消に役立つ 動詞と PP、名詞と PP の共起頻度情報だけでもほとんどの場合十分 a. Moscow sent more than 100,000 soldiers into Afghanistan ... b. Sydney Water breached an agreement with NSW health ... 語彙的な制限が曖昧性解消に役立つ 動詞と PP、名詞と PP の共起頻度情報だけでもほとんどの場合十分 2019年1月2日

語彙的な制限を使うモデル λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら名詞に付加 動詞 v のあとに p で始まる PP が来る確率 名詞 n のあとに p で始まる PP が来る確率 λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら名詞に付加 2019年1月2日

尤度比を使うモデルの問題点 句は解析木の下の方につけるという原則を考慮していない 動詞と名詞とで前置詞句がどちらにも付加できるときには下の方につけるというバイアスを無視している PP 付加に関してこのバイアスを考慮した確率モデルが Hindle and Rooth (1993) 2019年1月2日

8.3.1 Hindle と Rooth (1993) の手法 Hindle and Rooth (1993) 2019年1月2日

Hindle と Rooth (1993) の設定 事象空間 同時には1つの前置詞しか見ない 同じ前置詞が2つある場合は最初のものだけ見る 動詞が他動詞であり 動詞の後に NP を持ち NP の後に PP を持つ 同時には1つの前置詞しか見ない 同じ前置詞が2つある場合は最初のものだけ見る 2019年1月2日

一般的なケースで考える p をヘッドとし、動詞 v に付加される PP があるか? p をヘッドとし、名詞 n に付加される PP があるか? n を修飾する PP と v を修飾する PP は独立 動詞が PP によって修飾されるかは名詞とは無関係、 名詞が PP によって修飾されるかは動詞とは無関係。 2019年1月2日

動詞を修飾するか名詞を修飾 するかは独立な事象か? 直観的には動詞にかかれば名詞にかからず、名詞にかかれば動詞にかからないが、動詞にも名詞にもかかる例がある 独立であると仮定すると経験的な推定が簡単になる 2019年1月2日

PP が目的語の名詞にかかるか PP が目的語の名詞にかかるかどうかはその PP が動詞にかかるかどうかとは無関係 2019年1月2日

VAp = 1 かつ NAp = 1 のとき タイプ p の前置詞をヘッドにする2つの PP がある 2つのうちの1つ目は名詞にかかり、2つ目は動詞にかからなければならない(句構造の木で線が交差してはいけないので) ∴最初の PP は名詞にかからなければならない⇔Attach(p)≠v 2019年1月2日

PP が動詞にかかるか 句構造木で線が跨いではいけない 2019年1月2日

尤度比による評価 λが大きい正の値なら動詞に付加し、λが大きい負の値なら名詞に付加 ゼロに近い場合もどちらかに付加できるが、エラー率が高くなってしまう 2019年1月2日

確率の推定(最尤推定) ラベルなしコーパスからどのように数を計算すればいいのか p が v にかかっている回数 p が n にかかっている回数 v の出現回数 n の出現回数 ラベルなしコーパスからどのように数を計算すればいいのか 2019年1月2日

p が名詞にかかるか動詞にかかるか決めるヒューリスティック 曖昧性がない例を全て数え上げて初期モデルを構築する 初期モデルを全ての曖昧性のある例に適用し、λが閾値以上なら適当なカウントを割り当てる 残りの曖昧性のある例でカウントを平等に分ける 2019年1月2日

実際に判定してみると…… 名詞より動詞にかかりやすい(26.13≒70倍) 正しい推定 閾値を変えれば精度と再現率を調節できる 2019年1月2日

General remarks on PP attachment 2019年1月2日

Hindle と Rooth の問題点(1) 前置詞とそれの付加する名詞、もしくは動詞しか考慮しない 名詞の前に最上級の形容詞が来ると NP にとても付加しやすくなる傾向があるが、これは Hindle と Rooth のモデルでは無視 PP の内部でヘッドとなる名詞の情報も役に立つ 2019年1月2日

Hindle と Rooth の問題点(2) NP の直後に来る PP が直前の名詞か動詞に付加されるといった単純な場合しか考えていない 目的語の NP から他の PP によって切り離された PP は、先行する PP の中にある全ての名詞、目的語の名詞、先行する動詞のいずれにもかかることができる 複文では上位の動詞にかかることすらできる 2019年1月2日

その他の問題 付加の曖昧性は PP だけでなく副詞句・分詞句・分詞節や複合名詞でも起こる 複合名詞の場合もここでの手法が使えるが、data sparseness の問題があるので単語の意味クラスを付加の情報とともに用いることも かなりの数の PP において実は名詞にかかるか動詞にかかるかは決定不能 2019年1月2日

Selectional Preference 青山さん乞うご期待! 8.4 選択制限 Selectional Preference 青山さん乞うご期待! 2019年1月2日