Foundations of Statistical Natural Language Processing 5. Collocations

Slides:



Advertisements
Similar presentations
母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
4. 統計的検定 ( ダイジェスト版 ) 保健統計 2014 年度. Ⅰ 仮説検定の考え方 次のような問題を考える。 2014 年のセンター試験、英語の平均点は 119 点であった。 T 高校では 3 年生全員がセンター試験を受験したが、受験生の中から 25 人を選んで調査したところ、その平均点は.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
      仮説と検定.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
ホーエル『初等統計学』 第8章1節~3節 仮説の検定(1)
検定 P.137.
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
相関係数 植物生態学研究室木村 一也.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
統計学 12/13(木).
統計学  西 山.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
クロス集計とχ2検定 P.144.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
社会統計学Ic・統計科学I 第六回 ~仮説検証~
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
中澤 港 統計学第4回 中澤 港
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
統計処理2  t検定・分散分析.
1.母平均の検定:小標本場合 2.母集団平均の差の検定
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
統計的検定   1.検定の考え方 2.母集団平均の検定.
母分散の検定 母分散の比の検定 カイ2乗分布の応用
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
構造的類似性を持つ半構造化文書における頻度分析
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
推定と予測の違い 池の魚の体重の母平均を知りたい→推定 池の魚を無作為に10匹抽出して調査 次に釣り上げる魚の体重を知りたい→予測
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
Presentation transcript:

Foundations of Statistical Natural Language Processing 5. Collocations 米澤研究室M1 増山隆 tak@yl.is.s.u-tokyo.ac.jp

概要 Collocationとは Collocationを統計的に見つけ出す方法 Frequency Mean and Variance Hypothesis testing(仮説検定) The t test Hypothesis testing of difference(using the t test) Pearson’s chi-square test Likelihood ratios

Collocationとは

Collocation(連語) 複数の単語が慣習的に結びついてひとつの表現になったもの(例 New York) Compositional(部分から全体の意味が分かる)とは限らない   例 kick the bucket (死ぬ) 「結びつきやすさ」がある   例 strong tea / powerful tea

Firth vs. Saussure & Chomsky Collocationは無視されていた 文、節の構造を重視 Firth (Contextual Theory of Meaning) Contextを重視 社会設定 会話の流れ Collocation Firth Strong teaはありだがpowerful teaはなし

Collocationを統計的に 見つけ出す方法

5.1 Frequency 2語が続いて現れる回数を数える 素朴 そのまま行うと of the, in theのような興味のない結果が得られる(Table 5.1)

Frequency + POS filter (Justeson and Katz 1995) cf. Table 5.2, 5.3 例 Strong tea and powerful tea New York Timesには現れなかった Webでの実験では799(strong)と19(powerful)であった strong,powerfulどちらにも使える語に対してはより洗練された分析が必要

5.2 Mean and Variance(1/2) (Smadja 1993) 2語が同時に出現するときの距離を分析 例 knock on his doorでのknockに対するdoorの距離は3 距離の平均と分散を算出 分散が小さいほうがよい 幅を限る collocation window

Mean and Variance(2/2) 結果はTable 5.2,5.4 Smadjaは急激なピークのみをとりだした Window size 9 分散が小さいとき平均距離は0に近い (興味のないcollocation) Smadjaは急激なピークのみをとりだした だいたい80%の出来 Collocationよりももっと緩い関係がわかる  例 knock と door

5.3 Hypothesis Testing (仮説検定) ある2語が偶然隣り合うのか決まって隣り合うのかを調べたい New companiesはnewもcompaniesも出現頻度が高いならば隣り合う確率も高い H0 null hypothesis (帰無仮説) 統計的に正しいか調べたい命題 ここでは、「ある2語w1w2が偶然隣り合う」 P(w1w2) = P(w1)P(w2) .. 独立性で仮定 仮説検定一般の話

The t test 平均に関する検定によく使う w1w2が偶然隣り合うか?を検定 手順1.) 以下の式でt scoreを計算 信頼区間α: 棄却、採択の基準%(ここでは0.05) w1w2が偶然隣り合うか?を検定 手順1.) 以下の式でt scoreを計算 ここでは片側である

The t test 手順2) t分布表を見る  tの値が表の値より大ならばH0を棄却 積分値がαである点

T testの計算例 New companies C(New) = 15828 C(companies) = 4675 s2=p(1-p)~pを使用 (cf. 2.1.9) t = 0.999932 α=0.005の時の基準値は2.576(表を見る) H0は棄却できない  ⇒New companiesは偶然並んだ

The t testの結果と特徴 結果は表5.6 信頼区間 αはそれほど重要ではない Collocationのランク付けもできる 5.6はstop wordを含む ほとんどのbigramでH0(独立性の仮説)を棄却できた ⇒言語は予測できないことはほとんどおきない。   word sence disambiguationや確率的パーズの能力の裏付け 信頼区間 αはそれほど重要ではない Collocationのランク付けもできる T test のれいは164

Hypothesis testing of differences 微妙に異なるcollocationの発見に使う  例) strongとpowerfulの違いを見るためにそれらの直後によく出現する語を見る 二標本t検定 以下のWelchの近似を使う

仮説とt score 帰無仮説H0は「両者に違いがない」こと。 標本数は共通でN (Bernoulli試行をN回) μ1-μ0=0 標本数は共通でN (Bernoulli試行をN回) 以上を考慮してtを語数で表す bernoulli思考 sは近似値

Hypothesis testing of differencesの結果と応用 結果はTable 5.7 Church & Hanks(1989) 内的性質と外的性質 strong: 実際には力を持たないかもしれない。内的 powerful: 実際に力をもつ。外的 文化的な側面のような微妙なところがある  例) strong tea, powerful drugはtea,drugの差 応用: 辞書作成 単語の微妙なニュアンスをつかむ

Pearson’s chi-square test ばらつき(分散)の検定 t検定よりも適用範囲が広い t検定.. サンプルが標準正規分布にしたがっていることを仮定 観測で得た表と 独立性を仮定した 表がマッチするか?

χ2値と検定手順 式と見る表以外はt検定と同様 new companiesはH0を棄却できない 5.7式の導出は http://www10.u-page.so-net.ne.jp/dk9/mamewo/5.7.ps 参照 new companiesはH0を棄却できない

χ2検定の性質と応用 t検定よりも適用範囲が広い 応用1: ある単語の翻訳語を見つける(Church & Gale 1991) 例) vache(フランス語) と cow(英語) H0を棄却できれば、翻訳語だといえる 応用2: 2コーパスの類似性の尺度(Kilgarriff & Rose 1998)

Likelihood ratios(最尤比検定) 直感に合う(?)方法 「現実の標本は確率最大のものが実現したものだ」と仮定(最尤原理) 仮説 w1w2というbigramについて H1 P(w2|w1) = p = P(w2|¬w1) H2 P(w2|w1)=p1≠p2=P(w2|¬w1) H1は独立性の仮説

Likelihoodのイメージ 真の確率pに近いほどlikelihood(最尤度)は高い

Likelihoodの計算(1/2) p,p1,p2を得られたデータから計算 二項分布を仮定(Bernoulli分布) この値が当てはまりのよさを示す

Likelihoodの計算(2/2) ただし -2logλは漸近的にχ2分布に従う(らしい)

likelihood ratiosの結果と特徴 結果はTable 5.12 結果の解釈は直感的に出来る e0.5*(-2logλ)の値をみて、どれくらいの確からしさで棄却されたかが分かる 出現回数が少ないbigramにも適用可能 何ばいの比較

Relative frequency ratios コーパスを特徴づけるcollocationを他のコ  ーパスたちと比較して見つける 例 1990年、1989年のNew York Times  cf. Table 5.13 1989年に頻出 1990年に2回  1989年の出来事、1990年に終わったコラム ある特定分野向けのcollocationを見つける 普通の文章と特定分野の文章を比較

参考文献 基礎統計学I 統計学入門 自然科学の統計学(p155に5.7式の導出) 東京大学教養学部統計学教室編 雑なメモ http://www10.u-page.so-net.ne.jp/dk9/mamewo/natural_language.html