Topic-Word Selection Based on Combinatorial Probability

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

Maximal likelihood 法に基づく Matched filter について 田越秀行(阪大理) LCGT コヒーレンス解析 WG 修正 Ref: Finn, PRD63, (2001) Pai, Dhurandhar, Bose, PRD64,
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
Bassモデルにおける 最尤法を用いたパラメータ推定
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
A班 ランダム選択に一言加えたら・・・ 成田幸弘 橋本剛 嶌村都.
確率・統計Ⅱ 第7回.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
テキストの類似度計算
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
Fuzzy c-Means法による クラスター分析に関する研究
疫学概論 適中度と尤度比 Lesson 19. 評価の指標 §C. 適中度と尤度比 S.Harano, MD,PhD,MPH.
疫学概論 適中度と尤度比 Lesson 19. 評価の指標 §C. 適中度と尤度比 S.Harano, MD,PhD,MPH.
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
Online Decoding of Markov Models under Latency Constraints
第11回授業(12/11)の学習目標 第8章 分散分析 (ANOVA) の学習 分散分析の例からその目的を理解する 分散分析の各種のデザイン
WWW上の効率的な ハブ探索法の提案と実装
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
知識情報演習Ⅲ(後半第2回) 辻 慶太
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
複数特徴量の重み付け統合による一般物体認識
決定木-II 学習目標 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比
文書分類モデルの統計的性質に関する一考察
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
尤度の比較と仮説検定とを比較する ~P値のことなど~
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
コーディングパターンの あいまい検索の提案と実装
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
保守請負時を対象とした 労力見積のためのメトリクスの提案
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
7.8 Kim-Vu Polynomial Concentration
自然言語処理2015 Natural Language Processing 2015
Webページタイプによるクラスタ リングを用いた検索支援システム
統計現象 高嶋 隆一 6/26/2019.
自然言語処理2016 Natural Language Processing 2016
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Presentation transcript:

Topic-Word Selection Based on Combinatorial Probability Toru Hisamitsu Yoshiki Niwa In Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS), pp. 289-296, 2001.

この論文のポイント 文書集合から部分文書集合を得たとき,その部分文書集合の中で「特徴的な」語に重みを付ける方法を探求する 超幾何分布を応用した単語重み付け方法について考える TF*IDFやカイ二乗検定など,いくつかの重み付け方法を比較し,おのおのの傾向について考察する

文書集合を特徴づける語を見出す 情報検索,文書分類,文書クラスタリング,情報抽出において基本的なタスク 例)重要でない単語を除いて文書の類似度を計算したほうが高精度 (Sebastiani, 1999)

DualNaviの例

問題設定 全体文書集合から,語wを含む文書を検索して,部分文書集合Dwを得たとする この部分文書集合Dwに含まれる語vが,どのくらい特徴的に出現しているのか,測りたい D v Dw v v v v v v v v v v v v v v v v

従来手法 tf tf/TF tf*idf SMART Log likelihood ratio (LLR) Chi-square test (CS) Chi-square test with Yetes’ correction (CS2)

tf: 総出現頻度 部分文書集合Dw内の語vの総出現頻度 Dw内でたくさん出現する語vは, Dwを特徴づけるであろう 用語抽出では良い性能を示す (Daile et al., 1994; Caraballo et al., 1999; Hisamitsu et al., 2001)

tf/TF: 相対出現頻度 全体文書集合に対する,部分文書集合Dw内の語vの相対出現頻度 全体部分集合で1回しか出現せず,部分文書集合でも1回しか出現しないような語に,最大値1が与えられてしまう 低頻度語を過大評価してしまう

tf*idf: お馴染みの重み付け法 部分文書集合Dw内の語vの総出現頻度に,語vが全体文書集合内でどのくらい珍しいのか考慮したもの 計算が簡単であるが,いろいろなケースで,経験的によく効くと言われている 問題点: tfが大きくなると,idfが効かなくなる (Hisamitsu et al., 2000)

tf*idf2: tf*idfのtfの影響を少なくする OKAPI (Robertson et al., 2000) の簡略版 高頻度のtfの影響は,かなり削減されている

SMART: tf*idfの改良 部分文書集合Dwに含まれるそれぞれの文書dに対し,単語vの頻度をその文書d内の語の出現頻度の平均で正規化して和をとる (Singhal et al., 1996) 平均をとるため計算コストは高め

2×2分割表 a b a+b c d c+d a+c b+d n 語vが出現する回数 語v以外が出現する回数 合計 Dw中 (語wが出現)

対数尤度比 (Log likelihood ratio)

カイ二乗検定 観測された値Oが,その期待値Eからどのくらい離れているかを示す 得られたカイ二乗値に対して,「語vの出現頻度はDwに依存しない」という帰無仮説が何%の確率で成立するのか,カイ二乗分布から求めることができる.

カイ二乗検定(イェイツの修正) カイ二乗検定は,a < 5, b < 5, c < 5, d < 5のいずれかが成立するとき,以下の修正を行って,精度を改善する

超幾何分布による方法 n (= a + b + c + d)枚のカードが箱の中にある 箱の中のカードのうち,(a+c)枚のカードには「v」と書かれており,残りの(b+d)枚のカードには「v」以外の文字(何でも良い)が書かれている このとき,(a+b)枚のカードを無作為に比復元抽出(取り出したカードは戻さない)したとき,「v」と書かれたカードがa枚になる確率はどのくらいだろうか? 実際には,「単語wを含む文書に含まれていた」という条件でカードを選別して,(a+b)枚のカードを選んだ訳であるが…

問題の確率を求める

超幾何分布の解釈 「フィッシャーの直接確率検定」もしくは「フィッシャーの正確確率検定」と呼ばれるものと同じ 値は確率なので,小さいほどvが特異に出現することを示す カイ二乗検定と異なり,観測変数の独立性さえ保障されていれば,どんな分布で発生する事象にも適用できる 問題点: a枚のカードが特異に多かったのか,少なかったのか区別できない 両方とも求まる確率pが   非常に小さくなる

HGSの定義 (a+b)枚のカードを無作為に非復元抽出(取り出したカードは戻さない)したとき,「v」と書かれたカードがa枚以上になる確率の対数

和をとる必然性? 筆者は,「a枚のカードが特異に多かったのか,少なかったのか区別できない」ため,和を取っているが,以下の判別式を用いれば済むはず

超幾何分布を高速に計算する 対数を取って積和変換を行う Stirlingの近似式を使って階乗を計算する

評価方法 1998年の日経新聞の中から以下のクエリでDwを作成 エリツィン (947), オリンピック (934), オウム (265), AIDS (202), イントラネット (152), プリペイドカード (126), オゾン (52), テポドン (50) それぞれの部分文書集合に含まれる語を正例 (P), 負例 (N), どちらにも属さない (U)に手作業で分類する P: D(w)&D(v)がwに関する特定のトピックの文書集合であり,かつvがそのトピックの中心的役割を果たす N: D(w)&D(v)の中で,vとwはたまたま共起しているか,ストップワードに指定すべき語(例えば「する」「持つ」など)の場合 それぞれの手法が抽出した上位50語を評価する

正例を認識できた数

負例を認識してしまった数

正例の認識数ー負例の認識数

各指標を用いたときの順位相関 高い相関: tf*idfとSMART; tfとtf*idf HGSはtfとの相関が低く,tf*idfともそれほど似ていない

結論 CSよりもCS2の方が良い性能を示した HGSはCS2と同程度か,よい性能を示した Recallを同程度になるように閾値を設定した場合,precisionはHGSの方が2倍くらい良い 試したクエリー語に対しては,性能が安定している