ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い

Slides:



Advertisements
Similar presentations
授業展開#12 コンピュータの扱いにくい問 題. 扱いにくい問題  処理時間がかかる。  メモリを大量に必要とする。  プログラムの優劣、アルゴリズムの優劣 を比較するためには、標準的なコン ピュータで比較する必要がある。  処理時間を計るのに、コンピュータのモ デルとして、チューリングマシンを考え、
Advertisements

データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
数理統計学(第四回) 分散の性質と重要な法則
コーパス言語学実践 2006年度2学期 第10回.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
プログラミング論 I 補間
統計学 11/13(月) 担当:鈴木智也.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
確率・統計Ⅱ 第7回.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
統計学 11/19(月) 担当:鈴木智也.
酒井哲郎:海岸工学入門,森北出版 第3章(pp.27-36)
動的ハフマン符号化の例 入力:ABCDEからなる文字列 出力:動的に作ったハフマン木.
9.NP完全問題とNP困難問題.
確率二項分布.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
電磁気学C Electromagnetics C 7/13講義分 電磁波の電気双極子放射 山田 博仁.
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
コンパイラ 2012年10月22日
Topic-Word Selection Based on Combinatorial Probability
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
コンパイラ 2011年10月24日
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
原子核物理学 第4講 原子核の液滴模型.
データモデリング Webページの検索とランキング
第4章 組合せ論理回路 (4) Quine McCluskeyの方法.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
黒体輻射とプランクの輻射式 1. プランクの輻射式  2. エネルギー量子 プランクの定数(作用量子)h 3. 光量子 4. 固体の比熱.
述語論理と∀(全称)∃(存在) 3回の講義の概観: 命題論理 (真理値) (公理と推論規則) 述語論理 (モデルと解釈)
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
黒体輻射 1. 黒体輻射 2. StefanのT4法則、 Wienの変位測 3. Rayleigh-Jeansの式
Basic Tools B4  八田 直樹.
ランダムグラフ エルデシュとレーニイによって研究された.→ER-model p:辺連結確率 N:ノード総数 分布:
知識情報演習Ⅲ(後半第3回) 辻 慶太
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
面積の単位(㎠/㎡/a/ha/㎢) 1㎡ 1a 1ha 1k㎡ ㎡ 10000㎡ 100㎡ 10000a 100a 100ha
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
 型推論1(単相型) 2007.
様々な情報源(4章).
知識情報演習Ⅲ(後半第3回) 辻 慶太
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
Data Clustering: A Review
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
構造的類似性を持つ半構造化文書における頻度分析
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
α decay of nucleus and Gamow penetration factor ~原子核のα崩壊とGamowの透過因子~
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
第2章 統計データの記述 データについての理解 度数分布表の作成.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い 語を使用頻度f の大きい順に並べたときの順位をr とすると, f× r = 一定値 Zipfの第2法則:文章L において使用頻度f の異なり語の 数をk とすると、 k× f2 ≈(L に依存する定数) L がこの式に関与している理由は,文章が長くなれば使用語彙数が増えるなどという文章依存性を表すため 情報検索のキーワードになるタームとしては、頻度が少な過ぎもせず、多過ぎもしない中程度の頻度の語彙を選べばよい

Poisson分布 文書D を短い間隔でn 個に分割し、そこにあるタームt が出現する確率をp とすると、文書にタームt がx回現れる確率は、二項分布によりB(x; n; p) で近似できる nを大きくすることは文書をより短い間隔に分割することだが、n×p=λ に保てば文書D におけるtの出現回数の期待値はλであり、tがDにx回現れる分布は二項分布の極限形であるPoisson分布になる。

タームtの出現する文書数の期待値すなわちdocument frequency : df = N(1-p(0;λ)) これを補うのが2重Poisson分布

2重Poisson分布  λ1 > λ2 インデクスになりうる高頻度のクラスと、インデクスにはなりにくい低頻度のクラスにタームを分けることを意味する。

K混合分布 df は文書集合中でタームt の現れる文書数、N は文書集合中の全文書数、cf は文書集合の全文書でタームt の出現回数 λ= cf⁄N    β=cf⁄df -1, α=λ⁄β =df/N×cf/(cf-df) タームt が文書にk 回出現する確率Pt(k) がK 混合分布(K mixture) では次式で表される。

タームt が文書にK回出現する確率Pt(k) がK 混合分布(K mixture)                          if K>1 β は、文書中に同じタームが1 回より多く出現する頻度である。よって、 β= 0 すなわち、cf = df すなわち、どの文書にも1 回しか現れないタームは、Pt(k) =0 when k > 1となる。

文書中に多数回出現するタームt の場合は、 βが大きくなり、その結果Pt(K) がK が大きくなってもなかなか減少しないということになる。 これらのことは、直観にあっている。実際、文書の意味内容に直結しないタームではよい近似である。しかし、文書の中心的概念を表すタームは、式 よりは減少の度合が小さいという観測結果がある。