Presentation is loading. Please wait.

Presentation is loading. Please wait.

ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い

Similar presentations


Presentation on theme: "ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い"— Presentation transcript:

1 ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
語を使用頻度f の大きい順に並べたときの順位をr とすると, f× r = 一定値 Zipfの第2法則:文章L において使用頻度f の異なり語の 数をk とすると、 k× f2 ≈(L に依存する定数) L がこの式に関与している理由は,文章が長くなれば使用語彙数が増えるなどという文章依存性を表すため 情報検索のキーワードになるタームとしては、頻度が少な過ぎもせず、多過ぎもしない中程度の頻度の語彙を選べばよい

2 Poisson分布 文書D を短い間隔でn 個に分割し、そこにあるタームt が出現する確率をp とすると、文書にタームt がx回現れる確率は、二項分布によりB(x; n; p) で近似できる nを大きくすることは文書をより短い間隔に分割することだが、n×p=λ に保てば文書D におけるtの出現回数の期待値はλであり、tがDにx回現れる分布は二項分布の極限形であるPoisson分布になる。

3 タームtの出現する文書数の期待値すなわちdocument frequency : df = N(1-p(0;λ))
これを補うのが2重Poisson分布

4 2重Poisson分布  λ1 > λ2 インデクスになりうる高頻度のクラスと、インデクスにはなりにくい低頻度のクラスにタームを分けることを意味する。

5 K混合分布 df は文書集合中でタームt の現れる文書数、N は文書集合中の全文書数、cf は文書集合の全文書でタームt の出現回数 λ= cf⁄N    β=cf⁄df -1, α=λ⁄β =df/N×cf/(cf-df) タームt が文書にk 回出現する確率Pt(k) がK 混合分布(K mixture) では次式で表される。

6 タームt が文書にK回出現する確率Pt(k) がK 混合分布(K mixture)
                         if K>1 β は、文書中に同じタームが1 回より多く出現する頻度である。よって、 β= 0 すなわち、cf = df すなわち、どの文書にも1 回しか現れないタームは、Pt(k) =0 when k > 1となる。

7 文書中に多数回出現するタームt の場合は、 βが大きくなり、その結果Pt(K) がK が大きくなってもなかなか減少しないということになる。
これらのことは、直観にあっている。実際、文書の意味内容に直結しないタームではよい近似である。しかし、文書の中心的概念を表すタームは、式 よりは減少の度合が小さいという観測結果がある。


Download ppt "ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い"

Similar presentations


Ads by Google