Presentation is loading. Please wait.

Presentation is loading. Please wait.

Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents Tomoharu Iwata, Takeshi Yamada ,Naonori Ueda @NTT CS研 ,KDD 2008 11/6.

Similar presentations


Presentation on theme: "Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents Tomoharu Iwata, Takeshi Yamada ,Naonori Ueda @NTT CS研 ,KDD 2008 11/6."— Presentation transcript:

1 Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents Tomoharu Iwata, Takeshi Yamada ,Naonori CS研 ,KDD 2008 11/6 機械学習勉強会  江原 遥 Visualizationを 長年やっている方 (それ以外もたくさん・・・)

2 Visuzalizationという分野がある
「自然言語処理は地味で学生に人気がない! もっとVisualにすれば人気が出るはずだ!」 この論文が、まさしくこれをやってくれています。 企業でありそうな話: 「言語の研究室にいたんだから、このアンケート、なんかいい感じに処理しといてよ」と、製品アンケートのデータの山を渡される。 →ここで拗ねずに、真面目に定式化したのがこの論文

3 どういう論文? PLSAをVisualization用に拡張した論文。
「同じようなトピックの文書が近くになる様に、文書を2,3次元にプロットする」のが、この論文の目的。

4 今日の説明の構成 今日は、 LSA→PLSA→LDA→PLSV という流れで説明していきます。分かっている方は、フォローしていただけるとありがたいです。

5 パラメータ数による比較 K: topicの数 V: 語彙数 N: 文書数 D: 2次元か3次元(Visuzalization用) モデル
効率的な解法 LSA (KV+KN) SVD (Lanczos法) PLSA KV+KN EM Nが入っているのでoverfitしやすい LDA KV+K 変分ベイズ 問題のNを消した PLSV KV+(K+N)D Dが小さい時、Nを抑えられる K: topicの数 V: 語彙数 N: 文書数 D: 2次元か3次元(Visuzalization用)

6 LSA (SVD, 特異値分解) という書き方が一般的ですが・・・ 実は、こうバラして書いたほうがずっとわかりやすいと思う:

7 SVDのイメージ \ \ \ \ N (元の行列) =

8 特異値分解はバラした方がよくわかる

9 べき乗法

10 SVDの求め方 Sparse Matrix: べき乗法 →Lanczos法 Dense Matrix:
LSIのライブラリはほとんどコレでやっている。 HITSアルゴリズムやる時にも使う Dense Matrix: dq-ds法など最近新しい専用のがあるらしい

11 NNの固有値分解

12 LSA->PLSA

13 LSA->PLSA(2) LSAとPLSAだと解き方が全然違うのに、PLSAがLSAの拡張ということになっているのは、次の式による:
直行行列でない

14 LSA->PLSA(2) Aspect Modelの行列表記
ふつうは、行列表記すると分からなくなるので、みんなバラして(分解して)書いている。 (LSAの時は、みんなカッコつけてバラさないのに・・・)

15 PLSAのイメージ \ \ \ \ P (元の行列) =

16 PLSAはGraphical Modelで、 二通りにかける
(a)と(b)は、モデル的に等価。 つまり、(b)でパラメータを推定したら、ベイズの定理でひっくり返すだけで、(a)のパラメータが求まる。 ただし、解く時は、(b)に対してEM-algorithmを使って解く。

17 bleiの元論文では (a)の形でPLSAが書いてある
Hoffmann ‘99 blei 04

18 PLSAの解き方:EM P(潜在変数|データ)が計算できる ことが、EMの要。

19 PLSIからLDAにしたい動機: パラメータ数
PLSI: KV+KN個のパラメータ:文書数Nに線形 LDA: KV+K個のパラメータ:

20 PLSA->LDA K次元x1 K次元x文書数
θm: topic proportion。文書中のtopicの比率。K(topic数)次元ベクトル PLSI:文書数だけtopic proportionを作成→パラメタKN個, overfit LDA:overfit対策でDirichlet分布からサンプルしてα1…αKのK個に K次元x1 K次元x文書数

21 LDAだとEMが動かない 赤枠:EMが動かない
intractable due to the coupling between θ and β1:K in the summation over latent topics EMは動かない。普通は、MCMC, 変分ベイズ….

22 PLSV

23 PLSV 目的:D=2,3次元のユークリッド空間に、ドキュメントを、「なるべくトピックの近いドキュメントが近くになるように」プロットすること
(-3.1, 3) トピックの座標 文書の座標 トピックはK個>>D次元に注意

24 PLSV K

25 KN >> DN+DKが、この論文のキモ
PLSA -> PLSV θm: topic proportion。文書中のtopicの比率。K次元ベクトル。 PLSA:文書数だけtopic proportionを作成→パラメタKN個, overfit PLSV:文書数だけD次元座標を作成。topicもD次元座標で表現。 D次元空間のtopic-文書の距離でtopic proportion決定。DN+DK個 KN >> DN+DKが、この論文のキモ D次元x文書数 K D次元xK 注:論文中ではKが Z(large Z)に相当 K次元x文書数

26 LDAとも比べてみる D次元x文書数 D次元xK K次元x1
θm: topic proportion。文書中のtopicの比率。K(topic数)次元ベクトル LDA:overfit対策でDirichlet分布からサンプルしてα1…αKのK個に PLSV:文書数だけD次元座標を作成。topicもD次元座標で表現。 D次元空間のtopic-文書の距離でtopic proportion決定。DN+DK個 D次元x文書数 K D次元xK K次元x1 注:論文中ではKが Z(large Z)に相当

27 topicやwordがmultinomialで出てくるのは普通
K

28 Dirichlet分布が出てくるけど、Bayesじゃないから、EMで解ける

29 PLSVの解き方 posteriorをEMでMAP推定
事後対数尤度: E-step 単にMult.

30 M-step Q関数を 最大化したい θに関してはexactに出る: xとφに関しては、gradient求めて準ニュートン法
θとxn,φzを交互に最大化?

31 Parametric Embedding (PE)
筆者が過去に提案した、一般の文書生成モデルをVisualizeする方法。PLSAをPEで表示するよりもPLSVの方が、良いVisuzalizationが可能だ、ということを言いたいので導入。 ←与える文書生成モデルでのtopic proportion。入力。 PLSAなら、P(z|d) = P(d,z)/(Σk P(d|z)P(z)) 与えた文書生成モデルとtopic proportionが似ている座標の取り方をKL最小化で見つける gradient-basedで最適化: (たぶんBFGS?):

32 評価 データセット3つ:NIPS, 20News, EachMovie NIPS: 593 documents, vocabulary 13research areas 20News data: 20 newsgroups 20,000 articles, 6754 vocabulary 20 discussion group EachMovie: Collaborative filteringの標準的なbenchmark data movies→documents, users→wordsと読み変え 764 movies, 7180 users, 10genres

33 k-NN Accuracy Visualization空間でk-nearest neighborして Visuzalizationの精度を求める :k-NNを使った時のx_nのlabelの予測値

34

35

36

37

38

39

40

41

42

43 ご清聴ありがとうございました


Download ppt "Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents Tomoharu Iwata, Takeshi Yamada ,Naonori Ueda @NTT CS研 ,KDD 2008 11/6."

Similar presentations


Ads by Google