Download presentation
Presentation is loading. Please wait.
Published by予 向 Modified 約 7 年前
1
Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents Tomoharu Iwata, Takeshi Yamada ,Naonori CS研 ,KDD 2008 11/6 機械学習勉強会 江原 遥 Visualizationを 長年やっている方 (それ以外もたくさん・・・)
2
Visuzalizationという分野がある
「自然言語処理は地味で学生に人気がない! もっとVisualにすれば人気が出るはずだ!」 この論文が、まさしくこれをやってくれています。 企業でありそうな話: 「言語の研究室にいたんだから、このアンケート、なんかいい感じに処理しといてよ」と、製品アンケートのデータの山を渡される。 →ここで拗ねずに、真面目に定式化したのがこの論文
3
どういう論文? PLSAをVisualization用に拡張した論文。
「同じようなトピックの文書が近くになる様に、文書を2,3次元にプロットする」のが、この論文の目的。
4
今日の説明の構成 今日は、 LSA→PLSA→LDA→PLSV という流れで説明していきます。分かっている方は、フォローしていただけるとありがたいです。
5
パラメータ数による比較 K: topicの数 V: 語彙数 N: 文書数 D: 2次元か3次元(Visuzalization用) モデル
効率的な解法 LSA (KV+KN) SVD (Lanczos法) PLSA KV+KN EM Nが入っているのでoverfitしやすい LDA KV+K 変分ベイズ 問題のNを消した PLSV KV+(K+N)D Dが小さい時、Nを抑えられる K: topicの数 V: 語彙数 N: 文書数 D: 2次元か3次元(Visuzalization用)
6
LSA (SVD, 特異値分解) という書き方が一般的ですが・・・ 実は、こうバラして書いたほうがずっとわかりやすいと思う:
7
SVDのイメージ \ \ \ \ N (元の行列) =
8
特異値分解はバラした方がよくわかる
9
べき乗法
10
SVDの求め方 Sparse Matrix: べき乗法 →Lanczos法 Dense Matrix:
LSIのライブラリはほとんどコレでやっている。 HITSアルゴリズムやる時にも使う Dense Matrix: dq-ds法など最近新しい専用のがあるらしい
11
NNの固有値分解
12
LSA->PLSA
13
LSA->PLSA(2) LSAとPLSAだと解き方が全然違うのに、PLSAがLSAの拡張ということになっているのは、次の式による:
直行行列でない
14
LSA->PLSA(2) Aspect Modelの行列表記
ふつうは、行列表記すると分からなくなるので、みんなバラして(分解して)書いている。 (LSAの時は、みんなカッコつけてバラさないのに・・・)
15
PLSAのイメージ \ \ \ \ P (元の行列) =
16
PLSAはGraphical Modelで、 二通りにかける
(a)と(b)は、モデル的に等価。 つまり、(b)でパラメータを推定したら、ベイズの定理でひっくり返すだけで、(a)のパラメータが求まる。 ただし、解く時は、(b)に対してEM-algorithmを使って解く。
17
bleiの元論文では (a)の形でPLSAが書いてある
Hoffmann ‘99 blei 04
18
PLSAの解き方:EM P(潜在変数|データ)が計算できる ことが、EMの要。
19
PLSIからLDAにしたい動機: パラメータ数
PLSI: KV+KN個のパラメータ:文書数Nに線形 LDA: KV+K個のパラメータ:
20
PLSA->LDA K次元x1 K次元x文書数
θm: topic proportion。文書中のtopicの比率。K(topic数)次元ベクトル PLSI:文書数だけtopic proportionを作成→パラメタKN個, overfit LDA:overfit対策でDirichlet分布からサンプルしてα1…αKのK個に K次元x1 K次元x文書数
21
LDAだとEMが動かない 赤枠:EMが動かない
intractable due to the coupling between θ and β1:K in the summation over latent topics EMは動かない。普通は、MCMC, 変分ベイズ….
22
PLSV
23
PLSV 目的:D=2,3次元のユークリッド空間に、ドキュメントを、「なるべくトピックの近いドキュメントが近くになるように」プロットすること
(-3.1, 3) トピックの座標 文書の座標 トピックはK個>>D次元に注意
24
PLSV K
25
KN >> DN+DKが、この論文のキモ
PLSA -> PLSV θm: topic proportion。文書中のtopicの比率。K次元ベクトル。 PLSA:文書数だけtopic proportionを作成→パラメタKN個, overfit PLSV:文書数だけD次元座標を作成。topicもD次元座標で表現。 D次元空間のtopic-文書の距離でtopic proportion決定。DN+DK個 KN >> DN+DKが、この論文のキモ D次元x文書数 K D次元xK 注:論文中ではKが Z(large Z)に相当 K次元x文書数
26
LDAとも比べてみる D次元x文書数 D次元xK K次元x1
θm: topic proportion。文書中のtopicの比率。K(topic数)次元ベクトル LDA:overfit対策でDirichlet分布からサンプルしてα1…αKのK個に PLSV:文書数だけD次元座標を作成。topicもD次元座標で表現。 D次元空間のtopic-文書の距離でtopic proportion決定。DN+DK個 D次元x文書数 K D次元xK K次元x1 注:論文中ではKが Z(large Z)に相当
27
topicやwordがmultinomialで出てくるのは普通
K
28
Dirichlet分布が出てくるけど、Bayesじゃないから、EMで解ける
29
PLSVの解き方 posteriorをEMでMAP推定
事後対数尤度: E-step 単にMult.
30
M-step Q関数を 最大化したい θに関してはexactに出る: xとφに関しては、gradient求めて準ニュートン法
θとxn,φzを交互に最大化?
31
Parametric Embedding (PE)
筆者が過去に提案した、一般の文書生成モデルをVisualizeする方法。PLSAをPEで表示するよりもPLSVの方が、良いVisuzalizationが可能だ、ということを言いたいので導入。 ←与える文書生成モデルでのtopic proportion。入力。 PLSAなら、P(z|d) = P(d,z)/(Σk P(d|z)P(z)) 与えた文書生成モデルとtopic proportionが似ている座標の取り方をKL最小化で見つける gradient-basedで最適化: (たぶんBFGS?):
32
評価 データセット3つ:NIPS, 20News, EachMovie NIPS: 593 documents, vocabulary 13research areas 20News data: 20 newsgroups 20,000 articles, 6754 vocabulary 20 discussion group EachMovie: Collaborative filteringの標準的なbenchmark data movies→documents, users→wordsと読み変え 764 movies, 7180 users, 10genres
33
k-NN Accuracy Visualization空間でk-nearest neighborして Visuzalizationの精度を求める :k-NNを使った時のx_nのlabelの予測値
43
ご清聴ありがとうございました
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.