Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents Tomoharu Iwata, Takeshi Yamada ,Naonori Ueda @NTT CS研 ,KDD 2008 11/6.

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
電子情報工学科5年(前期) 7回目(21/5/2015) 担当:古山彰一
Pattern Recognition and Machine Learning 1.5 決定理論
論文紹介 “Data Spectroscopy: Learning mixture models using eigenspaces of convolution operators” (ICML 2008) ─ by Tao Shi, Mikhail Belkin, and Bin Yu IBM東京基礎研究所.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
A Stochastic approximation method for inference in probabilistic graphical models 機械学習勉強会 2010/05/20 森井正覚.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
ベイズ的ロジスティックモデル に関する研究
IT入門B2 ー 連立一次方程式 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
サポートベクターマシン によるパターン認識
東京大学大学院情報理工学系研究科 Y.Sawa
ニューラルネットは、いつ、なぜ、どのようにして役立つか?
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
決定木とランダムフォレスト 和田 俊和.
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
訓練データとテストデータが 異なる分布に従う場合の学習
「R入門」  5.7 行列に対する諸機能  10月23日 (木) 発表者 大城亜里沙.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
知能システム論I(13) 行列の演算と応用(Matrix) 2008.7.8.
主成分分析 Principal Component Analysis PCA
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Nightmare at Test Time: Robust Learning by Feature Deletion
第2回課題 配布した通り.氏名・学生番号を忘れないこと.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
B03 量子論理回路の 最適化に関する研究 西野哲朗,垂井淳,太田和夫,國廣昇 電気通信大学 情報通信工学科.
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
Max Cut and the Smallest Eigenvalue 論文紹介
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
データ解析 静岡大学工学部 安藤和敏
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
実験計画法 Design of Experiments (DoE)
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
AAMと回帰分析による視線、顔方向同時推定
逆運動学(Inverse Kinematics) 2007.5.15
空間図形の取り扱いについて.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents Tomoharu Iwata, Takeshi Yamada ,Naonori Ueda @NTT CS研 ,KDD 2008 11/6 機械学習勉強会  江原 遥 Visualizationを 長年やっている方 (それ以外もたくさん・・・)

Visuzalizationという分野がある 「自然言語処理は地味で学生に人気がない! もっとVisualにすれば人気が出るはずだ!」 荒牧さん@NLP若手の会 この論文が、まさしくこれをやってくれています。 企業でありそうな話: 「言語の研究室にいたんだから、このアンケート、なんかいい感じに処理しといてよ」と、製品アンケートのデータの山を渡される。 →ここで拗ねずに、真面目に定式化したのがこの論文

どういう論文? PLSAをVisualization用に拡張した論文。 「同じようなトピックの文書が近くになる様に、文書を2,3次元にプロットする」のが、この論文の目的。

今日の説明の構成 今日は、 LSA→PLSA→LDA→PLSV という流れで説明していきます。分かっている方は、フォローしていただけるとありがたいです。

パラメータ数による比較 K: topicの数 V: 語彙数 N: 文書数 D: 2次元か3次元(Visuzalization用) モデル 効率的な解法 LSA (KV+KN) SVD (Lanczos法) PLSA KV+KN EM Nが入っているのでoverfitしやすい LDA KV+K 変分ベイズ 問題のNを消した PLSV KV+(K+N)D Dが小さい時、Nを抑えられる K: topicの数 V: 語彙数 N: 文書数 D: 2次元か3次元(Visuzalization用)

LSA (SVD, 特異値分解) という書き方が一般的ですが・・・ 実は、こうバラして書いたほうがずっとわかりやすいと思う:

SVDのイメージ \ \ \ \ N (元の行列) =

特異値分解はバラした方がよくわかる

べき乗法

SVDの求め方 Sparse Matrix: べき乗法 →Lanczos法 Dense Matrix: LSIのライブラリはほとんどコレでやっている。 HITSアルゴリズムやる時にも使う Dense Matrix: dq-ds法など最近新しい専用のがあるらしい

NNの固有値分解

LSA->PLSA

LSA->PLSA(2) LSAとPLSAだと解き方が全然違うのに、PLSAがLSAの拡張ということになっているのは、次の式による: 直行行列でない

LSA->PLSA(2) Aspect Modelの行列表記 ふつうは、行列表記すると分からなくなるので、みんなバラして(分解して)書いている。 (LSAの時は、みんなカッコつけてバラさないのに・・・)

PLSAのイメージ \ \ \ \ P (元の行列) =

PLSAはGraphical Modelで、 二通りにかける (a)と(b)は、モデル的に等価。 つまり、(b)でパラメータを推定したら、ベイズの定理でひっくり返すだけで、(a)のパラメータが求まる。 ただし、解く時は、(b)に対してEM-algorithmを使って解く。

bleiの元論文では (a)の形でPLSAが書いてある Hoffmann ‘99 blei 04

PLSAの解き方:EM P(潜在変数|データ)が計算できる ことが、EMの要。

PLSIからLDAにしたい動機: パラメータ数 PLSI: KV+KN個のパラメータ:文書数Nに線形 LDA: KV+K個のパラメータ:

PLSA->LDA K次元x1 K次元x文書数 θm: topic proportion。文書中のtopicの比率。K(topic数)次元ベクトル PLSI:文書数だけtopic proportionを作成→パラメタKN個, overfit LDA:overfit対策でDirichlet分布からサンプルしてα1…αKのK個に K次元x1 K次元x文書数

LDAだとEMが動かない 赤枠:EMが動かない intractable due to the coupling between θ and β1:K in the summation over latent topics EMは動かない。普通は、MCMC, 変分ベイズ….

PLSV

PLSV 目的:D=2,3次元のユークリッド空間に、ドキュメントを、「なるべくトピックの近いドキュメントが近くになるように」プロットすること (-3.1, 3) トピックの座標 文書の座標 トピックはK個>>D次元に注意

PLSV K

KN >> DN+DKが、この論文のキモ PLSA -> PLSV θm: topic proportion。文書中のtopicの比率。K次元ベクトル。 PLSA:文書数だけtopic proportionを作成→パラメタKN個, overfit PLSV:文書数だけD次元座標を作成。topicもD次元座標で表現。 D次元空間のtopic-文書の距離でtopic proportion決定。DN+DK個 KN >> DN+DKが、この論文のキモ D次元x文書数 K D次元xK 注:論文中ではKが Z(large Z)に相当 K次元x文書数

LDAとも比べてみる D次元x文書数 D次元xK K次元x1 θm: topic proportion。文書中のtopicの比率。K(topic数)次元ベクトル LDA:overfit対策でDirichlet分布からサンプルしてα1…αKのK個に PLSV:文書数だけD次元座標を作成。topicもD次元座標で表現。 D次元空間のtopic-文書の距離でtopic proportion決定。DN+DK個 D次元x文書数 K D次元xK K次元x1 注:論文中ではKが Z(large Z)に相当

topicやwordがmultinomialで出てくるのは普通 K

Dirichlet分布が出てくるけど、Bayesじゃないから、EMで解ける

PLSVの解き方 posteriorをEMでMAP推定 事後対数尤度: E-step 単にMult.

M-step Q関数を 最大化したい θに関してはexactに出る: xとφに関しては、gradient求めて準ニュートン法 θとxn,φzを交互に最大化?

Parametric Embedding (PE) 筆者が過去に提案した、一般の文書生成モデルをVisualizeする方法。PLSAをPEで表示するよりもPLSVの方が、良いVisuzalizationが可能だ、ということを言いたいので導入。 ←与える文書生成モデルでのtopic proportion。入力。 PLSAなら、P(z|d) = P(d,z)/(Σk P(d|z)P(z)) 与えた文書生成モデルとtopic proportionが似ている座標の取り方をKL最小化で見つける gradient-basedで最適化: (たぶんBFGS?):

評価 データセット3つ:NIPS, 20News, EachMovie NIPS: 593 documents, 14036 vocabulary 13research areas 20News data: 20 newsgroups 20,000 articles, 6754 vocabulary 20 discussion group EachMovie: Collaborative filteringの標準的なbenchmark data movies→documents, users→wordsと読み変え 764 movies, 7180 users, 10genres

k-NN Accuracy Visualization空間でk-nearest neighborして Visuzalizationの精度を求める :k-NNを使った時のx_nのlabelの予測値

ご清聴ありがとうございました