Paper from PVLDB vol.7 (To appear in VLDB 2014)

Slides:



Advertisements
Similar presentations
利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
Advertisements

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
データ解析
3.2.3~3.3 D3 川原 純.
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
セキュアネットワーク符号化構成法に関する研究
ラベル付き区間グラフを列挙するBDDとその応用
秘匿積集合プロトコルの 推薦システムへの応用
秘密のリンク構造を持つグラフのリンク解析
第1回レポートの課題 6月15日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
from KDD 2012 speaker: Kazuhiro Inaba
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
Yushi Yoshida Faculty of Economics Kyushu Sangyo University
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
5.5 The Linear Arboricity of Graphs (グラフの線形樹化数)
Selfish routing 川原 純.
Yuri Y. Boykov Marie-Pierre Jolly
川口真司 松下誠 井上克郎 大阪大学大学院情報科学研究科
7-3.高度な木 (平衡木) AVL木 平衡2分木。回転操作に基づくバランス回復機構により平衡を保つ。 B木
Semantic Web 輪読会 2005年12月20日 濱崎雅弘 産業技術総合研究所
P4-21 ネットワーク上の経路に対する 回帰問題について
シャノンのスイッチングゲームにおけるペアリング戦略について
点素パス問題に対するアルゴリズム 小林 佑輔 東京大学 大学院情報理工学系研究科 組合せ最適化セミナー 2012 年 7月 13日
コードクローンに含まれるメソッド呼び出しの 変更度合の分析
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
2. 論理ゲート と ブール代数 五島 正裕.
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
Speaker: Kazuhiro Inaba
ディジタル回路 2. ブール代数 と 論理ゲート 五島 正裕.
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
形式言語とオートマトン Formal Languages and Automata 第4日目
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
ソフトウェア部品分類手法への コンポーネントランク法の応用
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
「R入門」  5.7 行列に対する諸機能  10月23日 (木) 発表者 大城亜里沙.
独立成分分析 (ICA:Independent Component Analysis )
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
論文紹介 - Solving NP Complete Problems Using P Systems with Active Membranes 2004/10/20(Wed)
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
適応的近傍を持つ シミュレーテッドアニーリングの性能
Term paper, report (2nd, final)
Periodic solution of van der Pol differential equation.
14. The Basic Method M1 太田圭亮 14.3 Spaces of polynomials
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
Lecture 8 Applications: Direct Product Theorems
Conflict of Interest disclosure slide A potential conflict of interest exists when there is involvement between the speaker/presenter with any for-profit.
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
行列式 方程式の解 Cramerの公式 余因数展開.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
This slide was a material for the “Reading PLDI Papers (PLDIr)” study group written by Kazuhiro Inaba ( ), under my own understanding of.
Max Cut and the Smallest Eigenvalue 論文紹介
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
7.8 Kim-Vu Polynomial Concentration
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
行列 一次変換,とくに直交変換.
Amicus: A Group Abstraction for Mobile Group Communications
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
Term paper, report (2nd, final)
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
Jan 2015 Speaker: Kazuhiro Inaba
Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
慶應義塾大学 政策・メディア研究科 修士課程 2年 間 博人
点素パス問題に対するアルゴリズム 小林 佑輔 東京大学 大学院情報理工学系研究科 組合せ最適化セミナー 2012 年 7月 13日
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
Presentation transcript:

Paper from PVLDB vol.7 (To appear in VLDB 2014) Reading Paper from PVLDB vol.7 (To appear in VLDB 2014) ERATO Seminar 2013/11/28 Presenter: Kazuhiro Inaba

論文概要 SimRank [Jeh and Widom 2002] を (similarity の評価尺度として) 改良した SimRank* を提案する 計算速度も速い

おさらい: SimRank I(v) = {u | u → v} C = 0.6 ~ 0.8 「似ているノードからリンクされているノード は似ている」

SimRank (別の書き方) Sab = s(a, b) Qab = 1 / |I(a)| if b→a or 0 otherwise ※発表中に、この式は会議論文レベルでもよく流布している間違い ((1-C)を一律に足すのでは対角成分が1に戻らない)という突込み がありました あるいは Sab = s(a, b) Qab = 1 / |I(a)| if b→a or 0 otherwise

SimRank の何が不満なのか? と は “似ていない”

つまり Theorem 1 For any two nodes a and b in G, s(a, b) = 0 if there does not exist a node c that has directed paths c k a and c k b of the same length. C4

“Zero-Similarity” Node-Pair のうち dissymmetric source を持つものの割合

SimRank g-SimRank* (提案手法1) e-SimRank* (提案手法2)

SimRank* 長さの違うパス (α と l – α) にも非0重み 二項係数なので長さが近いほど重要 1 1 1 1 2 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 / 1 / 2 / 4 / 8 / 16

類似度の質に関する実験 (1) “Ground Truth” との比較 Citation Coauthorship in {SIGMOD,PODS,VLDB,ICDE,SIGKDD,SIGIR,WWW}

類似度の質に関する実験 (2) 類似ペアがどこまで「似ている」か 引用数の差 H-indexの差 似ている論文ペア 似ている著者ペア

引用数 / H-index の順でノードを10グループに分類 類似度の質に関する実験 (3) グループ間平均類似度 グループ外との 平均類似度 引用数 / H-index の順でノードを10グループに分類

SimRank* の計算手法

定理 (g-SimRank*) iff 証明: 確認してみればわかる。

SimRank g-SimRank*

SimRank 行列乗算が2回 (Q・S・QT) g-SimRank* 行列乗算が1回 (S^ は対称なので一方は他方の転置)

Σ さらに効率的な計算 ΣI(b) を直接計算するのではなく、 部分集合 Δ に分割して計算。 ・・・ Σ ⊍Δ = I(b) ΣI(b) を直接計算するのではなく、 部分集合 Δ に分割して計算。 I(a), I(b), ... で共通する部分のΣは再利用

さらに効率的な計算 元のグラフの二部グラフ表現を圧縮する T = B = V (元のグラフのノード集合) vT  uB iff v→u ∈ E 部分完全二部グラフを 見つけて、置き換える Δi = I(vi) として Σの計算を再利用

速度実験 Subsets of DBLP Web Cite 提案手法 (メモ化) 提案手法 (naive) SimRank (メモ化) (特異値分解)

メモリ使用量の実験

まとめ SimRank* という類似度尺度を提案 疑問点 Out-Link を使った手法 (P-Rank 等) との 組み合わせは可能か? H-index や 引用数ではなく、内容に関する 類似度と比較しての評価は? SimRank と SimRank* のハイブリッドの用な計算は可能か? (リンクの種類による切替)