Speaker: Kazuhiro Inaba

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
「わかりやすいパターン認識」 第1章:パターン認識とは
Pose Tracking from Natural Features on Mobile Phones
ラベル付き区間グラフを列挙するBDDとその応用
秘密のリンク構造を持つグラフのリンク解析
Scalable Collaborative Filtering Using Cluster-based Smoothing
    有限幾何学        第8回.
Problem G : Entangled Tree
from KDD 2012 speaker: Kazuhiro Inaba
中間発表用スライド 田中健太.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Paper from PVLDB vol.7 (To appear in VLDB 2014)
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
Fuzzy c-Means法による クラスター分析に関する研究
Deep Learningを用いたタンパク質のコンタクト残基予測
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
決定木とランダムフォレスト 和田 俊和.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
形式言語とオートマトン Formal Languages and Automata 第4日目
Online Decoding of Markov Models under Latency Constraints
第14章 モデルの結合 修士2年 山川佳洋.
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
The Web as a graph 末次 寛之 清水 伸明.
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
Anja von Heydebreck et al. 発表:上嶋裕樹
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Data Clustering: A Review
複数特徴量の重み付け統合による一般物体認識
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Data Clustering: A Review
ソフトウェアプロダクト集合に対する 派生関係木の構築
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
Data Clustering: A Review
5.3, 5.4 D2 岡本 和也.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ベイズ音声合成における 事前分布とモデル構造の話者間共有
メソッドの同時更新履歴を用いたクラスの機能別分類法
情報工学概論 (アルゴリズムとデータ構造)
パターン認識特論 ADA Boosting.
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
Locally-Weighted Partial Least Squares LWPLS 局所PLS
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
パターン認識特論 ADA Boosting.
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Webページタイプによるクラスタ リングを用いた検索支援システム
Jan 2015 Speaker: Kazuhiro Inaba
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015
識別子の読解を目的とした名詞辞書の作成方法の一試案
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Speaker: Kazuhiro Inaba Reading: from EDBT/ICDT 2014 Speaker: Kazuhiro Inaba

What the Paper is About? Influence Maximization ソーシャルグラフ上を口コミで情報が 伝搬していく。できるだけ大勢に情報を 広める発信源 “seed set” を求めたい Topic-aware 情報の伝わる確率が話題ごとに異なる Online 次々と違う話題の情報が飛んでくるので、 その都度、よい seed set を、あらかじめ用意しておいた前計算を使って一瞬で求める

Independent Cascade (IC) ModEL [Kempe, Kleinberg, and Tardos; KDD 2003] 有向辺 u  v それぞれに 確率 pu,v が割り当てられている 0.8 0.8 0.8 0.9 0.9 0.9 0.5 0.5 0.5 0.1 0.1 0.1 u が情報を最初に知った直後のターン (1回だけ)に隣接する v に確率 pu,v で 情報が伝わる

Topic-Aware IC (TIC) Model Z 個の Topic がある。 伝わる情報 (論文中では Item) はZ次元ベクトル γ = (γ1, γ2, ..., γZ) where 0≦γk ≦1, Σγk = 1 各辺にZ個の確率 (p1u,v , ..., pZu,v) を割当て 確率 Σ γk pku,v で情報が伝わる

some notes on Topic-Aware IC (TIC) Model Item を1つに固定すると IC-model に一致 実験では Z = 10. 映画レビューSNSで実験 例: Topic = {1:ホラー, 2:恋愛, 3:SF} γ = (0.0, 0.8, 0.2) (少しSF色のあるロマンス) pu,v = (0.9, 0.0, 0.4) (vさんはuさんの恋愛映画を見る目を全く信用していない) 確率 Σ γk pku,v で情報が伝わる

Problem 前もって1つ与えられる入力: グラフ (V, E, p) γ1 index γ2 γ3 Graph 実験では |V|~30k, |E|~400k あらかじめ index を 構築しておくことで γ1 seed set for γ1 index γ2 seed set for γ2 γ3 seed set for γ3 実験では |seed|≦50 リアルタイムに与えられる Item γ に対し 影響力の大きい seed set を即座に返したい

Problem? 「Item を1つに固定すると IC-model に一致」 Topic のことを忘れて、毎回 IC-model での影響最大化の既存アルゴリズムを実行すれば良いのでは? 遅い。論文での比較対象は CELF++ [Goyal et al. WWW’11] で、数日かかる [Ohsaka et al. AAAI’14] [Tang et al. SIGMOD’14] などと比べると どうでしょうか

Overview of the Approach 確率のついたグラフ (V, E, p) が与えられる h 個の Item を代表点として選ぶ (実験では h = 1000) 各代表点について、あらかじめ seed list を 既存の IC-model 用オフラインアルゴリズムで 計算しておく (実験では CELF++) クエリ γ が与えられる γ に近い代表点をいくつか (10個) 取り出す それぞれの代表点でのSeed Listを巧く混ぜる

1. Index Points 元のデータセットに 含まれている Item (レビューされた映画) から学習した Dirichlet分布で したものを KL-divergence で K-means++ で h 個にクラスタリング

2. Precompute Index Point H = {γ1, ..., γh} のそれぞれについて、 IC model での既存手法で L (= 50) ノードの seed list を計算 τ1=[v1,1, v1,2, ..., v1,L] Σ γ1kpk ・・・ (CELF++ を使用。 実験に使った述べ時間: 平均60時間 × h) (p1, ..., pZ) τ2=[vh,1, vh,2, ..., vh,L] Σ γhkpk

Overview of the Approach 確率のついたグラフ (V, E, p) が与えられる h 個の Item を代表点として選ぶ (実験では h = 1000) 各代表点について、あらかじめ seed list を 既存の IC-model 用オフラインアルゴリズムで 計算しておく (実験では CELF++) クエリ γ が与えられる γ に近い代表点をいくつか (10個) 取り出す それぞれの代表点でのSeed Listを巧く混ぜる

3. Search in Index 新しくアイテム γ が与えられたときに、 Index Point 集合 H から γ に近い点を いくつか取り出す γ γ

3. Search in Index: HOW Index集合を、KL-divergenceで定義された ballで繰り返し分割して、tree状に保持 (“Bregman ball tree”)

3. Search in Index: Heuristics (How to search 10 neighbors from the tree index?) Approximate K-NN: leafを5個訪れたら探索打ち切り Anderson-Darling test: 含まれているIndex Pointに対しクエリ γ を統計的に検定し、妥当ならそこで探索打ち切り Selection: Rankを混ぜるときにKL-divergenceを正規化した重み付きで混ぜるので、重み0.5% INFLEX (提案手法): 3つすべて

3. Search in Index: Heuristics (How to search 10 neighbors from the tree index?) Seed list の質 (0 = CELF++と一致) 計算時間

4. Rank Aggregation h個の Index point から得られたノードのラン キング (0≦w≦1 の重み付き) を混ぜる (w1, [v1,1, v1,2, ..., v1,L ]) ... (wh, [vh,1, vh,2, ..., vh,L ])

4. Rank Aggregation Weighted Copeland score Copelandw(v) = Σv’ Σj {wj | τj (v) < τj (v’)} where τj(v) := Index Point j の seed list での v の順位 の高い順に並べる

Experimental Settings Flixster (映画レビューSNS) dataset 30k users, 425k social links, 12k movies “User u rated Item m on Time t” 形式のログ 著者らが ICDM’12 で提案した手法で、 Topic数 Z (= 10) を決め打って 各link の p と 各movieの γ を推測したデータを用いる。

FINAL Result