Jan 2015 Speaker: Kazuhiro Inaba

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
ユーザーイメージ収集 インターフェイスの開発
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
「わかりやすいパターン認識」 第1章:パターン認識とは
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
統計学 11/13(月) 担当:鈴木智也.
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
伝播速度限定モデル Scale Free Network 上 の情報拡散 日本大学文理学部 情報システム解析学科 谷聖一研究室 古池 琢也
from KDD 2012 speaker: Kazuhiro Inaba
経済統計 第三回 5/1 Business Statistics
AllReduce アルゴリズムによる QR 分解の精度について
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
An Analysis of Social Network-Based Sybil Defenses
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
Paper from PVLDB vol.7 (To appear in VLDB 2014)
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
統計学 11/19(月) 担当:鈴木智也.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ランダムプロジェクションを用いた 音声特徴量変換
A path to combinatorics 第6章前半(最初-Ex6.5)
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
PlanetLab における 効率的な近隣サーバ選択法
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
Speaker: Kazuhiro Inaba
正規分布確率密度関数.
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
Online Decoding of Markov Models under Latency Constraints
ソフトウェア部品分類手法への コンポーネントランク法の応用
Probabilistic Method 2007/11/02 岩間研究室M1 市場孝之.
7.4 Two General Settings D3 杉原堅也.
WWW上の効率的な ハブ探索法の提案と実装
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第3回 アルゴリズムと計算量 2019/2/24.
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
25. Randomized Algorithms
計測工学 -誤差、演習問題 計測工学(第6回) 2009年5月26日 Ⅱ限目.
計算量理論輪講 chap5-3 M1 高井唯史.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
生命情報学特論 (8)複雑ネットワークと制御理論
ベイズ・アプローチによる グラフィカル・テスト理論
ガウシアン確率伝搬法の 近似精度に対する理論解析
Number of random matrices
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ベイズ最適化 Bayesian Optimization BO
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
Data Clustering: A Review
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
HMM音声合成における 変分ベイズ法に基づく線形回帰
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
高次元データにおける2次形式の近似について
藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科
Max Cut and the Smallest Eigenvalue 論文紹介
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
7.8 Kim-Vu Polynomial Concentration
分枝カット法に基づいた線形符号の復号法に関する一考察
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
統計現象 高嶋 隆一 6/26/2019.
Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
Presentation transcript:

Jan 2015 Speaker: Kazuhiro Inaba Paper Reading (from ICDM ’14) Jan 2015 Speaker: Kazuhiro Inaba

内容 Social graph から Top-k high in-degree nodes を Sublinear time で 見つける

より具体的な問題設定 (1) Twitter の人気ユーザを知りたい しかし Twitter API には回数制限が! 頂点数≃1.5G より遙かに少ない API 呼出で、人気ユーザを割り出したい

より具体的な問題設定 (2) できること ユーザを uniformly random に選ぶ API呼出1回で、ユーザ1人の入次数を得る (※仮定: 5000 ≫ ほとんどのユーザの出次数)

提案手法 (n1+n2回のAPI呼出でn2個の<頂点,次数>対を返す) そこから多く指されている n2 個の頂点について 全体からの入次数を取得。 (Top-K が欲しければここからK個取る)

実験 実際に Twitter に対して n1 + n2 = 1000 回APIを呼んで実験 “Ground Truth” との近さで評価 Fraction: 真の Top-K のうち何割を見つけられたか First-Error Index: 見つけたn2個から漏れた最上位

実験: “Ground Truth” Twitter社は公開していない twittercounter.com という第三者サービスを参照しようとした

“Ground Truth” Twitter社は公開していない twittercounter.com という第三者サービスを参照しようとした   !!!しかし!!! 提案手法 [n1=n2=20,000] の方が精度がよかった  [n1=n2=500,000] をGround Truthとして使用

Twitterでの実験結果 (Fraction)

Twitterでの実験結果 (First-Error)

他の手法との比較 (Top-100; Fraction)

その他の応用 提案手法は「フォローする側」と 「される側」が分かれている場合でも そのまま適用可能 例:SNSで人気のある “グループ” は? ロシアのSNS VK.com (~200M users) で実験。(n1=700, n2=300) で top-100 の73.2%を発見

解析 n1 と n2 の最適なバランスは? n = n1 + n2 をどのくらい増やせば 十分な精度が得られる?

n1 と n2 の最適なバランスは? = “n1 に比べてあまり n2 を大きくしても意味がない” 証明: そもそもfirst stageで 平均次数×n1 頂点くらいしか選ばれないので。

どのくらい増やせば十分な精度? “この不等式が 成り立つように n1, n2 を取れば 確率 1-ε で 第k位のノードが 出力に含まれる” where Pk(n1) := 真の第k位ノードが選ばれる確率 z1-ε := 平均0分散1の正規分布の(1-ε)-quantile γ := Scale free 性を仮定。べき分布の指数(の逆数) Fk := InDeg(k) ∝ k-γ 例: n2=300, k=100, ε=10%, Twitter に対して計算すると n1≧1300

Pk(n1, n2) = P[Sk ≧ S†n2] ≅ P[Sk ≧ Sn2] ≅ P[二項分布(n1, Fk/N) ≧ 二項分布(n1, Fn2/N)] ≅ P[正規分布(n1Fk/N, n1Fk/N(1-Fk/N)) ≧ 正規分布(...)] ≅ P[正規分布(n1Fk/N, n1Fk/N) ≧ 正規分布(...)] = P[正規分布(n1(Fk- Fn2)/N, n1(Fk+ Fn2)/N) ≧ 0] = P[正規分布(√(n1/N)・(Fk- Fn2)/√(Fk+ Fn2), 1) ≧ 0] Pk := 第k位のノードが出力に入る確率 Sk := 第k位のノードの得票数。二項分布になる Fk := 第k位のノード入次数 正規分布で近似 正規分布の差 分散を1に

n1 と n2 の最適なバランスは? 証明: さきほど導出した Pk の近似式を元に頑張って計算。

どのくらい増やせば十分な精度? 証明: 計算。

まとめ 次数の高いノードを少ないクエリ回数で発見 非常にシンプルなアルゴリズム Extreme Value Theory を用いた解析