Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015

Slides:



Advertisements
Similar presentations
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム( 1 ) スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
Advertisements

統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
Probabilistic Method 7.7
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
数理統計学  第9回 西山.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
数理統計学(第四回) 分散の性質と重要な法則
極小集合被覆を列挙する 実用的高速アルゴリズム
データ構造と アルゴリズム 第十二回 知能情報学部 知能情報学科 新田直也.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
ラベル付き区間グラフを列挙するBDDとその応用
Tomoko Kishi Nanzan University Faridul Islam Utah Valley University
伝播速度限定モデル Scale Free Network 上 の情報拡散 日本大学文理学部 情報システム解析学科 谷聖一研究室 古池 琢也
Scale Free Network 上における 伝播速度限定モデルの情報拡散シミュレーション
from KDD 2012 speaker: Kazuhiro Inaba
Probabilistic Method.
Reed-Solomon 符号と擬似ランダム性
    有限幾何学        第12回.
An Analysis of Social Network-Based Sybil Defenses
Paper from PVLDB vol.7 (To appear in VLDB 2014)
C11: 大量データ処理のための領域効率の良いアルゴリズム
第2章補足Ⅱ 2項分布と正規分布についての補足
Probabilistic Method 6-3,4
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
オルソポジトロニウムの 寿命測定によるQEDの実験的検証
ネットワーク上を拡散する 技術革新のシミュレーション 日本大学文理学部 情報システム解析学科 谷研究室 安藤勇希 帆苅裕貴
5.5 The Linear Arboricity of Graphs (グラフの線形樹化数)
Selfish Routing and the Price of Anarchy 第2回
計算量理論輪講 岩間研究室 照山順一.
電気・通信・電子・情報工学実験D 確率的情報処理の基礎 第3部講義(2007年6月19日,6月26日)
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
論文紹介 Query Incentive Networks
Speaker: Kazuhiro Inaba
正規分布確率密度関数.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
Probabilistic Method 2007/11/02 岩間研究室M1 市場孝之.
7.4 Two General Settings D3 杉原堅也.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
Basic Tools B4  八田 直樹.
ランダムグラフ エルデシュとレーニイによって研究された.→ER-model p:辺連結確率 N:ノード総数 分布:
タンパク質の進化 タンパク質は進化の過程でどのようにドメインを獲得してきたのだろうか? 今のタンパク質を調べることでわからないだろうか?
Extractor D3 川原 純.
25. Randomized Algorithms
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
生命情報学特論 (8)複雑ネットワークと制御理論
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
2016年度 有限幾何学 中間試験 問1 次のグラフを描け.(描けない場合は理由を述べよ) 各20点
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
経営学研究科 M1年 学籍番号 speedster
1:Weak lensing 2:shear 3:高次展開 4:利点 5:問題点
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
停止ストリームの検知 情報工学部 情報工学科 06a2072 山下 雄
Max Cut and the Smallest Eigenvalue 論文紹介
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
プログラミング言語論 第10回 情報工学科 篠埜 功.
7.8 Kim-Vu Polynomial Concentration
九大数理談話会 複雑ネットワークと制御理論
2017年度 有限幾何学 期末試験 注意:ループと多重辺がないグラフのみを扱う. 問1 次の定理と,その証明の概略を読み,各問に答えよ.
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
Jan 2015 Speaker: Kazuhiro Inaba
生命情報学 (8) 生物情報ネットワークの構造解析
生物情報ソフトウェア特論 (10)固定パラメータアルゴリズムと 部分k木
Time Reversal E-Text: pp.80-83(PDF: pp.49-50) FM08002 太神 諭
Presentation transcript:

Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015 Reading: Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015

背景: “Friendship Paradox” [Feld 91] 「Social Network において、 (平均的に見ると) 本人よりも、その友人の方が、友達が多い。」 μ = Σv∈V d(v) / |V| = 2|E| / |V| ≦ Σ(u,v)∈E (d(u)+d(v)) / 2|E| = Σv∈V d(v)2 / 2|E| = Σv∈V d(v)2 / |V| / μ = μ+σ/μ

この論文の内容 Friendship Paradox in a “Strong” sense. 実際のグラフデータで実験 (??) ある自然なモデルにおいて、 |友人の平均次数| / |平均次数| ∈ ω(1) つまりグラフを大きくすると友人との格差が より開く現象が観測できることを示す。 実際のグラフデータで実験 (??) グラフアルゴリズムへの影響・示唆 (??)

Section 3: Misbehaved Power Laws Prop 3.1 次数の冪分布 だけでは asymptotic friendship paradox が成り立たないことがある 証明: 冪指数 β=2 の例を構成。 次数の小さい順に頂点を列挙し、辺を貼っていく 次数 (√N) / 400 までは貪欲に、列挙順が自分に近い頂点と結ぶ 残りは適当に結ぶ ・・・ ・・・ 1 1 1 1 2 2 2 2 【論文を通して用いるメタ変数の定義】 N: 頂点数 M: 辺数 β: べき指数 C: 次数1の頂点の数 (次数 d の頂点の数は C / dβ, 最大次数は C1/β)

Section 4: Single Samples (β < 2) G(β, p) を、次数が冪指数 β の冪分布のグラフの各辺を 小さい確率 p でランダムにつなぎ替えたグラフモデルとする Prop 4.1 1<β<2 なら、G(β,p) のグラフから頂点 v をランダムにとり、 その隣接頂点 u をランダムにとったとき、任意のεに関し、 ある定数以上の確率で d(u)/d(v) ∈ Ω(N(β-1)/β-ε).

Section 4: Single Samples (証明の前半: 乱択した時の次数は高くない) 頂点数 N は C と β に対してこのくらい 辺数 M は C と β に関して よって平均次数が で、Markovの不等式より 確率 1/k で平均次数の k 倍以下のノードに当たる。 ∵ Σ^x i^{1-β} ≃ x^{2-β}

Section 4: Single Samples (証明の後半: 乱択した時の隣人の次数は高い) 次数 K 以上の頂点の個数は とするとこれは 確率 p で rewire された辺が繋がっている次数 K 以上の頂点の個数も よって一定の確率で 隣人の次数 / 本人の次数 という比になる。つまり

Section 4. Single Samples (β>2) Prop 4.2. 2 < β < 3 では、G(β,p) のグラフから頂点 v をランダムにとり、 その隣接頂点 u をランダムにとるとき、ほとんど常に d(u)/d(v) ∈ Ω(1). 違いは: ∫ i1-β = i2-β / (2-β) β<2 のとき β>2 のとき よって K∈ω(1) なら Ad>K ∈ o(N) なので、 ほとんどの点は次数K以上の辺に接していない

Section 5. Poly-Logarithmic Samples Prop 5.2 2 < β < 3 では、G(β,p) のグラフからサイズ log N の 頂点集合 S をランダムにとり、Sの各点からランダムに 隣接点を取った集合を TS とすると、高い確率で d(TS)/d(S) ∈ ω(1). 2 < β の G(β,p) モデルでは、 ・ 1人の人間に関する “Asymptotic” Friendship Paradox は発生しない ・Polylog人の集団を集めてくると発生する

Section 5. Poly-Logarithmic Samples (証明の大雑把な直感) 次数 K = log N 以上の点に接している辺の数は以下の通りで 辺の総数は以下の通りなので K 人集めてくると K Ad>K / M = K3-β 人くらいは 次数>K の隣人が入ると期待される。故に平均次数≧K3-β. (再掲)

Section 6. 実験 実際のネットワークで d(u)/d(v) 比はどうなっているか。 データセット:

Section 6. 実験(平均次数の比) 横軸 = とった サンプルの サイズ 縦軸 = 隣接集合の 平均次数 / サンプルの 平均次数

Section 6. 実験(平均次数の比) 横軸 = とった サンプルの サイズ 縦軸 = とった サンプルの サイズ 縦軸 = 隣接集合の 平均次数 / 隣接集合と 同じサイズの 乱サンプルの 平均次数

Section 6. 実験(友人の友人)

Section 6. 実験(Influence Maximization) (多分 Independent Cascade) 赤線 = 10 random node が seed 青線 = 10 random neighbor が seed

まとめ ランダムにサンプルした頂点よりもその隣接ノードの 平均次数の方が高いことが多い (Friendship Paradox) β < 2 と 2 < β での違い 実験が少ない? 2 < β < 3 の実データ? Asymptotic Behavior の実験的検証?