統計数理研究所 数学協働プログラム ネットワーク解析入門 静岡大学工学部  守田 智 宇奈月国際会館 2016年3月28日.

Slides:



Advertisements
Similar presentations
相対論的場の理論における 散逸モードの微視的同定 斎藤陽平( KEK ) 共同研究者:藤井宏次、板倉数記、森松治.
Advertisements

集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム( 1 ) スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
データ解析
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ構造と アルゴリズム 第十二回 知能情報学部 知能情報学科 新田直也.
タンパク質相互作用ネットワークの スケールフリーモデル
秘密のリンク構造を持つグラフのリンク解析
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
分布の非正規性を利用した行動遺伝モデル開発
Bassモデルにおける 最尤法を用いたパラメータ推定
ソーシャルネットワーキング リサーチノート
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
Paper from PVLDB vol.7 (To appear in VLDB 2014)
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
ベイズ的ロジスティックモデル に関する研究
線形計画法 スケールフリーネットワーク 須藤 孝秀.
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
オントロジーを使用した プログラム開発支援システムの提案
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
電気・通信・電子・情報工学実験D 確率的情報処理の基礎 第3部講義(2007年6月19日,6月26日)
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
非エルミート 量子力学と局在現象 羽田野 直道 D.R. Nelson (Harvard)
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
正規分布確率密度関数.
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
WWW上の効率的な ハブ探索法の提案と実装
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
数学教育・工学教育における 数式処理電卓の活用
ランダムグラフ エルデシュとレーニイによって研究された.→ER-model p:辺連結確率 N:ノード総数 分布:
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
予測に用いる数学 2004/05/07 ide.
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
主成分分析 Principal Component Analysis PCA
相互調整によるエージェントのクラスタ化: コンピュータシミュレーションによる検討
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
第4章 社会構造概念はどのように豊穣化されるか
進化ゲームと微分方程式 第15章 n種の群集の安定性
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
データ解析 静岡大学工学部 安藤和敏
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
データ解析 静岡大学工学部 安藤和敏
ポッツスピン型隠れ変数による画像領域分割
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
北大MMCセミナー 第72回 附属社会創造数学センター主催 Date: 2017年7月20日(木) 15:00~16:30
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
時間情報に基づく多様な中心性に着目した 動的ネットワーク分析の提案
議論の前提 ある人獣共通感染症は、野生動物が感染源となって直接又は媒介動物を通じて人に感染を起こす。
生命情報学 (8) 生物情報ネットワークの構造解析
Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015
北大MMCセミナー 第82回 附属社会創造数学センター主催 Date: 2018年4月26日(木) 16:30~18:00
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
Time Reversal E-Text: pp.80-83(PDF: pp.49-50) FM08002 太神 諭
Presentation transcript:

統計数理研究所 数学協働プログラム ネットワーク解析入門 静岡大学工学部  守田 智 宇奈月国際会館 2016年3月28日

複雑ネットワークとは 近年の計算機の発展とデータの蓄積とともに急速に発展してきた研究分野 構成要素のペアによる結合関係に着目したシステム観 結合関係が以下のような共通の特徴を持つ傾向がある スモールワールド性 スケールフリー性 実例としてはインターネット, WWW, 生態系, 細胞の生化学反応, 遺伝子ネットワーク, 神経回路, 人間の関係(論文共著,メール),などなど.

スモールワールド性 「世間って狭いね」っていう話 初めて会った人との間に共通の友人がいた! 共通の友人がいなくても何らかの共通点があり(兄弟の出身学校が同じとか),おそらく知人関係によってたどり着けそう.⇒ネットワーク上の距離が短い 友達同士が互いに知り合いだった! 社会心理学者Stanley Milgramが行った手紙を転送する実験 (Traver & Milgram 1967)が元

Milgramのスモールワールド実験 「6次の隔たり」 six degrees of separation スタート: 296人 ゴール: スタート: 296人 ゴール: ボストンに住む1名の株仲買人 ネブラスカ ランダム 到着率  18/76=24% 隔たり 5.7 ネブラスカ 株式投資家 到着率  24/78=31% 隔たり 5.4 ボストン ランダム 到着率 22/63=35% 隔たり 4.4 総計 到着率  64/217=29% 隔たり 5.2 「6次の隔たり」 six degrees of separation

スモールワールドを特徴付けする 平均ノード間距離 2つの点ノードを結ぶ道(path)の うち最短のものの長さの平均 クラスタリング係数 着目したノードとつながるノード の間にもリンクが存在する割合 (ノード j とノード k はノード i の隣接ノード) k はノードから出ているリンク本数

スモールワールド性の定義 平均ノード間距離が小さく(O(log n)以下),クラスタリング係数が大きいものをスモールワールド性があるという ランダムグラフは平均ノード間距離が小さいがクラスター係数は小さい。 Lactual Lrandom Cactual Crandom Film actors 3.65 2.99 0.79 0.00027 Power grid 18.7 12.4 0.08 0.005 C. elegans 2.65 2.25 0.28 0.05 Watts & Strogatz (1998)

Watts と Strogatzのモデル Watts と Strogatzは格子状のネットワークとランダムグラフの中間に位置するモデルを考案した 格子状のネットワークのリンクを確率𝜌で付け替える. p が小さいうちはクラスタリング係数 C はほとんど変わらない. 一方で,平均ノード間距離 l はわずかに p を大きくするだけで激増している. C が大きく l が小さいことが実現している. Watts & Strogatz (1998)

弱い紐帯 ほとんどご近所づきあいなのにもかかわらず,遠くの人と短い人間関係でつながっている. わずかなショートカットの効果 これは社会学者のGranovetter(1974)がいう弱い紐帯(weak tie)が社会ネットワークに重大影響を与えているという考え方に対応していると考えることもできる.

スケールフリー (Barabasi et al. 1999) Albert らは,ネットワークの次数分布に着目しWWWのハイパーリンクの入次数と出次数の分布が冪分布になっていることを発見した (Albert et al. 1999) 冪指数は出次数2.45,入次数2.1であった (Albert et al. 1999)

SFネットワークの例 次数k に対する累積分布 Protein-protein Network Jeong et al. (2001) Newman (2003)

SFネットワークの例2 スウェーデンにおける性的関係を調査したデータから作成された1ヶ月間 と一生での次数の分布 2810 人を調査,γ=3.2 (Liljeros et al. 2001) 性交関係(Colorado Springs) Potterat et al. (2002)

スケールフリーでないものもある Amaral et al. (2000) 電気供給ネットワーク、空港ネットワーク、俳優間の共演,神経細胞間のシナプスなど Amaral et al. (2000)

Barabasi Albert model 点を一個づつ付け加えていく

Barabasi Albert model の次数分布の導出1 マスター方程式: 「年齢」s のノードがk 本リンクを持つ確率 境界条件: 全体の次数分布 マスター方程式を s を 1 から t にわたって足し合わせると

Barabasi Albert model の次数分布の導出2 前ページの式 漸近解:

Barabasi Albert model についてあれこれ 成長と優先選択によるモデル 冪分布が再現される(冪指数はつねに3) m>1の時は       を実現する方法は一意ではない 大きなネットワークではクラスタリング係数は低くなってしまう ノードに老いの効果や次数の最大値を導入することで次数 分布にカットオフを入れることもできる 優先選択を線形でなく        とすると次数分布は冪で はなくなる 優先選択が全くない場合は次数分布は指数関数的である リンクを付け加える方法を変えて冪指数を3以外にするモデ ルもある

SFネットワークの性質 頑強性と脆弱性 ノードのランダムな 消去に対しては頑強 次数の高いノード(ハブ)から取り除くとネットワークの構造は激変する(脆弱性) 縦軸は平均ノード間距離 横軸は取り除くノードの割合 Albert et al. (2000)

次数相関: ADNNの定義 次数相関は,次数 k のノードと隣接するノードの平均次数(average nearest neighbor degree [ADNN])で表現される. 相関がなければ, なので

(Pastor-Satorras et al. 2001) ADNNの例 左上がり: disassortative 右上がり: assortative 論文共著関係 インターネット (Pastor-Satorras et al. 2001)

ADNNの例 つづき Vazquez (2003)

同類度: assortativityの定義

assortativityの例 Newman, PRE (2003)

次数相関とパーコレーション転移 次数相関を調整できるネットワークモデルを構築し最大連結成分の割合を表示 Newman (2002)

空間上のネットワーク 空間上にうめこまれたネットワークモデルの研究 各ノードが冪則に従う「隠れた強度変数」を持ち、各ノードの ペアにその強度の積に応じて結合を導入 「隠れた強度の」分布の冪指数の値により3種類に分類  (Morita 2006)

空間上のネットワークの構造 分類表 (Morita 2006) 強度の分布の冪指数 次数の分布の冪指数 次数相関 空間上のネットワークの構造  分類表 (Morita 2006) 強度の分布の冪指数 次数の分布の冪指数 次数相関 クラスタ係数の空間次元依存性 平均最大パス長 γ<2 2 negative independent of d small 2<γ<3 γ depend on d γ>3 zero or positive not small

ネットワーク分析のデータ解析 社会ネットワーク研究において古くから用いら れてきた概念・方法 派閥 ⇒ クリーク 権力 ⇒ 中心性 派閥  ⇒  クリーク 権力  ⇒  中心性 役割・競争 ⇒ 構造同値

クリーク 密接な相互作用によって形成されるグループ 完全グラフによるクリークの判定 結合密度によるクリークの判定  完全グラフによるクリークの判定  結合密度によるクリークの判定  N-クリーク(N段階の結合を考慮する) 規模の大きいネットワークでは交差するクリークが多数特定され、複数のクリークが共通の点を含むことも多い。 この場合クリーク自体を特定することにはあまり意味がなく、交差点に位置している点が重要である。 B A E C D

中心性 あるネットワークにおいて他者とのかかわりが比較的活発な行為者。 ネットワーク内の他者に大きな影響を与える。 中心性の定義には権力、威信、傑出など異なる視点があり、状況に応じて使い分ける必要がある  次数による中心性  距離による中心性  媒介性による中心性  固有ベクトルによる中心性

次数による中心性 B E A 次数の大きさ D C 次数d d/(n-1) A 2 4/7=0.57 B 3 4/5=0.80 C 3 D Niewminen (1973) C 次数d d/(n-1) A 2 4/7=0.57 B 3 4/5=0.80 C 3 D E 1 4/8=0.50

距離による中心性(近接中心性) B E A 他の点に到達するまでの 最短経路の距離 D C 距離の合計 Beauchampの近接性 A 7 4/7=0.57 B 5 4/5=0.80 C D E 8 4/8=0.50

媒介性による中心性 B E A 媒介性(betweenness): 最短経路に含まれる回数 D C 媒介性 A 0 B 1 C D 3 E Freeman (1977) C 媒介性 A 0 B 1 C D 3 E

固有ベクトルによる中心性 隣接行列の第一固有値に対応 する固有ベクトル。 隣接する点の中心性を考慮。 中心性の高い点とつながっている 点の中心性が高くなるように定義 Bonacichi(1972) 固有ベクトル A 2.26 B 2.99 C D 2.64 E 1.00 googleのpage rank も基本的にこの方式 を採用している!

感染症の伝播モデル SIRモデル 一生有効な免疫が獲得される感染症 例:麻疹,風疹,おたふくかぜ SISモデル 継続する免疫が獲得されない感染症 例:普通の風邪 (Kermack &.McKendrick 1927) Susceptible Infectious Recovered Susceptible Infectious

SIRモデル 感受性個体 S は, 感染者 I と出会うと確率λで感染 感染者 I は, 強度1のポアソン過程で治ってR になる. で不変 time で不変 基本再生産数 (Kermack &.McKendrick 1927)

SISモデル 感受性個体 S は, 感染者 I と出会うと確率λで感染 感染者 I は, 強度1のポアソン過程で S に戻る. 感染者の割合をρ(t)とおくと time 定常解に収束 転移点

ネットワーク上のSISモデル 感受性個体 S は, 周りにひとりでも感染者 Iがいると確率 で感染する 平均場近似:次数がk の人の中での感染者の割合をρk(t)とおくと ここでΘは隣の人が感染者である確率 Pastor-Satorras & Vespignani 2001

定常解は BAモデルの場合は 転移点を計算するには

転移点が0になる 冪指数が3以下の冪分布では発散する(臨界値0) 3より大きいと有限の臨界値 この和が発散 ⇒ 転移点λcは0に Pastor-Satorras & Vespignani 2001 基本再生産数 (Anderson & May 1991) 冪指数が3以下の冪分布では発散する(臨界値0) 3より大きいと有限の臨界値

いろんなSISモデル  (Morita 2016)

 (Morita 2016)

いろんなSISモデルのまとめ  (Morita 2016)

感染症の局所的な生き残り ここまでに求めた転移点は感染者割合が0になる点 個体数Nを無限大の極限を考えているので感染者割合が0 でも感染者がいる場合があるかも(転移点が2つ) (  は隣接行列) 定常解は Dorogovtsev et al. 2003, Dastellano & Pastor-Satorras 2010, Goltsev et al. 2012

つづき 隣接行列 の最大固有値を としてその固有ベクトルを とすると 転移点 kc次数のカットオフ≒最大次数 隣接行列   の最大固有値を  としてその固有ベクトルを とすると 転移点 kc次数のカットオフ≒最大次数 Dastellano & Pastor-Satorras 2010

スーパースプレッダーは誰? 次数が大きいものがスプレッダー(感染を蔓延させる影響力のある人)だと直感的におもえるが・・・ 実はKコア(Kシェル)と呼ばれる指標が重要らしい 病院の患者 SIRモデル Kitsak et al. 2010