タンパク質相互作用ネットワークのスケールフリーモデル

Slides:

Advertisements

Similar presentations

1 小暮研究会２第１章ベイジアンアルゴリズム２値選択ベルヌーイ試行尤度原理同一性交換可能性尤度についてのまとめ環境情報学部３年渡邊洋一.

Advertisements

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（ 1 ）スケールフリーネットワーク阿久津達也京都大学化学研究所バイオインフォマティクスセンター.

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

日本バイオインフォマティクス学会バイオインフォマティクスカリキュラム中間報告

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

情報生命科学特別講義III （１）文字列マッチング

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

伝播速度限定モデル Scale Free Network 上の情報拡散日本大学文理学部情報システム解析学科谷聖一研究室古池琢也

Scale Free Network 上における伝播速度限定モデルの情報拡散シミュレーション

分布の非正規性を利用した行動遺伝モデル開発

分子生物情報学動的計画法に基づく配列比較法 (ペアワイズアライメント法)

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（３）＋数理談話会木構造および画像データの文法圧縮

遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

京都大学化学研究所バイオインフォマティクスセンター

最尤推定によるロジスティック回帰対数尤度関数の最大化.

線形計画法スケールフリーネットワーク須藤　孝秀.

京都大学化学研究所バイオインフォマティクスセンター

分子生物情報学(7) 遺伝子発現データの情報解析法スケールフリーネットワーク

京都大学化学研究所バイオインフォマティクスセンター

奈良女子大集中講義バイオインフォマティクス (10) スケールフリーネットワーク

スペクトル・時系列データの前処理方法～平滑化 (スムージング) と微分～

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

電気・通信・電子・情報工学実験D 確率的情報処理の基礎第３部講義(2007年6月19日，6月26日)

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（４）ブーリアンネットワーク

九州大学大学院情報学専攻特別講義（９）ブーリアンネットワークの解析と制御

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

タンパク質相互作用のコンピュータによる予測と解析

WWW上の効率的なハブ探索法の提案と実装

『企業と市場のシミュレーション』井庭崇第９回：成長するネットワークモデル

ランダムグラフエルデシュとレーニイによって研究された．→ER-model p:辺連結確率 N:ノード総数分布：

遺伝的アルゴリズムを用いた構造物の最適形状探索のプログラムの作成

ゲノム科学概論～ゲノム科学における統計学の役割～ (遺伝統計学)

意外と身近なゲーム理論へなちょこ研究室 p.

京都大学化学研究所バイオインフォマティクスセンター

タンパク質の進化タンパク質は進化の過程でどのようにドメインを獲得してきたのだろうか？今のタンパク質を調べることでわからないだろうか？

25. Randomized Algorithms

分子生物情報学(2) 配列のマルチプルアライメント法

情報生命科学特別講義III （13）固定パラメータアルゴリズムと部分k木

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

生命情報学特論（８）複雑ネットワークと制御理論

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

九州大学大学院情報学専攻特別講義（６）固定パラメータアルゴリズムと部分k木

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

京都大学化学研究所バイオインフォマティクスセンター

構造的類似性を持つ半構造化文書における頻度分析

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

九州大学大学院情報学専攻特別講義（８）ニューラルネットワークの離散モデル

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

奈良女子大集中講義バイオインフォマティクス (7) 進化系統樹

九大数理談話会複雑ネットワークと制御理論

生命情報学特論（６）固定パラメータアルゴリズムと部分k木

Webページタイプによるクラスタリングを用いた検索支援システム

生命情報学（８）生物情報ネットワークの構造解析

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

生物情報ソフトウェア特論（１０）固定パラメータアルゴリズムと部分k木

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観

分子生物情報学(0) バイオインフォマティクス

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

タンパク質相互作用ネットワークのスケールフリーモデル阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

研究の目的 (1) 人間の設計図ここに全てが書かれているはず意外に少ない ⇒ でも、どう書かれているか、ほとんどわかっていない３２億文字　⇒　CD-ROM　１枚意外に少ないパソコンゲームより少ないかも細胞は60兆個もあるここに全てが書かれているはず臓器の作り方、脳の作り方顔の作り方知能、本能 ⇒　でも、どう書かれているか、ほとんどわかっていない　

研究の目的 (2) 設計図は手に入れたけど、設計図がどのように書かれているか、ほとんど、わかっていない ⇒設計図は荘大なパズル ⇒これを解くのは21世紀の重要研究課題人間の設計図がCD-ROM　１枚 ⇒数理的・情報学的原理があるはず ! ⇒それを解明したい

バイオインフォマティクスバイオインフォマティクスの目的生命情報学バイオ（生物）＋インフォマティクス（情報学）３２億文字を目だけで分析するのは無理　　　⇒　コンピュータによる解析が必要バイオインフォマティクスの目的 DNA配列やタンパク質構造などのコンピュータによる解析方法の開発コンピュータを用いた生物学的知識の発見

システム生物学生命をシステムとして理解細胞、臓器などの数理モデルを構築し、生物学的実験によりモデルを検証、改良

主要研究トピックネットワーク構造解析遺伝子ネットワーク解析（ブーリアンネットワーク） RNA二次構造・相互作用予測カーネル法スケールフリーネットワーク代謝ネットワークの頑健性解析遺伝子ネットワーク解析（ブーリアンネットワーク）アトラクター、制御 RNA二次構造・相互作用予測カーネル法化学構造の解析、設計木構造のパターンマッチング、検索

内容スケールフリーネットワークタンパク質相互作用ネットワークの数理モデル

グラフと実際のネットワークの対応代謝ネットワークタンパク質相互作用ネットワーク遺伝子ネットワーク WWW 共著関係　グラフと実際のネットワークの対応代謝ネットワーク頂点 ⇔ 化合物、　　　辺 ⇔ 代謝反応　タンパク質相互作用ネットワーク頂点 ⇔ タンパク質、　辺 ⇔ 相互作用遺伝子ネットワーク頂点 ⇔ 遺伝子、　　　辺 ⇔ 遺伝子間制御関係 WWW 頂点 ⇔ WEBページ、辺 ⇔ リンク共著関係頂点 ⇔ 研究者、　　　辺 ⇔ 共著論文の有無

スケールフリーネットワーク (1) 頂点の次数 P(k) スケールフリーネットワーク P(k) がべき乗則に従う　スケールフリーネットワーク　(1) 頂点の次数その頂点につながっている辺の個数 P(k) 次数分布次数 k の頂点の頻度スケールフリーネットワーク P(k) がべき乗則に従う

代謝マップ, グラフ, 次数 A B C D F G H I J E 次数次数分布: P(k) 次数1の頂点： J 　代謝マップ, グラフ, 次数 A B C D F G H I J E 次数次数1の頂点： J 次数2の頂点： B, C, D, F, G, H 次数3の頂点： E, I, A 次数分布: P(k) P(1)=0.1, P(2)=0.6, P(3)=0.3, P(4)=P(5)=P(6)=…=0

　スケールフリーネットワーク (2) 頂点数頂点数 ∝ (次数)-3 次数

スケールフリーネットワーク (3) Barabasi らが1999年頃に発見。以降、数多くの研究　スケールフリーネットワーク (3) Barabasi らが1999年頃に発見。以降、数多くの研究特徴：　有力な頂点（ハブ）に多くの頂点が連結次数 k の頂点の個数が k -γに比例（べき乗則）ランダムな場合(ポアソン分布: e-λλk/k!)と大差実際のネットワークにおける k –γ タンパク質相互作用：　γ≒2.2 代謝ネットワーク：　γ≒2.24 （生物種により異なる）映画俳優の共演関係：γ≒2.3 WWW：γ≒2.1 送電網： γ≒4

ポアソン分布とべき乗分布ポアソン分布（ランダムグラフ）べき乗分布（スケールフリーグラフ） P (k) k log(k) 　ポアソン分布とべき乗分布ポアソン分布（ランダムグラフ）べき乗分布（スケールフリーグラフ） P　(k) k log(k) log P　(k)

タンパク質ネットワークの解析タンパク質相互作用のネットワークもべき乗則に従う（酵母の場合）次数５以下の頂点（全体の93%）頂点：タンパク質辺：相互作用の有無次数５以下の頂点（全体の93%）２１％程度が必須（生存に必要）次数１６以上の頂点（全体の0.7％） 62％程度が必須次数の高い頂点はハブと呼ばれ、重要な役割を果たすものが多い

スケールフリーネットワーク構成法：優先的選択法　スケールフリーネットワーク構成法：優先的選択法優先的選択法(優先的選択型成長モデル) [Barabasi & Albert 1999] 別名： Rich-get-richer モデル構成法（ほぼ、k -3 のべき乗則従うネットワークを生成） m0 個の頂点から成るグラフを構成する以下のステップを必要なだけ繰り返す現在のグラフに新たな頂点 v を追加する v から既存の頂点に、deg(vi)/(Σj deg(vj)) に従う確率で、ランダムに辺を張る（全部で m 本の辺を張る）参考：ランダムグラフの構成法 N個の頂点を配置以下の操作を辺の個数が指定の数になるまで繰り返す任意の２頂点をランダムに選んでは辺を追加

ランダムネットワーク vs. スケールフリーネットワーク 2/6 3/10 2/10 4/14 2/14 ランダムネットワークスケールフリーネットワーク

優先的選択法の平均場近似による解析 ki(t): 頂点 i の時刻 t における次数時刻 t までに追加された辺の個数≒mt 　優先的選択法の平均場近似による解析 ki(t): 頂点 i の時刻 t における次数時刻 t までに追加された辺の個数≒mt 時刻 t において頂点 i の次数が1増加する確率はこの微分方程式を条件 ki(ti)=m のもとで解くと時刻 tn にネットワークが完成したとすると、　　次数 k の頂点の生成時刻は、ki(tn)=k を解いて、ここで、k が１だけ増えると、ti がどれくらい減るかは、　　上の式を k で微分することにより、よって、時刻が 2tnm2k -3 だけ異なると k が１変わるよって、次数 k の頂点は 2tnm2k -3 のオーダーの個数存在

タンパク質相互作用推定

相互作用の種類遺伝子間相互作用タンパク質間相互作用化合物-タンパク質間相互作用タンパク質-DNA間相互作用どの遺伝子が、どの遺伝子を、どのように制御するか？タンパク質間相互作用どのタンパク質と、どのタンパク質が結合するか？化合物-タンパク質間相互作用どの化合物と、どのタンパク質が結合するか？タンパク質-DNA間相互作用どのタンパク質が、DNAのどの部分に結合するか？

ドメイン間相互作用に基づくタンパク質相互作用推定タンパク質はドメインとよばれる部品から構成されていると考えられるドメイン間相互作用を直接計測するのは難しいか、一部のタンパク質間相互作用は実験により計測可能既知のタンパク質間相互作用データからドメイン間相互作用を予測未知のタンパク質間相互作用を、予測したドメイン間相互作用から推定上記以外にも、配列の共進化に基づく方法、遺伝子融合に基づく方法、系統プロファイルを用いる方法など、様々な方法が提案されている。

タンパク質ドメインの例 D3 D1 D2 D4 D2

ドメイン間相互作用モデル A B C D X Y Z タンパク質ペアが相互作用 ⇔ 少なくとも一つのドメインペアが相互作用ドメインタンパク質ペアが相互作用　⇔　少なくとも一つのドメインペアが相互作用ドメイン A B C D タンパク質 X Y Z

ドメイン間相互作用の予測（例）左側の３種類の相互作用データから、右のドメイン間相互作用を推定

ドメイン間相互作用の確率モデル確率モデル[Deng et al., 2002] どれか１組ドメインが相互作用すれば、　　タンパク質どうしが相互作用各ドメインペアの相互作用の確率は独立 Pij＝１: タンパク質 Pi と Pj が相互作用 Dmn＝１: ドメイン Dm と Dn が相互作用

確率モデルに基づく相互作用予測既知の相互作用データから、Prob(Dmn=1) を推定未知のタンパク質配列ペアが与えられたら、Pfamなどのソフトによりドメイン構成を推定下式を用いて相互作用の確率を推定

アソシエーション法既知データからのドメインどうしの相互作用の確率を頻度に基づいて推定 Imn: ドメインペア Dm, Dn を含むタンパク質のペアのうち、相互作用しているペアの個数 Nmn: ドメインペア Dm, Dn を含むタンパク質のペアの個数

EM法尤度を以下(L)のように定義し、それを極大化する一般手法であるＥＭ法を適用 fp: false positive rate, fn: false negative rate Pij: Pi と Pj が相互作用する確率 Oij: Pi と Pj の相互作用が観測される確率

タンパク質ドメイン進化の数理モデル

ドメイン進化の数理モデル (1) 異なるドメイン１個からなる N0 個のタンパク以下をn 回繰り返す: 確率 1-a で新たなドメインからなるタンパク質１個を生成　　　　(突然変異に対応) b) 確率 a で、どれか１個のタンパクを選び、そのコピーを生成 (遺伝子重複に対応) （１個のタンパク質は１個のドメインだけから構成されると仮定）

ドメイン進化の数理モデル(2) 遺伝子重複突然変異確率 1- a 確率 a

モデルの解析 i : i 種類目のドメイン ki : i 種類目のドメインから成るタンパク質の個数 1-a a 遺伝子重複 n 回繰り返し a ~ 1.0 突然変異モデルの解析 i : i 種類目のドメイン ki : i 種類目のドメインから成るタンパク質の個数 Q(k): コピーを k 個持つタンパク質の頻度

Q(k)の説明ドメインの種類 1 2 3 4 5 6 タンパク質の種類

優先的選択型成長モデルとの比較類似点相違点ドメイン i を持つタンパク質の個数 ⇔ 頂点 i の次数突然変異（新規ドメインの追加） ⇔　新たな頂点の追加相違点 1-a a 遺伝子重複 a ~ 1.0 突然変異 Q(1)=3 Q(2)=1 Q(3)=1 新規頂点辺の追加

タンパク質相互作用ネットワークの数理モデル

Duplication-Divergenceモデル以下のメカニズムに従ってネットワークが成長 Duplication: ある頂点がランダムに選ばれて、そのコピーが生成される。もとの頂点に接続する辺も全てコピーされる。 Divergence: コピーされた辺はそれぞれ同確率で有効となる。１本も有効となる辺がなかった頂点は削除される。 duplication divergence でも、実際に進化するのはネットワークでなく、配列

ドメイン間相互作用に基づくネットワークモデルドメイン間相互作用モデル　＋　　　　　　　　　　　　ドメイン配列の進化モデル（これまで説明したモデルの組み合わせ）モデル突然変異と遺伝子重複に基づくモデルにより、タンパク質配列が生成２個のドメインの相互作用確率は一様ランダム２個のタンパク質が相互作用⇔対応するドメインが相互作用

モデルの解析ランダムに選ばれた1個のドメインペア (A,B) のみが相互作用すると仮定ドメイン X からなるタンパク質の個数を nx とする k 個のコピーを持つドメインの個数はよって、コピーが x個, y個であるようなペア (A,B) が選ばれる確率はその場合、次数が x のタンパク質が y 個あることになるよって、次数が y であるようなタンパク質の個数の期待値は N個（≪n）のランダムペアの場合も同様

まとめタンパク質相互作用推定タンパク質ドメイン進化の数理モデルタンパク質相互作用ネットワークの数理モデルタンパクが相互作用　⇔　ドメインが相互作用既知データからドメイン間相互作用を推定タンパク質ドメイン進化の数理モデル突然変異＋遺伝子重複タンパク質相互作用ネットワークの数理モデルランダムなドメイン間相互作用＋上記モデルの組み合わせ