タンパク質相互作用ネットワークの スケールフリーモデル 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
研究の目的 (1) 人間の設計図 ここに全てが書かれているはず 意外に少ない ⇒ でも、どう書かれているか、ほとんどわかっていない 32億文字 ⇒ CD-ROM 1枚 意外に少ない パソコンゲームより少ないかも 細胞は60兆個もある ここに全てが書かれているはず 臓器の作り方、脳の作り方 顔の作り方 知能、本能 ⇒ でも、どう書かれているか、ほとんどわかっていない
研究の目的 (2) 設計図は手に入れたけど、設計図がどのように書かれているか、ほとんど、わかっていない ⇒設計図は荘大なパズル ⇒これを解くのは21世紀の重要研究課題 人間の設計図がCD-ROM 1枚 ⇒数理的・情報学的原理があるはず ! ⇒それを解明したい
バイオインフォマティクス バイオインフォマティクスの目的 生命情報学 バイオ(生物)+インフォマティクス(情報学) 32億文字を目だけで分析するのは無理 ⇒ コンピュータによる解析が必要 バイオインフォマティクスの目的 DNA配列やタンパク質構造などのコンピュータによる解析方法の開発 コンピュータを用いた生物学的知識の発見
システム生物学 生命をシステムとして理解 細胞、臓器などの数理モデルを構築し、生物学的実験によりモデルを検証、改良
主要研究トピック ネットワーク構造解析 遺伝子ネットワーク解析(ブーリアンネットワーク) RNA二次構造・相互作用予測 カーネル法 スケールフリーネットワーク 代謝ネットワークの頑健性解析 遺伝子ネットワーク解析(ブーリアンネットワーク) アトラクター、制御 RNA二次構造・相互作用予測 カーネル法 化学構造の解析、設計 木構造のパターンマッチング、検索
内容 スケールフリーネットワーク タンパク質相互作用ネットワークの数理モデル
グラフと実際のネットワークの対応 代謝ネットワーク タンパク質相互作用ネットワーク 遺伝子ネットワーク WWW 共著関係 グラフと実際のネットワークの対応 代謝ネットワーク 頂点 ⇔ 化合物、 辺 ⇔ 代謝反応 タンパク質相互作用ネットワーク 頂点 ⇔ タンパク質、 辺 ⇔ 相互作用 遺伝子ネットワーク 頂点 ⇔ 遺伝子、 辺 ⇔ 遺伝子間制御関係 WWW 頂点 ⇔ WEBページ、辺 ⇔ リンク 共著関係 頂点 ⇔ 研究者、 辺 ⇔ 共著論文の有無
スケールフリーネットワーク (1) 頂点の次数 P(k) スケールフリーネットワーク P(k) がべき乗則に従う スケールフリーネットワーク (1) 頂点の次数 その頂点につながっている辺の個数 P(k) 次数分布 次数 k の頂点の頻度 スケールフリーネットワーク P(k) がべき乗則に従う
代謝マップ, グラフ, 次数 A B C D F G H I J E 次数 次数分布: P(k) 次数1の頂点: J 代謝マップ, グラフ, 次数 A B C D F G H I J E 次数 次数1の頂点: J 次数2の頂点: B, C, D, F, G, H 次数3の頂点: E, I, A 次数分布: P(k) P(1)=0.1, P(2)=0.6, P(3)=0.3, P(4)=P(5)=P(6)=…=0
スケールフリーネットワーク (2) 頂点数 頂点数 ∝ (次数)-3 次数
スケールフリーネットワーク (3) Barabasi らが1999年頃に発見。以降、数多くの研究 スケールフリーネットワーク (3) Barabasi らが1999年頃に発見。以降、数多くの研究 特徴: 有力な頂点(ハブ)に多くの頂点が連結 次数 k の頂点の個数が k -γに比例(べき乗則) ランダムな場合(ポアソン分布: e-λλk/k!)と大差 実際のネットワークにおける k –γ タンパク質相互作用: γ≒2.2 代謝ネットワーク: γ≒2.24 (生物種により異なる) 映画俳優の共演関係:γ≒2.3 WWW:γ≒2.1 送電網: γ≒4
ポアソン分布とべき乗分布 ポアソン分布 (ランダムグラフ) べき乗分布 (スケールフリーグラフ) P (k) k log(k) ポアソン分布とべき乗分布 ポアソン分布 (ランダムグラフ) べき乗分布 (スケールフリーグラフ) P (k) k log(k) log P (k)
タンパク質ネットワークの解析 タンパク質相互作用のネットワークもべき乗則に従う(酵母の場合) 次数5以下の頂点(全体の93%) 頂点:タンパク質 辺:相互作用の有無 次数5以下の頂点(全体の93%) 21%程度が必須(生存に必要) 次数16以上の頂点(全体の0.7%) 62%程度が必須 次数の高い頂点はハブと呼ばれ、重要な役割を果たすものが多い
スケールフリーネットワーク構成法:優先的選択法 スケールフリーネットワーク構成法:優先的選択法 優先的選択法(優先的選択型成長モデル) [Barabasi & Albert 1999] 別名: Rich-get-richer モデル 構成法(ほぼ、k -3 のべき乗則従うネットワークを生成) m0 個の頂点から成るグラフを構成する 以下のステップを必要なだけ繰り返す 現在のグラフに新たな頂点 v を追加する v から既存の頂点に、deg(vi)/(Σj deg(vj)) に従う確率で、ランダムに辺を張る(全部で m 本の辺を張る) 参考:ランダムグラフの構成法 N個の頂点を配置 以下の操作を辺の個数が指定の数になるまで繰り返す 任意の2頂点をランダムに選んでは辺を追加
ランダムネットワーク vs. スケールフリーネットワーク 2/6 3/10 2/10 4/14 2/14 ランダムネットワーク スケールフリーネットワーク
優先的選択法の平均場近似による解析 ki(t): 頂点 i の時刻 t における次数 時刻 t までに追加された辺の個数≒mt 優先的選択法の平均場近似による解析 ki(t): 頂点 i の時刻 t における次数 時刻 t までに追加された辺の個数≒mt 時刻 t において頂点 i の次数が1増加する確率は この微分方程式を条件 ki(ti)=m のもとで解くと 時刻 tn にネットワークが完成したとすると、 次数 k の頂点の生成時刻は、ki(tn)=k を解いて、 ここで、k が1だけ増えると、ti がどれくらい減るかは、 上の式を k で微分することにより、 よって、時刻が 2tnm2k -3 だけ異なると k が1変わる よって、次数 k の頂点は 2tnm2k -3 のオーダーの個数存在
タンパク質相互作用推定
相互作用の種類 遺伝子間相互作用 タンパク質間相互作用 化合物-タンパク質間相互作用 タンパク質-DNA間相互作用 どの遺伝子が、どの遺伝子を、どのように制御するか? タンパク質間相互作用 どのタンパク質と、どのタンパク質が結合するか? 化合物-タンパク質間相互作用 どの化合物と、どのタンパク質が結合するか? タンパク質-DNA間相互作用 どのタンパク質が、DNAのどの部分に結合するか?
ドメイン間相互作用に基づくタンパク質相互作用推定 タンパク質はドメインとよばれる部品から構成されていると考えられる ドメイン間相互作用を直接計測するのは難しいか、一部のタンパク質間相互作用は実験により計測可能 既知のタンパク質間相互作用データからドメイン間相互作用を予測 未知のタンパク質間相互作用を、予測したドメイン間相互作用から推定 上記以外にも、配列の共進化に基づく方法、遺伝子融合に基づく方法、 系統プロファイルを用いる方法など、様々な方法が提案されている。
タンパク質ドメインの例 D3 D1 D2 D4 D2
ドメイン間相互作用モデル A B C D X Y Z タンパク質ペアが相互作用 ⇔ 少なくとも一つのドメインペアが相互作用 ドメイン タンパク質ペアが相互作用 ⇔ 少なくとも一つのドメインペアが相互作用 ドメイン A B C D タンパク質 X Y Z
ドメイン間相互作用の予測(例) 左側の3種類の相互作用データから、右のドメイン間相互作用を推定
ドメイン間相互作用の確率モデル 確率モデル[Deng et al., 2002] どれか1組ドメインが相互作用すれば、 タンパク質どうしが相互作用 各ドメインペアの相互作用の確率は独立 Pij=1: タンパク質 Pi と Pj が相互作用 Dmn=1: ドメイン Dm と Dn が相互作用
確率モデルに基づく相互作用予測 既知の相互作用データから、Prob(Dmn=1) を推定 未知のタンパク質配列ペアが与えられたら、Pfamなどのソフトによりドメイン構成を推定 下式を用いて相互作用の確率を推定
アソシエーション法 既知データからのドメインどうしの相互作用の確率を頻度に基づいて推定 Imn: ドメインペア Dm, Dn を含むタンパク質のペアのうち、相互作用しているペアの個数 Nmn: ドメインペア Dm, Dn を含むタンパク質のペアの個数
EM法 尤度を以下(L)のように定義し、それを極大化する一般手法である EM法 を適用 fp: false positive rate, fn: false negative rate Pij: Pi と Pj が相互作用する確率 Oij: Pi と Pj の相互作用が観測される確率
タンパク質ドメイン進化の 数理モデル
ドメイン進化の数理モデル (1) 異なるドメイン1個 からなる N0 個のタンパク 以下をn 回繰り返す: 確率 1-a で新たなドメインからなるタンパク質1個を生成 (突然変異に対応) b) 確率 a で、どれか1個のタンパクを選び、そのコピーを生成 (遺伝子重複に対応) (1個のタンパク質は1個のドメインだけから構成されると仮定)
ドメイン進化の数理モデル(2) 遺伝子重複 突然変異 確率 1- a 確率 a
モデルの 解析 i : i 種類目のドメイン ki : i 種類目のドメインから成るタンパク質の個数 1-a a 遺伝子重複 n 回繰り返し a ~ 1.0 突然変異 モデルの 解析 i : i 種類目のドメイン ki : i 種類目のドメインから成るタンパク質の個数 Q(k): コピーを k 個持つタンパク質の頻度
Q(k)の説明 ドメインの種類 1 2 3 4 5 6 タンパク質の種類
優先的選択型成長モデルとの比較 類似点 相違点 ドメイン i を持つタンパク質の個数 ⇔ 頂点 i の次数 突然変異(新規ドメインの追加) ⇔ 新たな頂点の追加 相違点 1-a a 遺伝子重複 a ~ 1.0 突然変異 Q(1)=3 Q(2)=1 Q(3)=1 新規頂点 辺の追加
タンパク質相互作用ネットワークの数理モデル
Duplication-Divergenceモデル 以下のメカニズムに従ってネットワークが成長 Duplication: ある頂点がランダムに選ばれて、そのコピーが生成される。もとの頂点に接続する辺も全てコピーされる。 Divergence: コピーされた辺はそれぞれ同確率で有効となる。1本も有効となる辺がなかった頂点は削除される。 duplication divergence でも、実際に進化するのはネットワークでなく、配列
ドメイン間相互作用に基づくネットワークモデル ドメイン間相互作用モデル + ドメイン配列の進化モデル (これまで説明したモデルの組み合わせ) モデル 突然変異と遺伝子重複に基づくモデルにより、タンパク質配列が生成 2個のドメインの相互作用確率は一様ランダム 2個のタンパク質が相互作用⇔対応するドメインが相互作用
モデルの解析 ランダムに選ばれた1個のドメインペア (A,B) のみが相互作用すると仮定 ドメイン X からなるタンパク質の個数を nx とする k 個のコピーを持つドメインの個数は よって、コピーが x個, y個であるようなペア (A,B) が選ばれる確率は その場合、次数が x のタンパク質が y 個あることになる よって、次数が y であるようなタンパク質の個数の期待値は N個(≪n)のランダムペアの場合も同様
まとめ タンパク質相互作用推定 タンパク質ドメイン進化の数理モデル タンパク質相互作用ネットワークの数理モデル タンパクが相互作用 ⇔ ドメインが相互作用 既知データからドメイン間相互作用を推定 タンパク質ドメイン進化の数理モデル 突然変異+遺伝子重複 タンパク質相互作用ネットワークの数理モデル ランダムなドメイン間相互作用+上記モデルの組み合わせ