タンパク質相互作用の コンピュータによる予測と解析 京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室 Thank you chairman. My name is Morihiro Hayashida. I am a Ph.D student of Kyoto university. Today, I am going to talk about Inferring strengths of protein-protein interactions from experimental data using linear programming.
研究の目的 目的: 生命の構築原理、動作原理を数理的に解明 方針:数理的原理に基づく生命情報解析手法 および 生命システムの数理的理解 CD-ROM 1枚程度に個性の違いまで含めて人間を再構成できる情報がどのように格納されているのか、その原理を解明 方針:数理的原理に基づく生命情報解析手法 および 生命システムの数理的理解
タンパク質相互作用 タンパク質どうしが互いに相互作用(結合)することで機能を果たすものがたくさんある。 タンパク質の役割の例 遺伝子転写制御 1個づつでは プロモータ領域に 付くことが出来ない. DNA プロモータ領域 遺伝子 新しいタンパク質 の生成 DNA プロモータ領域 遺伝子
相互作用するタンパク質の予測 何をするのかわかっていないタンパク質はたくさんある。 コンピュータを使って予測できないか? 1個づつ調べていくのはたいへん。 コンピュータを使って予測できないか? 手がかり 既にタンパク質相互作用がわかっているタンパク質 ゲノム配列
タンパク質相互作用の予測 タンパク質 アミノ酸配列 部分配列間の相互作用 特徴的な部分配列
タンパク質ドメイン 特徴的な部分配列として、InterPro データベースに登録してあるドメインを使用する。 ドメイン ドメイン After that, a model has been proposed. It is based on domain-domain interactions. Proteins have some domains. This model uses these domains. In this model, we can not find which residues interact in a domain. But, this makes the model simple, and we can find interactions between known domains. These domains are defined by the databases like InterPro or Pfam. This shows the result of search for a protein in InterPro database. We see that this protein holds 2 kinds of domains, this one and this one. ドメイン ドメイン
タンパク質相互作用の予測 相互作用する組. 相互作用しない組. ?
タンパク質相互作用の予測 相互作用する組. 相互作用しない組.
相互作用の確率モデル モデル (Deng et al., 2002) D3 D1 P1 P2 D2 D2 D4 ① 2つのタンパク質が相互作用する。 少なくとも1つのドメインのペアが 相互作用する。 ② ドメイン間の相互作用は互いに独 立とする。 D3 D1 Next, I explain a probabilistic model of interaction. This model was proposed by Deng et al. They used this model when they developed EM method. Our proposed method also uses this model. Proteins consist of some domains. 2 proteins interact if and only if at least 1 pair of domains interacts. And in order to keep the probability formula simple, we assume that the interactions between domains are independent events. This figure shows this model. Protein P1 consists of domain D1 and D2. And Protein P2 consists of domain D3, D2 and D4. Same domain can be held in some proteins. Now, we assume protein P1 and P2 interact each other. Then, among domain pairs D1 and D3, D1 and D2, and so on, at least, 1 pair need to interact. On the other hand, if these 2 proteins do not interact, any of domain pairs never interact. P1 P2 D2 D2 D4
LPBN LPBN 線形計画問題 確率モデルからの変形 Then, we obtain the following linear programming.
テストデータに対する正答率 DIP データベース (Xenarios et al., 2002) LPBN LPBN 計算機環境 学習に 2/3 、テストに 1/3 を使用。 LPBN LPBN core: 4533のより信頼性の 高いデータ full: 9159のデータ 計算機環境 Xeon 2.8 GHz 線形計画問題の求解に使ったプログラム: glpsol EM, Assoc EM
タンパク質間相互作用の強度 同じタンパク質のペアについて、何度も同じ実験が繰り返される。 相互作用の強度ρij : タンパク質ペア (Pi,Pj) について、相互作用が観測された数の割合。 Kij : タンパク質ペア (Pi,Pj) について、相互作用が観測された数。 Mij : タンパク質ペア (Pi,Pj) に対する全実験回数。 We have considered about whether proteins interact or not. However, in fact, the same number of experiments for each protein pair under the same condition were performed. Then, we consider if the frequency of observed interactions is beyond a threshold, the protein pair interacts. Therefore, we consider the ratio ρij of the frequency to the number of experiments as strength. In this sense, we developed another linear programming.
LPNM タンパク質ペアが相互作用する確率 Pr(Pij=1) と強度ρij の差を線形計画法を使い最小化する。 This linear programming minimizes the gap between the probabilities of domain-domain interaction and the ratio ρij. We transform the formula as before.
テストデータについての結果(数値データ) LPNM YIP データベース (Ito et al., 2001, 2002) IST (Interaction Sequence Tag) タンパク質のペア数:1586 学習に 4/5 、テストに 1/5 を使用。 計算機環境 Xeon 2.8 GHz 線形計画問題の解法器: glpsol ASNM EM Association This is the result on test data set. This figure represents the distributions of the errors between experimental data and predicted probabilities. The errors of LPNM and ASNM concentrated around 0. But this figure shows LPNM was better. That is, LPNM minimizes the errors successfully. LPNM ASNM EM ASSOC 平均誤差 0.0308 0.0405 0.295 0.277 CPU 時間(秒) 1.20 0.0077 1.62 0.0088
タンパク質間相互作用予測システム ドメイン間相互作用の確率 Pr(Dmn=1) を上の各手法を使って推定。
タンパク質名 (swissprot データベース) タンパク質に含まれるドメイン名 (InterPro データベース) タンパク質のアミノ酸配列 (FASTA 形式)
Flavocytochrome B2 (P00175) との 相互作用確率の推定結果
大学院生募集(修士、博士) 京都大学大学院 情報学研究科 知能情報学専攻 バイオ情報ネットワーク分野 入試 2007年2月(修士、博士) 2007年8月(修士、博士) 専攻のホームページ http://www.ist.i.kyoto-u.ac.jp/ 研究室ホームページ http://www.bic.kyoto-u.ac.jp/takutsu/index_J.html 研究室の見学を随時受付けています。 E-mail : takutsu@kuicr.kyoto-u.ac.jp