生命情報学基礎論 (5) タンパク質立体構造予測 生命情報学基礎論 (5) タンパク質立体構造予測 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
講義予定 4月14日(月): 生命情報学の基盤 4月21日(月): 配列の比較と相同性検索 4月28日(月): 進化系統樹推定 4月14日(月): 生命情報学の基盤 4月21日(月): 配列の比較と相同性検索 4月28日(月): 進化系統樹推定 5月12日(月): 隠れマルコフモデル 5月19日(月): タンパク質立体構造予測 5月26日(月)、6月2日(月): カーネル法 6月9日(月): 生物情報ネットワークの構造解析 6月16日(月): 遺伝子ネットワークの解析と制御(田村) 6月23日(月): 代謝ネットワークの堅牢性(田村) 6月30日(月): 木の編集距離(田村) 7月7日(月): タンパク質相互作用予測(林田) 7月14日(月): タンパク質複合体予測(林田) 7月17日(木): 生物データの圧縮による比較(林田)
タンパク質立体構造
アミノ酸とタンパク質 アミノ酸:20種類 タンパク質:アミノ酸の鎖(短いものはペプチドと呼ばれる)
タンパク質の種類と高次構造 タンパク質の分類 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 球状タンパク質 繊維状タンパク質 膜タンパク質 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖)
タンパク質立体構造の決定 主にX線結晶解析かNMR解析による アミノ酸配列決定より困難 既知アミノ酸配列 >> 10万 しかし、結晶中の構造しかわからない アミノ酸配列決定より困難 半年から1年くらいかかることも珍しく無い 既知アミノ酸配列 >> 10万 既知立体構造 < 数万
タンパク質立体構造の特徴 基本的には鎖(ひも)状 二種類の特徴的な構造が頻繁に現れ、立体構造の骨格(コア)を作る αへリックス(らせん状の部分) βシート(ひも状の部分が並んだ部分)
タンパク質立体構造の例(1) 立体構造:Cα原子の座標列で概要がわかる αへリックスとβシートが構造の骨格を形成
タンパク質立体構造の例(2)
タンパク質立体構造の例(3)
構造とアミノ酸の種類の関係 (球状)タンパク質 αへリックス βストランド ループ領域 内側:疎水性アミノ酸 外側:親水性アミノ酸 内側:疎水性アミノ酸 外側:親水性アミノ酸 αへリックス 内側:疎水性 外側:親水性 βストランド 疎水性と親水性が交互に現れる ループ領域 親水性が高い
立体構造分類
タンパク質立体構造データベース 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似のタンパク質が多数存在 PDB (Protein Data Bank) 構造分類データベース SCOP(人間が分類) FSSP(DALIプログラムにより分類) CATH(SSAPプログラムなどにより分類)
タンパク質立体構造の分類 構造分類の必要性 SCOPによる階層的クラス分け 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似のタンパク質が多数存在 SCOPによる階層的クラス分け Class: 二次構造の組成(α、β、α+βなど)に基づく分類 Fold: 構造の類似性 ← スレッディング法の対象 Superfamily: 進化的類縁性 Family: 明らかな進化的類縁性
タンパク質立体構造予測
タンパク質立体構造予測 アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 実験よりは、はるかに精度が悪い だいたいの形がわかれば良いのであれば、4~5割近くの予測率?
立体構造予測法の分類 物理的原理に基づく方法 (ab initio法) ホモロジーモデリング 2次構造予測 格子モデル スレッディング エネルギー最小化、分子動力学法 ホモロジーモデリング 配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖の配置の最適化を分子動力学法などで実行 2次構造予測 各アミノ酸がα、β、それ以外のいずれかにあるかを予測 ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用いれば80%近い予測率 格子モデル スレッディング 予測したい配列と既知構造の間のアラインメントを計算 フラグメント・アセンブリー法 数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後、分子動力学法などを用いてそれらをつなげ合わせる
二次構造予測 アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測 でたらめに推定しても、33.3%の的中率 最も高精度なソフトを使えば、70%~80%の的中率 ニューラルネット、HMM、サポートベクタマシンなどの利用
フォールド予測(Fold Recognition) 立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく
タンパク質スレッディング 立体構造(テンプレート)とアミノ酸配列の間のアラインメント
スレッディングとアラインメント
スレディング法の分類 プロファイルによるスレッディング 残基間ポテンシャルによるスレッディング 動的計画法で最適解が計算可能 PSI-BLAST 3D-1D法 構造アライメント結果に基づくスレッディング 残基間ポテンシャルによるスレッディング NP困難。ただし、整数計画法などが効果的に適用可能 コンタクトポテンシャル 距離依存ポテンシャル その他のポテンシャル
プロファイル アラインメントにおけるスコア行列と類似 スレッディングの場合、残基位置ごとにスコア(位置依存スコア)
プロファイルによるアラインメント 動的計画法(DP)により最適解を計算 スコア行列のかわりにプロファイルを使う
3D-1Dプロファイル 最初のversionはEisenbergらが1991年に提案 構造中の残基(位置)を18種類の環境に分類 二次構造(3種類) 内外性+極性(6種類)
3D-1Dプロファイル
その他のプロファイル 配列のマルチプルアラインメントに基づくプロファイル 立体構造のマルチプルアラインメントに基づくプロファイル作成 PSI-BLAST、HMM 立体構造のマルチプルアラインメントに基づくプロファイル作成 角度情報なども考慮したプロファイル プロファイル vs プロファイルによるアラインメント
ポテンシャル型スコア関数を用いたスレッディング 全体のポテンシャルエネルギーを最小化(Σfd(X,Y)が最小となるようなスレッディングを計算)
プロファイル型スコア関数と ポテンシャル型スコア関数 プロファイル型スコア関数 (Eisenberg et al. 1991) ポテンシャル型スコア関数 (Miyazawa, Sippl, . . .)
ポテンシャル型の場合の最適解計算 厳密な最適解の計算は困難(NP完全) 様々なアルゴリズムの提案 分枝限定法 (Lathrop & Smith 96, Ming Li et al. 2002) 多くの場合に現実的な時間で最適解を計算可能 コア領域内でのギャップは許されない Frozen Approximation (Godzik & Skolnick 92) 通常のDPと同様のアルゴリズムが利用可能 Double DP (Jones, Taylor & Thornton 92) DPを二重に用いる 立体構造アライメントなどにも応用可能
Frozen Approximation ○にFをアラインする際のスコアの正確な計算には、○に何がアラインされているかを知ることが必要 ⇒動的計画法では最適解 が計算できない Frozen Approximation: もとの構造中で○に割り当てられている残基の情報を利用 (図の例ではFとDのコンタ クトポテンシャル)
スコア関数の導出 残基の出現頻度の対数をとる 統計力学のボルツマン分布などが根拠 3D-1Dスコア 環境eのもとでの残基aの出現頻度:fe(a) (条件付確率) score(e,a)=log (fe(a)/fe) ポテンシャル型スコア (Quasichemical Approximation (Miyazawa 85)) 距離dにおける残基ペアa,bの出現頻度:fd(a,b) scored(a,b) =-log fd(a,b)
他のスコア関数導出法 学習データ(既知構造データ)より以下を満たすスコア(エネルギー)を導出 正しい構造のエネルギー < 誤った構造のエネルギ or Max( 誤った構造のエネルギー - 正しい構造のエネルギー ) ニューラルネット (Goldstein et al. 92) モンテカルロ法 (Mirny,Shakhnovich 96) 線形計画法 (Maiorov,Crippen 92)
立体構造予測におけるブレークスルー スレッディング法の発明(Eisenberg et al., 1991) 構造既知の配列と類似性が無い配列の構造予測 PSI-BLASTの開発(Altschul et al, 1997) プロファイルに基づくマルチプルアラインメントの繰り返し実行によるスレッディング David Baker による フラグメントアセンブリ法(1997) 統計情報+シミュレーション
フラグメント・アセンブリ法 Univ. Washington の Baker らが開発 現時点では最強の方法とされている 方法 数残基から十数残基の断片構造(フラグメント)をプロファイル比較法などを用いて既知構造データベースから取得 ⇒ 各断片配列ごとにいくつかの候補を選ぶ フラグメントをつなぎ合わせることにより全体構造を予測。つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う
立体構造予測コンテスト:CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開 参加者は予測結果を送付 構造決定後、正解とのずれなどを評価、順位づけ 結果の公表 会議、専門学術誌(Proteins) ホームページ http://predictioncenter.gc.ucdavis.edu/ 1994年より2年ごとに開催
まとめ 立体構造比較 立体構造予測 スレッディング法 構造分類データベースが作成されている 正確な座標は予測できない だいたいの形の予測であれば4割~5割近く 二次構造予測であれば、80%~程度 スレッディング法 プロファイル型スコア関数 動的計画法で最適解が計算可能 ポテンシャル型スコア関数 NP困難だが整数計画法などにより最適解が計算可能