生命情報学基礎論（５）タンパク質立体構造予測

Slides:

Advertisements

Similar presentations

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

Advertisements

動的計画法を用いたアラインメント　小菅孝史.

日本バイオインフォマティクス学会バイオインフォマティクスカリキュラム中間報告

情報生命科学特別講義III （5）配列アラインメント

生命情報学基礎論（２）配列の比較と相同性検索

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （１）文字列マッチング

低分子化合物の結合情報を含む高精度タンパク質立体構造予測データベースを全世界に公開－創薬研究の効率化や新規機能性生体物質の創製に向けて－

自己重力多体系の１次元シミュレーション物理学科４年宇宙物理学研究室　丸山典宏.

奈良女子大集中講義バイオインフォマティクス (8) タンパク質立体構造予測

分子生物情報学動的計画法に基づく配列比較法 (ペアワイズアライメント法)

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

生命情報学入門タンパク質立体構造予測演習2011年5月31日

奈良女子大集中講義バイオインフォマティクス (1) 分子生物学概観

生命情報学入門機械学習を用いたタンパク質の分類法 2011年6月7日

集中講義（九州大学数理学研究院）バイオインフォマティクスにおけるカーネル法およびグラフ理論 (4) タンパク質立体構造の比較と予測

マイクロシミュレーションにおける可変属性セル問題と解法

京都大学化学研究所バイオインフォマティクスセンター

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（５）木構造データ間の編集距離

生物科学科(高分子機能学) 生体高分子解析学講座（第3）スタッフ教授新田勝利助教授出村誠助手相沢智康

京都大学化学研究所バイオインフォマティクスセンター

奈良女子大集中講義バイオインフォマティクス (10) スケールフリーネットワーク

配列および化合物データ解析のためのカーネル法

生命情報学入門タンパク質の分類法演習 2011年6月14日

情報生命科学特別講義III （11） RNA二次構造予測

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

生命情報学入門配列のつなぎ合わせと再編成

Deep Learningを用いたタンパク質のコンタクト残基予測

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（３）配列アライメント

膜タンパク質の立体構造予測.

決定木とランダムフォレスト和田　俊和.

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

SVMを用いた生体分子への金属結合部位予測手法の提案

数理科学特別講義バイオインフォマティクスにおける確率モデル

情報生命科学特別講義III （12）タンパク質立体構造の比較と予測

京都大学化学研究所バイオインフォマティクスセンター

神奈川科学技術アカデミーバイオインフォマティクスコース蛋白質立体構造予測 I,II,演習

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Keigo Gohda / CAMM-Kansai

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

京都大学化学研究所バイオインフォマティクスセンター

明治大学大学院理工学研究科総合講義C バイオインフォマティクスにおける数理的手法

分子生物情報学(2) 配列のマルチプルアライメント法

情報生命科学特別講義III （13）固定パラメータアルゴリズムと部分k木

生命情報学特論（８）複雑ネットワークと制御理論

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

サポートベクターマシンを用いたタンパク質スレッディングのためのスコア関数の学習情報科学科4年 81025G 蓬来祐一郎.

九州大学大学院情報学専攻特別講義（６）固定パラメータアルゴリズムと部分k木

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

九州大学大学院情報学専攻特別講義（５）タンパク質立体構造の比較と予測

タンパク質.

Data Clustering: A Review

タンパク質-リガンド複合体への共溶媒効果の系統的解析

サポートベクターマシン Support Vector Machine SVM

クロスバリデーションを用いたベイズ基準によるHMM音声合成

遺伝的交叉を用いた並列シミュレーテッドアニーリングによるタンパク質立体構造予測

京都大学化学研究所バイオインフォマティクスセンター

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

MD計算による血小板細胞膜蛋白とリガンド結合の立体構造および結合の力学特性の解明(loss of function 型変異体に関して)

奈良女子大集中講義バイオインフォマティクス (7) 進化系統樹

生命情報学特論（６）固定パラメータアルゴリズムと部分k木

生命情報学（８）生物情報ネットワークの構造解析

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

生物情報ソフトウェア特論（１０）固定パラメータアルゴリズムと部分k木

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観

配列解析アルゴリズム特論配列アライメントI

分子生物情報学(0) バイオインフォマティクス

Presentation transcript:

生命情報学基礎論（５）タンパク質立体構造予測生命情報学基礎論　（５）タンパク質立体構造予測阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

講義予定４月１４日（月）: 生命情報学の基盤４月２１日（月）：配列の比較と相同性検索４月２８日（月）：進化系統樹推定４月１４日（月）:　生命情報学の基盤４月２１日（月）：　配列の比較と相同性検索４月２８日（月）：　進化系統樹推定５月１２日（月）：　隠れマルコフモデル５月１９日（月）：　タンパク質立体構造予測５月２６日（月）、６月２日（月）：　カーネル法６月９日（月）：　生物情報ネットワークの構造解析６月１６日（月）:　遺伝子ネットワークの解析と制御（田村）６月２３日（月）：　代謝ネットワークの堅牢性（田村）６月３０日（月）：　木の編集距離（田村）７月７日（月）：　タンパク質相互作用予測（林田）７月１４日（月）：　タンパク質複合体予測（林田）７月１７日（木）：　生物データの圧縮による比較（林田）

タンパク質立体構造

アミノ酸とタンパク質アミノ酸：２０種類タンパク質：アミノ酸の鎖（短いものはペプチドと呼ばれる）

タンパク質の種類と高次構造タンパク質の分類一次構造（アミノ酸配列）二次構造（α、β、それ以外（ループ、コイル））球状タンパク質繊維状タンパク質膜タンパク質一次構造（アミノ酸配列）二次構造（α、β、それ以外（ループ、コイル））三次構造（三次元構造、立体構造）四次構造（複数の鎖）

タンパク質立体構造の決定主にX線結晶解析かNMR解析によるアミノ酸配列決定より困難既知アミノ酸配列 >> 10万しかし、結晶中の構造しかわからないアミノ酸配列決定より困難半年から１年くらいかかることも珍しく無い既知アミノ酸配列 >> 10万既知立体構造 < 数万

タンパク質立体構造の特徴基本的には鎖（ひも）状二種類の特徴的な構造が頻繁に現れ、立体構造の骨格（コア）を作る αへリックス（らせん状の部分） βシート（ひも状の部分が並んだ部分）

タンパク質立体構造の例（１）立体構造:Cα原子の座標列で概要がわかる αへリックスとβシートが構造の骨格を形成

タンパク質立体構造の例（２）

タンパク質立体構造の例（３）

構造とアミノ酸の種類の関係 (球状）タンパク質 αへリックス βストランドループ領域内側：疎水性アミノ酸外側：親水性アミノ酸内側：疎水性アミノ酸　外側：親水性アミノ酸 αへリックス内側：疎水性　外側：親水性 βストランド疎水性と親水性が交互に現れるループ領域親水性が高い

立体構造分類

タンパク質立体構造データベース立体構造と機能の間には密接な関係配列が似ていなくても構造類似のタンパク質が多数存在 PDB (Protein Data Bank) 構造分類データベース SCOP（人間が分類） FSSP（DALIプログラムにより分類） CATH（SSAPプログラムなどにより分類）

タンパク質立体構造の分類構造分類の必要性 SCOPによる階層的クラス分け立体構造と機能の間には密接な関係配列が似ていなくても構造類似のタンパク質が多数存在 SCOPによる階層的クラス分け Class: 二次構造の組成（α、β、α+βなど）に基づく分類 Fold: 構造の類似性　←　スレッディング法の対象 Superfamily: 進化的類縁性 Family: 明らかな進化的類縁性

タンパク質立体構造予測

タンパク質立体構造予測アミノ酸配列から、タンパク質の立体構造（３次元構造）をコンピュータにより推定実験よりは、はるかに精度が悪いだいたいの形がわかれば良いのであれば、４～５割近くの予測率？

立体構造予測法の分類物理的原理に基づく方法 (ab initio法) ホモロジーモデリング２次構造予測格子モデルスレッディングエネルギー最小化、分子動力学法ホモロジーモデリング配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖の配置の最適化を分子動力学法などで実行２次構造予測各アミノ酸がα、β、それ以外のいずれかにあるかを予測ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用いれば80%近い予測率格子モデルスレッディング予測したい配列と既知構造の間のアラインメントを計算フラグメント・アセンブリー法数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後、分子動力学法などを用いてそれらをつなげ合わせる

二次構造予測アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測でたらめに推定しても、33.3%の的中率最も高精度なソフトを使えば、70%～80%の的中率ニューラルネット、HMM、サポートベクタマシンなどの利用

フォールド予測（Fold Recognition）立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく

タンパク質スレッディング立体構造（テンプレート）とアミノ酸配列の間のアラインメント

スレッディングとアラインメント

スレディング法の分類プロファイルによるスレッディング残基間ポテンシャルによるスレッディング動的計画法で最適解が計算可能 PSI-BLAST 3D-1D法構造アライメント結果に基づくスレッディング残基間ポテンシャルによるスレッディング NP困難。ただし、整数計画法などが効果的に適用可能コンタクトポテンシャル距離依存ポテンシャルその他のポテンシャル

プロファイルアラインメントにおけるスコア行列と類似スレッディングの場合、残基位置ごとにスコア(位置依存スコア)

プロファイルによるアラインメント動的計画法(DP)により最適解を計算スコア行列のかわりにプロファイルを使う

3D-1Dプロファイル最初のversionはEisenbergらが1991年に提案構造中の残基（位置）を１８種類の環境に分類二次構造（３種類）内外性＋極性（６種類）

3D-1Dプロファイル

その他のプロファイル配列のマルチプルアラインメントに基づくプロファイル立体構造のマルチプルアラインメントに基づくプロファイル作成 PSI-BLAST、HMM 立体構造のマルチプルアラインメントに基づくプロファイル作成角度情報なども考慮したプロファイルプロファイル vs プロファイルによるアラインメント

ポテンシャル型スコア関数を用いたスレッディング全体のポテンシャルエネルギーを最小化（Σfd(X,Y)が最小となるようなスレッディングを計算）

プロファイル型スコア関数とポテンシャル型スコア関数プロファイル型スコア関数　　　 (Eisenberg et al. 1991) ポテンシャル型スコア関数　　　　　 (Miyazawa, Sippl, . . .)

ポテンシャル型の場合の最適解計算厳密な最適解の計算は困難(NP完全) 様々なアルゴリズムの提案分枝限定法 (Lathrop & Smith 96, Ming Li et al. 2002) 多くの場合に現実的な時間で最適解を計算可能コア領域内でのギャップは許されない Frozen Approximation (Godzik & Skolnick 92) 通常のDPと同様のアルゴリズムが利用可能 Double DP (Jones, Taylor & Thornton 92) DPを二重に用いる立体構造アライメントなどにも応用可能

Frozen Approximation ○にFをアラインする際のスコアの正確な計算には、○に何がアラインされているかを知ることが必要 ⇒動的計画法では最適解　　　が計算できない Frozen Approximation：　もとの構造中で○に割り当てられている残基の情報を利用　　　　　　　　（図の例ではFとDのコンタ　　　クトポテンシャル）

スコア関数の導出残基の出現頻度の対数をとる統計力学のボルツマン分布などが根拠 3D-1Dスコア環境eのもとでの残基aの出現頻度：fe(a) (条件付確率）  score(e,a)=log (fe(a)/fe) ポテンシャル型スコア　（Quasichemical Approximation (Miyazawa 85)）距離dにおける残基ペアa,bの出現頻度：fd(a,b)  scored(a,b) =-log fd(a,b)

他のスコア関数導出法学習データ（既知構造データ）より以下を満たすスコア（エネルギー）を導出正しい構造のエネルギー　＜　誤った構造のエネルギ or Max( 誤った構造のエネルギー　－　正しい構造のエネルギー ) ニューラルネット (Goldstein et al. 92) モンテカルロ法 (Mirny,Shakhnovich 96) 線形計画法 (Maiorov,Crippen 92)

立体構造予測におけるブレークスルースレッディング法の発明(Eisenberg et al., 1991) 構造既知の配列と類似性が無い配列の構造予測 PSI-BLASTの開発(Altschul et al, 1997) プロファイルに基づくマルチプルアラインメントの繰り返し実行によるスレッディング David Baker によるフラグメントアセンブリ法(1997) 統計情報＋シミュレーション

フラグメント・アセンブリ法 Univ. Washington の Baker らが開発現時点では最強の方法とされている方法数残基から十数残基の断片構造（フラグメント）をプロファイル比較法などを用いて既知構造データベースから取得　　　　⇒　各断片配列ごとにいくつかの候補を選ぶフラグメントをつなぎ合わせることにより全体構造を予測。つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う

立体構造予測コンテスト：CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価半年以内に立体構造が実験により決定する見込みの配列（数十種類）をインターネット上で公開参加者は予測結果を送付構造決定後、正解とのずれなどを評価、順位づけ結果の公表会議、専門学術誌（Proteins）ホームページ http://predictioncenter.gc.ucdavis.edu/ 1994年より２年ごとに開催

まとめ立体構造比較立体構造予測スレッディング法構造分類データベースが作成されている正確な座標は予測できないだいたいの形の予測であれば４割～５割近く二次構造予測であれば、80%～程度スレッディング法プロファイル型スコア関数動的計画法で最適解が計算可能ポテンシャル型スコア関数 NP困難だが整数計画法などにより最適解が計算可能