神奈川科学技術アカデミーバイオインフォマティクスコース蛋白質立体構造予測 I,II,演習

Slides:

Advertisements

Similar presentations

Absolute Orientation. Absolute Orientation の問題二つの座標系の間における剛体 (rigid body) 変換を復元する問題である。例えば： 2 台のステレオカメラから得られた３次元情報の間の関係を推定する問題。 2 台のステレオカメラから得られた３次元情報の間の関.

Advertisements

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

日本バイオインフォマティクス学会バイオインフォマティクスカリキュラム中間報告

情報生命科学特別講義III （5）配列アラインメント

生命情報学基礎論（２）配列の比較と相同性検索

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （１）文字列マッチング

低分子化合物の結合情報を含む高精度タンパク質立体構造予測データベースを全世界に公開－創薬研究の効率化や新規機能性生体物質の創製に向けて－

自己重力多体系の１次元シミュレーション物理学科４年宇宙物理学研究室　丸山典宏.

生物学第６回　転写と翻訳和田　勝.

奈良女子大集中講義バイオインフォマティクス (8) タンパク質立体構造予測

タンパク質（Protein）～基本的なことについて～.

分子生物情報学動的計画法に基づく配列比較法 (ペアワイズアライメント法)

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

生命情報学入門タンパク質立体構造予測演習2011年5月31日

特論B 細胞の生物学第３回　タンパク質の形と働き和田　勝東京医科歯科大学教養部.

細胞と多様性の生物学第３回　転写と翻訳和田　勝東京医科歯科大学教養部.

奈良女子大集中講義バイオインフォマティクス (1) 分子生物学概観

生命情報学入門機械学習を用いたタンパク質の分類法 2011年6月7日

クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--

集中講義（九州大学数理学研究院）バイオインフォマティクスにおけるカーネル法およびグラフ理論 (4) タンパク質立体構造の比較と予測

京都大学化学研究所バイオインフォマティクスセンター

コアB-1 個体の構成と機能（５）生体物質の代謝

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

生物科学科(高分子機能学) 生体高分子解析学講座（第3）スタッフ教授新田勝利助教授出村誠助手相沢智康

2016年度植物バイオサイエンス情報処理演習第7回情報解析(1) 配列相同性解析・1

生物科学科(高分子機能学) 生体高分子解析学講座（第3）スタッフ教授新田勝利助教授出村誠助手相沢智康

翻訳 5’ → 3’ の方向リボソーム上で行われるリボソームは蛋白質とrRNAの複合体遺伝情報=アミノ酸配列

京都大学化学研究所バイオインフォマティクスセンター

配列および化合物データ解析のためのカーネル法

生命情報学入門タンパク質の分類法演習 2011年6月14日

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

生命情報学基礎論（５）タンパク質立体構造予測

Deep Learningを用いたタンパク質のコンタクト残基予測

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（３）配列アライメント

正規分布におけるベーテ近似の解析解と数値解東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

膜タンパク質の立体構造予測.

決定木とランダムフォレスト和田　俊和.

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

SVMを用いた生体分子への金属結合部位予測手法の提案

旭川医科大学教育研究推進センター阿久津弘明化学中村正雄、津村直美

数理科学特別講義バイオインフォマティクスにおける確率モデル

情報生命科学特別講義III （12）タンパク質立体構造の比較と予測

2018年度植物バイオサイエンス情報処理演習第5回公共データバンクの遺伝子情報

Keigo Gohda / CAMM-Kansai

京都大学化学研究所バイオインフォマティクスセンター

明治大学大学院理工学研究科総合講義C バイオインフォマティクスにおける数理的手法

分子生物情報学(2) 配列のマルチプルアライメント法

膜タンパク質のインフォマテイクス必要とされている課題.

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

植物系統分類学・第14回分子系統学の基礎と実践

サポートベクターマシンを用いたタンパク質スレッディングのためのスコア関数の学習情報科学科4年 81025G 蓬来祐一郎.

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

九州大学大学院情報学専攻特別講義（５）タンパク質立体構造の比較と予測

タンパク質.

2017年度植物バイオサイエンス情報処理演習第11回系統樹

タンパク質-リガンド複合体への共溶媒効果の系統的解析

遺伝的交叉を用いた並列シミュレーテッドアニーリングによるタンパク質立体構造予測

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

ポッツスピン型隠れ変数による画像領域分割

MD計算による血小板細胞膜蛋白とリガンド結合の立体構造および結合の力学特性の解明(loss of function 型変異体に関して)

奈良女子大集中講義バイオインフォマティクス (7) 進化系統樹

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観

配列解析アルゴリズム特論配列アライメントI

分子生物情報学(0) バイオインフォマティクス

Presentation transcript:

神奈川科学技術アカデミーバイオインフォマティクスコース蛋白質立体構造予測 I,II,演習阿久津　達也東京大学　医科学研究所ヒトゲノム解析センター

講義内容 I 蛋白質立体構造とその特徴立体構造データベース: PDB 立体構造の分類: SCOP 立体構造表示ソフト: RASMOL 構造予測法の分類

講義内容 II 物理的原理に基づく方法格子モデル二次構造予測法スレッディング法スコア関数立体構造予測コンテスト　CASP

実習内容立体構造の検索、表示、分類立体構造アライメント(DALI) 二次構造予測(PHD) フォールド予測（スレッディング） (PDB,RASMOL,SCOP) 立体構造アライメント(DALI) 二次構造予測(PHD) フォールド予測（スレッディング） (GTOP,FUGUE,3DPSSM) ホモロジーモデリング(FAMS) CASP

遺伝子と蛋白質遺伝情報の流れ遺伝子ゲノムタンパク質 DNA⇒RNA⇒タンパク DNA配列中で直接的に機能する部分染色体全体（半数体）遺伝情報の総体タンパク質アミノ酸（２０種類）の鎖

蛋白質立体構造予測アミノ酸配列から、蛋白質の立体構造（３次元構造）をコンピュータにより推定実験よりは、はるかに精度が悪いだいたいの形がわかれば良いのであれば、５割近くの予測率

アミノ酸と蛋白質アミノ酸：２０種類蛋白質：アミノ酸の鎖（短いものはペプチドと呼ばれる）

側鎖の例

アミノ酸コード表 Ala A アラニン Leu L ロイシン Arg R アルギニン Lys K リシン Asn N アスパラギン Met メチオニン Asp D アスパラギン酸 Phe F フェニルアラニン Cys C システイン Pro P プロリン Gln Q グルタミン Ser S セリン Glu E グルタミン酸 Thr T トレオニン Gly G グリシン Trp W トリプトファン His H ヒスチジン Tyr Y チロシン Ile I イソロイシン Val V バリン

アミノ酸の分類疎水性アミノ酸荷電アミノ酸（親水性）極性アミノ酸グリシン(疎水性に分類されることもある） Ala, Val, Leu, Ile, Phe, Pro, Met 荷電アミノ酸（親水性） Asp, Glu, Lys, Arg 極性アミノ酸 Ser, Thr, Tyr, His, Cys, Asn, Glu, Trp グリシン(疎水性に分類されることもある） Gly

蛋白質の種類と高次構造蛋白質の分類一次構造（アミノ酸配列）二次構造（α、β、それ以外（ループ、コイル））球状蛋白質繊維状蛋白質膜蛋白質一次構造（アミノ酸配列）二次構造（α、β、それ以外（ループ、コイル））三次構造（三次元構造、立体構造）四次構造（複数の鎖）

蛋白質立体構造の決定主にX線結晶解析かNMR解析によるアミノ酸配列決定より困難既知アミノ酸配列 > 10万しかし、結晶中の構造しかわからないアミノ酸配列決定より困難半年から１年くらいかかることも珍しく無い既知アミノ酸配列 > 10万既知立体構造 < 1万

蛋白質立体構造の特徴基本的には鎖（ひも）状二種類の特徴的な構造が頻繁に現れ、立体構造の骨格（コア）を作る αへリックス（らせん状の部分） βシート（ひも状の部分が並んだ部分）

構造とアミノ酸の種類の関係 (球状）蛋白質 αへリックス βストランドループ領域内側：疎水性アミノ酸外側：親水性アミノ酸内側：疎水性アミノ酸　外側：親水性アミノ酸 αへリックス内側：疎水性　外側：親水性 βストランド疎水性と親水性が交互に現れるループ領域親水性が高い

立体構造データベース PDB(Protein Data Bank ) SCOP FSSP／DALI 蛋白質立体構造データベース現在約16000データ（ただし重複あり） SCOP 立体構造分類データベース FSSP／DALI 立体構造アライメントデータベース／アライメントサーバー

蛋白質立体構造の分類構造分類の必要性 SCOPによる階層的クラス分け立体構造と機能の間には密接な関係配列が似ていなくても構造類似の蛋白質が多数存在 SCOPによる階層的クラス分け Class: 二次構造の組成（α、β、α+βなど）に基づく分類 Fold: 構造の類似性 Superfamily: 進化的類縁性 Family: 明らかな進化的類縁性

立体構造アライメント立体構造の類似性判定のために有用どのように回転、平行移動すれば、最適な残基間の対応づけが得られるかを計算 DALI,VASTなどいくつかのアルゴリズム

Rasmol 蛋白質立体構造表示ツール Windows版、UNIX版、LINUX版など（フリー）バックボーン表示、リボン形式など様々な形式での表示が可能マウスなどで、回転、拡大なども可能

立体構造予測法の分類力学的原理に基づく方法格子モデル２次構造予測スレッディング

物理的原理に基づく方法エネルギー最小化、もしくは、微分方程式を（数値的に）解く、などの物理的原理に基づく方法主として分子動力学法(Molecular Dynamics) 数十残基程度であれば、実際の蛋白質やペプチドと似た構造を推定可能（なことがある）構造の最適化や安定性の解析には実用的側鎖のパッキングの計算にも有効超並列計算機の利用　IBM BLUE GENEなど

分子動力学法エネルギーの極小化（Eを極小化）フォールディングのシミュレーション mi d2ri/dt2 = -∇i E　を差分化 E = Eb + Eθ + Eφ + Evdw + Eel Eb = ΣKb(r-r0)2 　　　　　　　　結合長 Eθ = ΣKθ(θ-θ0)2　　　　　　結合角 Eφ = ΣKφ[1+cos(nφ-δ)]　二面角　 Evdw = Σ[Aij/(rij2)-Bij/(rij6)]　　ファンデルワールス力 Eel = Σqiqj/(εrij) 静電相互作用（クーロン力）

格子モデル各残基が格子点にあると仮定予測よりも、フォールディングの定性的な理解のために利用される

格子モデルに基づく研究折れ畳み経路のシミュレーションによる定性的理解　→フォールディングファンネルエネルギー最小の構造の計算法→NP困難

二次構造予測アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測でたらめに推定しても、33.3%の的中率最も高精度なソフトを使えば、70%～80%の的中率ニューラルネット、HMM、サポートベクタマシンなどの利用

ニューラルネットによる二次構造予測

膜蛋白質の膜貫通領域予測膜貫通領域 αへリックス 7～１７残基程度の疎水性指標の平均値をプロット平均値が高い部分が膜貫通領域と推定

フォールド予測（Fold Recognition) 立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく

蛋白質スレッディング立体構造（テンプレート）とアミノ酸配列の間のアライメント

スレッディングとアライメント

蛋白質スレッディングによる構造予測構造未知の配列と既知の立体構造（数百種類程度）の間のスレッディングを、それぞれ、計算スレッディング結果のスコア（適合度）が最も高い構造を採用（スレッディングにより対応づけられた座標にアミノ酸を配置）必要があれば、分子動力学法などを用いて構造を最適化

スレディング法の分類プロファイルによるスレッディング残基間ポテンシャルによるスレッディング PSI-BLAST 3D-1D法構造アライメント結果に基づくスレッディング残基間ポテンシャルによるスレッディングコンタクトポテンシャル距離依存ポテンシャルその他のポテンシャル

プロファイルアライメントにおけるスコア行列と類似スレッディングの場合、残基位置ごとにスコア(位置依存スコア)

プロファイルによるアライメント動的計画法(DP)により最適解を計算スコア行列のかわりにプロファイルを使う

3D-1Dプロファイル最初のversionはEisenbergらが1991年に提案構造中の残基（位置）を１８種類の環境に分類二次構造　　　（３種類）内外性＋極性（６種類）

3D-1Dプロファイル

その他のプロファイル配列のマルチプルアライメントに基づくプロファイル立体構造のマルチプルアライメントに基づくプロファイル作成 PSI-BLAST、HMM 立体構造のマルチプルアライメントに基づくプロファイル作成角度情報なども考慮したプロファイル

アライメントプロファイルに基づくスレッディング

ポテンシャル型スコア関数を用いたスレッディング全体のポテンシャルエネルギーを最小化（Σfd(X,Y)が最小となるようなスレッディングを計算）

プロファイル型スコア関数とポテンシャル型スコア関数プロファイル型スコア関数　　　 (Eisenberg et al. 1991) ポテンシャル型スコア関数　　　　　 (Miyazawa, Sippl, . . .)

コンタクトポテンシャルと距離依存ポテンシャルコンタクトポテンシャル (Miyazawa... 1985) 比較的少ないデータからスコア関数を導出可能距離依存ポテンシャル (Sippl, . . .) 精度の高いスコア関数を得るには多くのデータが必要

ポテンシャル型関数を用いた場合の最適解の計算厳密な最適解の計算は困難(NP完全) 様々なアルゴリズムの提案分枝限定法 (Lathrop & Smith 94,96) 多くの場合に現実的な時間で最適解を計算可能コア領域内でのギャップは許されない Frozen Approximation (Godzik & Skolnick 92) 通常のDPと同様のアルゴリズムが利用可能 Double DP (Jones, Taylor & Thornton 92) DPを二重に用いる立体構造アライメントなどにも応用可能

最適解がDPで計算できない理由とFrozen Approximation Frozen Approximation もとの構造中で○に割り当てられている残基の情報を利用　　　　　　（図の例ではFとDのコンタクトポテンシャル）

スコア関数の導出残基の出現頻度の対数をとる統計力学のボルツマン分布などが根拠 3D-1Dスコア環境eのもとでの残基aの出現頻度：fe(a) 環境eの出現確率  score(e,a)=log (fe(a)/ fe) ポテンシャル型スコア　　　　　　　　　　（Quasichemical Approximation (Miyazawa 85)）距離dにおける残基ペアa,bの出現頻度：fd(a,b)  scored(a,b) =-log fd(a,b)

他のスコア関数導出法学習データ（既知構造データ）より以下を満たすスコア（エネルギー）を導出正しい構造のエネルギー　＜　誤った構造のエネルギ or Max( 誤った構造のエネルギー　－　正しい構造のエネルギー ) ニューラルネット (Goldstein et al. 92) モンテカルロ法 (Mirny,Shakhnovich 96) 線形計画法 (Maiorov,Crippen 92)

スレッディングに関するまとめプロファイル型ポテンシャル型スコア関数の導出 DPによりスレッディングが計算可能 DPは（直接は）適用不可 Frozen Approximation, Double DP, … コンタクトポテンシャル距離依存ポテンシャルスコア関数の導出対数頻度

立体構造予測コンテスト：CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価半年以内に立体構造が実験により決定する見込みの配列（数十種類）をインターネット上で公開参加者は予測結果を送付構造決定後、正解とのずれなどを評価、順位づけ

CASPの経過と結果の公表 CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000) CAFASP(1998,2000) 完全自動予測法の評価結果の公表会議ホームページ http://predictioncenter.llnl.gov/ 学術専門誌(Proteins)

予測カテゴリー３D coordinate Alignments to PDB structure 具体的な座標値まで計算→MDなど Alignments to PDB structure スレッディング Residue-residue contacts 残基間距離の推定 Secondary structure assignments 二次構造予測

各種サイト PDB（立体構造データベース） RASMOL（立体構造表示プログラム） PHD（二次構造予測システム） GTOP(PSI-BLASTベースの予測システム） CAFASP2 servers(各種スレッディングプログラムへのリンク）

まとめ立体構造予測実用的な予測法進行中のプロジェクト正確な座標は予測できないだいたいの形の予測であれば５割程度二次構造予測であれば、70%-80%程度実用的な予測法 PSI-BLASTに基づく方法が有力進行中のプロジェクト立体構造の網羅的決定→ 　　残りの構造はアライメントでほぼ確実に推定

演習１立体構造の検索、表示、分類実際の作業 PDB(http://www.rcsb.org/pdb/) RASMOL(http://www.umass.edu/microbio/rasmol/index2.htm) SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/) 実際の作業 PDBにてキーワード入力 (例：myoglobin, 1bov) RASMOLで表示 SCOPにて分類を確認

演習２立体構造アライメント、表示実際の作業 DALI/FSSP(http://www.ebi.ac.uk/dali/) FSSPにてmyoglobinと入力 1a6mをチェック 1a6m,1ash,1cpcAをチェック→アライメント結果の表示(narrow)→アライメント結果をセーブし、RASMOLで表示

演習３二次構造予測 PHD(http://www.embl-heidelberg.de/predictprotein/predictprotein.html) 実際の作業 DBGETでSwissprotをセレクトし、キーワード入力（例：prion,lectin）→配列データをコピーし、PHDに入力

演習４フォールド予測（PSI-BLASTベース）実際の作業 GTOP(http://spock.genes.nig.ac.jp/~genome/) 実際の作業演習３のデータをGTOPにコピー→結果を見る

演習５構造プロファイルなどに基づくスレッディング FUGUE(http://www-cryst.bioc.cam.ac.uk/~fugue/prfsearch.html) 3DPSSM(http://www.bmm.icnet.uk/servers/3dpssm/)

演習６、７ホモロジーモデリング CASP結果の閲覧 FAMS(http://physchem.pharm.kitasato-u.ac.jp/FAMS/fams.html) CASP結果の閲覧 http://predictioncenter.llnl.gov/