神奈川科学技術アカデミー バイオインフォマティクスコース 蛋白質立体構造予測 I,II,演習

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
情報生命科学特別講義III (5)配列アラインメント
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (1) 文字列マッチング
低分子化合物の結合情報を含む高精度タンパク質 立体構造予測データベースを全世界に公開 -創薬研究の効率化や新規機能性生体物質の創製に向けて-
自己重力多体系の 1次元シミュレーション 物理学科4年 宇宙物理学研究室  丸山典宏.
生物学 第6回 転写と翻訳 和田 勝.
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
タンパク質(Protein) ~基本的なことについて~.
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
特論B 細胞の生物学 第3回 タンパク質の形と働き 和田 勝 東京医科歯科大学教養部.
細胞と多様性の 生物学 第3回 転写と翻訳 和田 勝 東京医科歯科大学教養部.
奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
集中講義(九州大学数理学研究院) バイオインフォマティクスにおける カーネル法およびグラフ理論 (4) タンパク質立体構造の比較と予測
京都大学 化学研究所 バイオインフォマティクスセンター
コアB-1 個体の構成と機能(5)生体物質の代謝
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
翻訳 5’ → 3’ の方向 リボソーム上で行われる リボソームは蛋白質とrRNAの複合体 遺伝情報=アミノ酸配列
京都大学 化学研究所 バイオインフォマティクスセンター
配列および化合物データ解析のためのカーネル法
生命情報学入門 タンパク質の分類法演習 2011年6月14日
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
生命情報学基礎論 (5) タンパク質立体構造予測
Deep Learningを用いたタンパク質のコンタクト残基予測
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
膜タンパク質の 立体構造予測.
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
SVMを用いた生体分子への 金属結合部位予測手法の提案
旭川医科大学教育研究推進センター 阿久津 弘明 化学 中村 正雄、津村 直美
数理科学特別講義 バイオインフォマティクスにおける 確率モデル
情報生命科学特別講義III (12) タンパク質立体構造の比較と予測
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
Keigo Gohda / CAMM-Kansai
京都大学 化学研究所 バイオインフォマティクスセンター
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
分子生物情報学(2) 配列のマルチプルアライメント法
膜タンパク質のインフォマテイクス 必要とされている課題.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
植物系統分類学・第14回 分子系統学の基礎と実践
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
九州大学大学院 情報学専攻特別講義 (5)タンパク質立体構造の比較と予測
タンパク質.
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
タンパク質-リガンド複合体への共溶媒効果の系統的解析
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ポッツスピン型隠れ変数による画像領域分割
MD計算による血小板細胞膜蛋白とリガンド結合の立体構造および結合の力学特性の解明(loss of function 型変異体に関して)
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
配列解析アルゴリズム特論 配列アライメントI
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

神奈川科学技術アカデミー バイオインフォマティクスコース 蛋白質立体構造予測 I,II,演習 阿久津 達也 東京大学 医科学研究所 ヒトゲノム解析センター

講義内容 I 蛋白質立体構造とその特徴 立体構造データベース: PDB 立体構造の分類: SCOP 立体構造表示ソフト: RASMOL 構造予測法の分類

講義内容 II 物理的原理に基づく方法 格子モデル 二次構造予測法 スレッディング法 スコア関数 立体構造予測コンテスト CASP

実習内容 立体構造の検索、表示、分類 立体構造アライメント(DALI) 二次構造予測(PHD) フォールド予測(スレッディング) (PDB,RASMOL,SCOP) 立体構造アライメント(DALI) 二次構造予測(PHD) フォールド予測(スレッディング) (GTOP,FUGUE,3DPSSM) ホモロジーモデリング(FAMS) CASP

遺伝子と蛋白質 遺伝情報の流れ 遺伝子 ゲノム タンパク質 DNA⇒RNA⇒タンパク DNA配列中で直接的に 機能する部分 染色体全体(半数体) 遺伝情報の総体 タンパク質 アミノ酸(20種類)の鎖

蛋白質立体構造予測 アミノ酸配列から、蛋白質の立体構造(3次元構造)をコンピュータにより推定 実験よりは、はるかに精度が悪い だいたいの形がわかれば良いのであれば、5割近くの予測率

アミノ酸と蛋白質 アミノ酸:20種類 蛋白質:アミノ酸の鎖(短いものはペプチドと呼ばれる)

側鎖の例

アミノ酸コード表 Ala A アラニン Leu L ロイシン Arg R アルギニン Lys K リシン Asn N アスパラギン Met メチオニン Asp D アスパラギン酸 Phe F フェニルアラニン Cys C システイン Pro P プロリン Gln Q グルタミン Ser S セリン Glu E グルタミン酸 Thr T トレオニン Gly G グリシン Trp W トリプトファン His H ヒスチジン Tyr Y チロシン Ile I イソロイシン Val V バリン

アミノ酸の分類 疎水性アミノ酸 荷電アミノ酸(親水性) 極性アミノ酸 グリシン(疎水性に分類されることもある) Ala, Val, Leu, Ile, Phe, Pro, Met 荷電アミノ酸(親水性) Asp, Glu, Lys, Arg 極性アミノ酸 Ser, Thr, Tyr, His, Cys, Asn, Glu, Trp グリシン(疎水性に分類されることもある) Gly

蛋白質の種類と高次構造 蛋白質の分類 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 球状蛋白質 繊維状蛋白質 膜蛋白質 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖)

蛋白質立体構造の決定 主にX線結晶解析かNMR解析による アミノ酸配列決定より困難 既知アミノ酸配列 > 10万 しかし、結晶中の構造しかわからない アミノ酸配列決定より困難 半年から1年くらいかかることも珍しく無い 既知アミノ酸配列 > 10万 既知立体構造 < 1万

蛋白質立体構造の特徴 基本的には鎖(ひも)状 二種類の特徴的な構造が頻繁に現れ、立体構造の骨格(コア)を作る αへリックス(らせん状の部分) βシート(ひも状の部分が並んだ部分)

構造とアミノ酸の種類の関係 (球状)蛋白質 αへリックス βストランド ループ領域 内側:疎水性アミノ酸 外側:親水性アミノ酸 内側:疎水性アミノ酸 外側:親水性アミノ酸 αへリックス 内側:疎水性 外側:親水性 βストランド 疎水性と親水性が交互に現れる ループ領域 親水性が高い

立体構造データベース PDB(Protein Data Bank ) SCOP FSSP/DALI 蛋白質立体構造データベース 現在約16000データ(ただし重複あり) SCOP 立体構造分類データベース FSSP/DALI 立体構造アライメントデータベース/アライメントサーバー

蛋白質立体構造の分類 構造分類の必要性 SCOPによる階層的クラス分け 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似の蛋白質が多数存在 SCOPによる階層的クラス分け Class: 二次構造の組成(α、β、α+βなど)に基づく分類 Fold: 構造の類似性 Superfamily: 進化的類縁性 Family: 明らかな進化的類縁性

立体構造アライメント 立体構造の類似性判定のために有用 どのように回転、平行移動すれば、最適な残基間の対応づけが得られるかを計算 DALI,VASTなどいくつかのアルゴリズム

Rasmol 蛋白質立体構造表示ツール Windows版、UNIX版、LINUX版など(フリー) バックボーン表示、リボン形式など様々な形式での表示が可能 マウスなどで、回転、拡大なども可能

立体構造予測法の分類 力学的原理に基づく方法 格子モデル 2次構造予測 スレッディング

物理的原理に基づく方法 エネルギー最小化、もしくは、微分方程式を(数値的に)解く、などの物理的原理に基づく方法 主として分子動力学法(Molecular Dynamics) 数十残基程度であれば、実際の蛋白質やペプチドと似た構造を推定可能(なことがある) 構造の最適化や安定性の解析には実用的 側鎖のパッキングの計算にも有効 超並列計算機の利用 IBM BLUE GENEなど

分子動力学法 エネルギーの極小化(Eを極小化) フォールディングのシミュレーション mi d2ri/dt2 = -∇i E を差分化 E = Eb + Eθ + Eφ + Evdw + Eel Eb = ΣKb(r-r0)2          結合長 Eθ = ΣKθ(θ-θ0)2       結合角 Eφ = ΣKφ[1+cos(nφ-δ)] 二面角  Evdw = Σ[Aij/(rij2)-Bij/(rij6)]  ファンデルワールス力 Eel = Σqiqj/(εrij) 静電相互作用(クーロン力)

格子モデル 各残基が格子点にあると仮定 予測よりも、フォールディングの定性的な理解のために利用される

格子モデルに基づく研究 折れ畳み経路のシミュレーションによる定性的理解 →フォールディングファンネル エネルギー最小の構造の計算法→NP困難

二次構造予測 アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測 でたらめに推定しても、33.3%の的中率 最も高精度なソフトを使えば、70%~80%の的中率 ニューラルネット、HMM、サポートベクタマシンなどの利用

ニューラルネットによる二次構造予測

膜蛋白質の膜貫通領域予測 膜貫通領域 αへリックス 7~17残基程度の疎水性指標の平均値をプロット 平均値が高い部分が膜貫通領域と推定

フォールド予測(Fold Recognition) 立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく

蛋白質スレッディング 立体構造(テンプレート)とアミノ酸配列の間のアライメント

スレッディングとアライメント

蛋白質スレッディングによる構造予測 構造未知の配列と既知の立体構造(数百種類程度)の間のスレッディングを、それぞれ、計算 スレッディング結果のスコア(適合度)が最も高い構造を採用(スレッディングにより対応づけられた座標にアミノ酸を配置) 必要があれば、分子動力学法などを用いて構造を最適化

スレディング法の分類 プロファイルによるスレッディング 残基間ポテンシャルによるスレッディング PSI-BLAST 3D-1D法 構造アライメント結果に基づくスレッディング 残基間ポテンシャルによるスレッディング コンタクトポテンシャル 距離依存ポテンシャル その他のポテンシャル

プロファイル アライメントにおけるスコア行列と類似 スレッディングの場合、残基位置ごとにスコア(位置依存スコア)

プロファイルによるアライメント 動的計画法(DP)により最適解を計算 スコア行列のかわりにプロファイルを使う

3D-1Dプロファイル 最初のversionはEisenbergらが1991年に提案 構造中の残基(位置)を18種類の環境に分類 二次構造   (3種類) 内外性+極性(6種類)

3D-1Dプロファイル

その他のプロファイル 配列のマルチプルアライメントに基づくプロファイル 立体構造のマルチプルアライメントに基づくプロファイル作成 PSI-BLAST、HMM 立体構造のマルチプルアライメントに基づくプロファイル作成 角度情報なども考慮したプロファイル

アライメントプロファイルに基づくスレッディング

ポテンシャル型スコア関数を 用いたスレッディング 全体のポテンシャルエネルギーを最小化(Σfd(X,Y)が最小となるようなスレッディングを計算)

プロファイル型スコア関数と ポテンシャル型スコア関数 プロファイル型スコア関数    (Eisenberg et al. 1991) ポテンシャル型スコア関数      (Miyazawa, Sippl, . . .)

コンタクトポテンシャルと 距離依存ポテンシャル コンタクトポテンシャル (Miyazawa... 1985) 比較的少ないデータからスコア関数を導出可能 距離依存ポテンシャル (Sippl, . . .) 精度の高いスコア関数を得るには多くのデータが必要

ポテンシャル型関数を用いた場合の最適解の計算 厳密な最適解の計算は困難(NP完全) 様々なアルゴリズムの提案 分枝限定法 (Lathrop & Smith 94,96) 多くの場合に現実的な時間で最適解を計算可能 コア領域内でのギャップは許されない Frozen Approximation (Godzik & Skolnick 92) 通常のDPと同様のアルゴリズムが利用可能 Double DP (Jones, Taylor & Thornton 92) DPを二重に用いる 立体構造アライメントなどにも応用可能

最適解がDPで計算できない理由とFrozen Approximation Frozen Approximation もとの構造中で○に割り当てられている残基の情報を利用      (図の例ではFとDのコンタクトポテンシャル)

スコア関数の導出 残基の出現頻度の対数をとる 統計力学のボルツマン分布などが根拠 3D-1Dスコア 環境eのもとでの残基aの出現頻度:fe(a) 環境eの出現確率  score(e,a)=log (fe(a)/ fe) ポテンシャル型スコア          (Quasichemical Approximation (Miyazawa 85)) 距離dにおける残基ペアa,bの出現頻度:fd(a,b)  scored(a,b) =-log fd(a,b)

他のスコア関数導出法 学習データ(既知構造データ)より以下を満たすスコア(エネルギー)を導出 正しい構造のエネルギー < 誤った構造のエネルギ or Max( 誤った構造のエネルギー - 正しい構造のエネルギー ) ニューラルネット (Goldstein et al. 92) モンテカルロ法 (Mirny,Shakhnovich 96) 線形計画法 (Maiorov,Crippen 92)

スレッディングに関するまとめ プロファイル型 ポテンシャル型 スコア関数の導出 DPによりスレッディングが計算可能 DPは(直接は)適用不可 Frozen Approximation, Double DP, … コンタクトポテンシャル 距離依存ポテンシャル スコア関数の導出 対数頻度

立体構造予測コンテスト:CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開 参加者は予測結果を送付 構造決定後、正解とのずれなどを評価、順位づけ

CASPの経過と結果の公表 CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000) CAFASP(1998,2000) 完全自動予測法の評価 結果の公表 会議 ホームページ http://predictioncenter.llnl.gov/ 学術専門誌(Proteins)

予測カテゴリー 3D coordinate Alignments to PDB structure 具体的な座標値まで計算→MDなど Alignments to PDB structure スレッディング Residue-residue contacts 残基間距離の推定 Secondary structure assignments 二次構造予測

各種サイト PDB(立体構造データベース) RASMOL(立体構造表示プログラム) PHD(二次構造予測システム) GTOP(PSI-BLASTベースの予測システム) CAFASP2 servers(各種スレッディングプログラムへのリンク)

まとめ 立体構造予測 実用的な予測法 進行中のプロジェクト 正確な座標は予測できない だいたいの形の予測であれば5割程度 二次構造予測であれば、70%-80%程度 実用的な予測法 PSI-BLASTに基づく方法が有力 進行中のプロジェクト 立体構造の網羅的決定→   残りの構造はアライメントでほぼ確実に推定

演習1 立体構造の検索、表示、分類 実際の作業 PDB(http://www.rcsb.org/pdb/) RASMOL(http://www.umass.edu/microbio/rasmol/index2.htm) SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/) 実際の作業 PDBにてキーワード入力 (例:myoglobin, 1bov) RASMOLで表示 SCOPにて分類を確認

演習2 立体構造アライメント、表示 実際の作業 DALI/FSSP(http://www.ebi.ac.uk/dali/) FSSPにてmyoglobinと入力 1a6mをチェック 1a6m,1ash,1cpcAをチェック→アライメント結果の表示(narrow)→アライメント結果をセーブし、RASMOLで表示

演習3 二次構造予測 PHD(http://www.embl-heidelberg.de/predictprotein/predictprotein.html) 実際の作業 DBGETでSwissprotをセレクトし、キーワード入力(例:prion,lectin)→配列データをコピーし、PHDに入力

演習4 フォールド予測(PSI-BLASTベース) 実際の作業 GTOP(http://spock.genes.nig.ac.jp/~genome/) 実際の作業 演習3のデータをGTOPにコピー→結果を見る

演習5 構造プロファイルなどに基づくスレッディング FUGUE(http://www-cryst.bioc.cam.ac.uk/~fugue/prfsearch.html) 3DPSSM(http://www.bmm.icnet.uk/servers/3dpssm/)

演習6、7 ホモロジーモデリング CASP結果の閲覧 FAMS(http://physchem.pharm.kitasato-u.ac.jp/FAMS/fams.html) CASP結果の閲覧 http://predictioncenter.llnl.gov/