阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
動的計画法を用いたアラインメント  小菅孝史.
情報生命科学特別講義III (5)配列アラインメント
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (1) 文字列マッチング
低分子化合物の結合情報を含む高精度タンパク質 立体構造予測データベースを全世界に公開 -創薬研究の効率化や新規機能性生体物質の創製に向けて-
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
自己重力多体系の 1次元シミュレーション 物理学科4年 宇宙物理学研究室  丸山典宏.
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
集中講義(九州大学数理学研究院) バイオインフォマティクスにおける カーネル法およびグラフ理論 (4) タンパク質立体構造の比較と予測
マイクロシミュレーションにおける 可変属性セル問題と解法
京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(5) 木構造データ間の編集距離
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
京都大学 化学研究所 バイオインフォマティクスセンター
配列および化合物データ解析のためのカーネル法
生命情報学入門 タンパク質の分類法演習 2011年6月14日
情報生命科学特別講義III (11) RNA二次構造予測
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生命情報学基礎論 (5) タンパク質立体構造予測
生命情報学入門 配列のつなぎ合わせと再編成
Deep Learningを用いたタンパク質のコンタクト残基予測
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
九州大学大学院 情報学専攻特別講義 (9) ブーリアンネットワークの 解析と制御
膜タンパク質の 立体構造予測.
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
SVMを用いた生体分子への 金属結合部位予測手法の提案
情報生命科学特別講義III (12) タンパク質立体構造の比較と予測
神奈川科学技術アカデミー バイオインフォマティクスコース 蛋白質立体構造予測 I,II,演習
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Keigo Gohda / CAMM-Kansai
6. ラプラス変換.
京都大学 化学研究所 バイオインフォマティクスセンター
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
星形成時間の観測的測定 東大天文センター M2 江草芙実 第4回 銀河shop 2004/10/19.
九州大学大学院 情報学専攻特別講義 (3) 配列解析
分子生物情報学(2) 配列のマルチプルアライメント法
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Number of random matrices
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
九州大学大学院 情報学専攻特別講義 (5)タンパク質立体構造の比較と予測
タンパク質.
B03 量子論理回路の 最適化に関する研究 西野哲朗,垂井淳,太田和夫,國廣昇 電気通信大学 情報通信工学科.
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
■ 背景 ■ 目的と作業内容 分子動力学法とフェーズフィールド法の融合による 粒成長の高精度解析法の構築 jh NAH
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
行列 一次変換,とくに直交変換.
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
生物情報ソフトウェア特論 (10)固定パラメータアルゴリズムと 部分k木
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
配列解析アルゴリズム特論 配列アライメントI
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター 生命情報学 (7) タンパク質構造解析 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

タンパク質立体構造

アミノ酸とタンパク質 アミノ酸:20種類 タンパク質:アミノ酸の鎖(短いものはペプチドと呼ばれる)

タンパク質の種類と高次構造 タンパク質の分類 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 球状タンパク質 繊維状タンパク質 膜タンパク質 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖)

タンパク質立体構造の決定 主にX線結晶解析かNMR解析による アミノ酸配列決定より困難 既知アミノ酸配列 >> 10万 しかし、結晶中の構造しかわからない アミノ酸配列決定より困難 半年から1年くらいかかることも珍しく無い 既知アミノ酸配列 >> 10万 既知立体構造 < 数万

タンパク質立体構造の特徴 基本的には鎖(ひも)状 二種類の特徴的な構造が頻繁に現れ、立体構造の骨格(コア)を作る αへリックス(らせん状の部分) βシート(ひも状の部分が並んだ部分)

タンパク質立体構造の例(1) 立体構造:Cα原子の座標列で概要がわかる αへリックスとβシートが構造の骨格を形成

タンパク質立体構造の例(2)

タンパク質立体構造の例(3)

構造とアミノ酸の種類の関係 (球状)タンパク質 αへリックス βストランド ループ領域 内側:疎水性アミノ酸 外側:親水性アミノ酸 内側:疎水性アミノ酸 外側:親水性アミノ酸 αへリックス 内側:疎水性 外側:親水性 βストランド 疎水性と親水性が交互に現れる ループ領域 親水性が高い

立体構造アラインメント

タンパク質立体構造比較の必要性 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似のタンパク質が多数存在 構造分類データベース SCOP(人間が分類) FSSP(DALIプログラムにより分類) CATH(SSAPプログラムなどにより分類)

立体構造アラインメント 立体構造の類似性判定のために有用 どのように回転、平行移動すれば、最適な残基間の対応づけ(アラインメント)が得られるかを計算 配列アラインメントの場合と異なり、決定版というようなアルゴリズムが無い

構造アラインメント例 ヘモグロビン ミオグロビン

RMSD(Root Mean Square Deviation) 点(e.g., Cα原子)の対応関係がわかっている場合に最適な重ね合わせとなる回転・平行移動を計算 行列計算により O(n) 時間で計算可能 p1 p2 q1 p3 q4 q3 q2 p4 T

構造アラインメントプログラム: stralign 広くは利用されていないが、理論(計算幾何学)的考察に基づいてアルゴリズムが設計されている 問題の定義 入力: 3次元点列: P=( p1,…, pm ), Q=(q1,…, qn),および、 実数δ   (m ≦ n とする) 出力: 以下を満たし、かつ、長さ(アラインされる点のペアの個数)が最大となる P,Q 間のアラインメント M (および、付随する平行・回転移動 T )

stralign の基本アルゴリズム M0← {} for all triplets PP=(pi1,pi2,pi3) from P do for all triplets QQ=(qj1,qj2,qj3) from Q do Compute rigid motion TPP,QQ from PP to QQ Compute alignment M between TPP,QQ(P) and Q if |M| > |M0| then M0 ← M Output M0

TPP,QQ q3 p1 q1 q2 p3 p2 回転・平行移動 TPP,QQ の計算法 PP=(p1,p2,p3)、QQ=(q1,q2,q3) に対するTPP,QQ の計算法 p1 が q1 に重なるように PP を並行移動 p1p2 と q1q2 が同一直線上にあるように、 PP を回転移動 PP と QQ が同一平面上にあるように、PP を p1p2 を軸として回転移動 p1 q1 q2 p3 p2 TPP,QQ

T(P) と Q に対するアラインメント M の計算 cδ q1 q2 q3 q4 p1 p2 p3

基本アルゴリズムの性能解析(1) T(p) p3 p p2 p1 q TPP,QQ(p) T TPP,QQ 補題: PP=(p1,p2,p3), QQ=(q1,q2,q3)とし、T を |T(pi) - qi| ≦δ (i=1,2,3) を満たす変換とすると、 任意の p  reg(p1,p2,p3) について以下が成立    |T(p) - q| ≦ δ ならば |T PP,QQ(p) - q| ≦ 8δ ≦δ ≦8δ q p T(p) TPP,QQ(p) T TPP,QQ p3 p2 p1

基本アルゴリズムの性能解析(2) 定理:  δに対する最適アラインメントを MOPT とすると、基本アルゴリズムは O(n8) 時間で、以下を満たすアラインメント M (と変換 T)を出力する 証明概略 MOPT に現れる P,Q の部分集合を、それぞれ、P’,Q’ とする。すると、P’ がregの中に全部含まれるような PPP’ が存在。 MOPT において、PP に対応する QQ も存在し、補題の仮定を満たす。よって、T(P’) は Q’ と 8δ 以内でマッチするため、アルゴリズムは |M|≧|MOPT| を満たすアラインメントを出力。 注: (かなり大きくなるが)定数倍の時間をかければ、8δ は δ に近づけることが可能

実用版 stralign 基本アルゴリズムは O(n8) 時間かかるので非実用的 ランダムサンプリング や sparse DP などを用いると O(n5) 時間くらいに近づけることができるが、それでも非実用的 そこで、理論的な性能保証はあきらめ、実用的なアルゴリズムを開発 PP,QQ として 長さ 10~20残基程度の連続した fragment を利用し、TPP,QQ は rmsd の計算法により求める 全部で O(n2) ペアしか調べないので、 O(n2)×DPの計算量= O(n4)時間 。実際には rmsd が大きいペアには DP を行わないため、より高速。 解の精度を高めるため、「アラインメント ⇒ rmsd fitting」 を数回繰り返す 多くの場合、数秒程度でアラインメント可能

他の構造アラインメント・アルゴリズム 数多くの構造アライメント手法が提案 例 DALI(距離行列のアラインメント) SSAP(二重DP) [Taylor & Orengo 1989] CE (Combinatorial Expansion) [Shindyalov & Bourne 1998] VAST (Vector Alignment Search Tool) [Gibrat et al. 1998] DP+Iterative Improvement [Gernstein & Levitt 1998] StrMul (二重DPを基にした多重構造アラインメント) [Daiyasu & Toh 2000]

DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパク P 内の)残基間の距離を行列形式で表現したもの P と Q の distance matrix (ただし、アラインメントされる残基のみから構成される行列)ができるだけ類似するようなアラインメントを計算 Simulated Annealing に類似した方法を用いて、アラインメントを計算 3 5 8 6 1 4 2 7 G L A D V E R - アラインメント

タンパク質立体構造予測

タンパク質立体構造予測 アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 実験よりは、はるかに精度が悪い だいたいの形がわかれば良いのであれば、4~5割近くの予測率?

立体構造予測法の分類 物理的原理に基づく方法 (ab initio法) ホモロジーモデリング 2次構造予測 格子モデル スレッディング エネルギー最小化、分子動力学法 ホモロジーモデリング 配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖の配置の最適化を分子動力学法などで実行 2次構造予測 各アミノ酸がα、β、それ以外のいずれかにあるかを予測 ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用いれば80%近い予測率 格子モデル スレッディング 予測したい配列と既知構造の間のアラインメントを計算 フラグメント・アセンブリー法 数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後、分子動力学法などを用いてそれらをつなげ合わせる

二次構造予測 アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測 でたらめに推定しても、33.3%の的中率 最も高精度なソフトを使えば、70%~80%の的中率 ニューラルネット、HMM、サポートベクタマシンなどの利用

フォールド予測(Fold Recognition) 立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく

タンパク質スレッディング 立体構造(テンプレート)とアミノ酸配列の間のアラインメント

スレッディングとアラインメント

スレディング法の分類 プロファイルによるスレッディング 残基間ポテンシャルによるスレッディング 動的計画法で最適解が計算可能 PSI-BLAST 3D-1D法 構造アライメント結果に基づくスレッディング 残基間ポテンシャルによるスレッディング NP困難。ただし、整数計画法などが効果的に適用可能 コンタクトポテンシャル 距離依存ポテンシャル その他のポテンシャル

プロファイル アラインメントにおけるスコア行列と類似 スレッディングの場合、残基位置ごとにスコア(位置依存スコア)

プロファイルによるアラインメント 動的計画法(DP)により最適解を計算 スコア行列のかわりにプロファイルを使う

3D-1Dプロファイル 最初のversionはEisenbergらが1991年に提案 構造中の残基(位置)を18種類の環境に分類 二次構造(3種類) 内外性+極性(6種類)

3D-1Dプロファイル

その他のプロファイル 配列のマルチプルアラインメントに基づくプロファイル 立体構造のマルチプルアラインメントに基づくプロファイル作成 PSI-BLAST、HMM 立体構造のマルチプルアラインメントに基づくプロファイル作成 角度情報なども考慮したプロファイル プロファイル vs プロファイルによるアラインメント

ポテンシャル型スコア関数を用いたスレッディング 全体のポテンシャルエネルギーを最小化(Σfd(X,Y)が最小となるようなスレッディングを計算)

プロファイル型スコア関数と ポテンシャル型スコア関数 プロファイル型スコア関数    (Eisenberg et al. 1991) ポテンシャル型スコア関数      (Miyazawa, Sippl, . . .)

立体構造予測におけるブレークスルー スレッディング法の発明(Eisenberg et al., 1991) 構造既知の配列と類似性が無い配列の構造予測 PSI-BLASTの開発(Altschul et al, 1997) プロファイルに基づくマルチプルアラインメントの繰り返し実行によるスレッディング David Baker による フラグメントアセンブリ法(1997) 統計情報+シミュレーション

フラグメント・アセンブリ法 Univ. Washington の Baker らが開発 現時点では最強の方法とされている 方法 数残基から十数残基の断片構造(フラグメント)をプロファイル比較法などを用いて既知構造データベースから取得     ⇒ 各断片配列ごとにいくつかの候補を選ぶ フラグメントをつなぎ合わせることにより全体構造を予測。つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う

立体構造予測コンテスト:CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開 参加者は予測結果を送付 構造決定後、正解とのずれなどを評価、順位づけ 結果の公表 会議、専門学術誌(Proteins) ホームページ http://predictioncenter.gc.ucdavis.edu/ 1994年より2年ごとに開催

まとめ 立体構造比較 立体構造予測 スレッディング法 構造分類データベースが作成されている 比較のためには構造アラインメントが有用 ただし、決定版はなく様々な方法が提案されている 立体構造予測 正確な座標は予測できない だいたいの形の予測であれば4割~5割近く 二次構造予測であれば、70%-80%程度 スレッディング法 プロファイル型スコア関数 動的計画法で最適解が計算可能 ポテンシャル型スコア関数 NP困難だが整数計画法などにより最適解が計算可能