九州大学大学院情報学専攻特別講義（５）タンパク質立体構造の比較と予測

Slides:

Advertisements

Similar presentations

1 高速フーリエ変換 (fast Fourier transform). 2 高速フーリエ変換とは？ – 簡単に言うとフーリエ変換を効率よく計算する方法 – アルゴリズムの設計技法は分割統治法に基づいている今回の目的は？ – 多項式の積を求める問題を取り上げ、高速フーリエ変換のアルゴリズムを用いた解法.

Advertisements

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

動的計画法を用いたアラインメント　小菅孝史.

情報生命科学特別講義III （5）配列アラインメント

生命情報学基礎論（２）配列の比較と相同性検索

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム

２行＋αチョンプに関する考察京都大学 ○後藤順一伊藤大雄.

情報生命科学特別講義III （１）文字列マッチング

ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.5 節主・双対法 pp

近似アルゴリズム第１０章終了時刻最小化スケジューリング

情報生命科学特別講義III （8）木構造の比較：順序木

奈良女子大集中講義バイオインフォマティクス (8) タンパク質立体構造予測

分子生物情報学動的計画法に基づく配列比較法 (ペアワイズアライメント法)

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

生命情報学入門タンパク質立体構造予測演習2011年5月31日

集中講義（九州大学数理学研究院）バイオインフォマティクスにおけるカーネル法およびグラフ理論 (4) タンパク質立体構造の比較と予測

９．ＮＰ完全問題とNP困難問題.

京都大学化学研究所バイオインフォマティクスセンター

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（５）木構造データ間の編集距離

京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （７）進化系統樹推定

パターン認識とニューラルネットワーク栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.

情報生命科学特別講義III （11） RNA二次構造予測

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

k 個のミスマッチを許した点集合マッチング・アルゴリズム

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（４）ブーリアンネットワーク

生命情報学基礎論（５）タンパク質立体構造予測

生命情報学入門配列のつなぎ合わせと再編成

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（３）配列アライメント

九州大学大学院情報学専攻特別講義（９）ブーリアンネットワークの解析と制御

ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究

膜タンパク質の立体構造予測.

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

情報生命科学特別講義III （12）タンパク質立体構造の比較と予測

神奈川科学技術アカデミーバイオインフォマティクスコース蛋白質立体構造予測 I,II,演習

人工知能特論９．パーセプトロン北陸先端科学技術大学院大学　鶴岡慶雅.

確率伝搬法と量子系の平均場理論田中和之東北大学大学院情報科学研究科

独立成分分析５　アルゴリズムの安定性と効率２００７/１０/２４　　　名雪　勲.

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

京都大学化学研究所バイオインフォマティクスセンター

量子系における確率推論の平均場理論田中和之東北大学大学院情報科学研究科

明治大学大学院理工学研究科総合講義C バイオインフォマティクスにおける数理的手法

九州大学大学院情報学専攻特別講義（３）配列解析

分子生物情報学(2) 配列のマルチプルアライメント法

情報生命科学特別講義III （13）固定パラメータアルゴリズムと部分k木

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

サポートベクターマシンを用いたタンパク質スレッディングのためのスコア関数の学習情報科学科4年 81025G 蓬来祐一郎.

Number of random matrices

九州大学大学院情報学専攻特別講義（２）配列アラインメント

九州大学大学院情報学専攻特別講義（４） RNA二次構造予測

九州大学大学院情報学専攻特別講義（６）固定パラメータアルゴリズムと部分k木

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

ナップサック問題クマさん人形をめぐる熱いドラマの結末.

B03 量子論理回路の最適化に関する研究西野哲朗，垂井淳，太田和夫，國廣昇電気通信大学　情報通信工学科.

遺伝的交叉を用いた並列シミュレーテッドアニーリングによるタンパク質立体構造予測

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

A02 計算理論的設計による知識抽出モデルに関する研究

九州大学大学院情報学専攻特別講義（８）ニューラルネットワークの離散モデル

奈良女子大集中講義バイオインフォマティクス (7) 進化系統樹

生命情報学特論（６）固定パラメータアルゴリズムと部分k木

生物情報ソフトウェア特論（4）配列解析II

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

生物情報ソフトウェア特論（１０）固定パラメータアルゴリズムと部分k木

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観

配列解析アルゴリズム特論配列アライメントI

分子生物情報学(0) バイオインフォマティクス

グラフの帯域幅連続多重彩色を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室西川和秀.

Presentation transcript:

九州大学大学院情報学専攻特別講義（５）タンパク質立体構造の比較と予測九州大学大学院　情報学専攻特別講義（５）タンパク質立体構造の比較と予測阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

講義内容バイオインフォマティクス概論（資料なし）配列アラインメント配列解析 RNA二次構造予測タンパク質立体構造の比較と予測固定パラメータアルゴリズムと部分k木グラフの比較と列挙ニューラルネットワークの離散モデルブーリアンネットワークの解析と制御講義の進展状況によっては内容に変更の可能性あり

立体構造アラインメント

配列が似ていなくても構造類似の蛋白質が多数存在構造分類データベースタンパク質立体構造比較の必要性立体構造と機能の間には密接な関係配列が似ていなくても構造類似の蛋白質が多数存在構造分類データベース SCOP（人間が分類） FSSP（DALIプログラムにより分類） CATH（SSAPプログラムなどにより分類）

立体構造アラインメント立体構造の類似性判定のために有用どのように回転、平行移動すれば、最適な残基間の対応づけ（アラインメント）が得られるかを計算配列アラインメントの場合と異なり、決定版というようなアルゴリズムが無い

構造アライメント例ヘモグロビンミオグロビン

RMSD(Root Mean Square Deviation) 点（e.g., Cα原子）の対応関係がわかっている場合に最適な重ね合わせとなる回転・平行移動を計算行列計算により O(n) 時間で計算可能 p1 p2 q1 p3 q4 q3 q2 p4 T

構造アラインメントプログラム: stralign 広くは利用されていないが、理論（計算幾何学）的考察に基づいてアルゴリズムが設計されている東大HGCよりダウンロード可能 [Akutsu 1996] 問題の定義入力：３次元点列: P=( p1,…, pm ), Q=(q1,…, qn),および、実数δ　　　（m ≦ n とする）出力：以下を満たし、かつ、長さ（アラインされる点のペアの個数）が最大となる P,Q 間のアライメント M （および、付随する平行・回転移動 T ）

stralign の基本アルゴリズム M0← {} for all triplets PP=(pi1,pi2,pi3) from P do for all triplets QQ=(qj1,qj2,qj3) from Q do Compute rigid motion TPP,QQ from PP to QQ Compute alignment M between TPP,QQ(P) and Q if |M| > |M0| then M0 ← M Output M0

TPP,QQ q3 p1 q1 q2 p3 p2 回転・平行移動 TPP,QQ の計算法 PP=(p1,p2,p3)、QQ=(q1,q2,q3) に対するTPP,QQ の計算法 p1 が q1 に重なるように PP を並行移動 p1p2 と q1q2 が同一直線上にあるように、 PP を回転移動 PP と QQ が同一平面上にあるように、PP を p1p2 を軸として回転移動 p1 q1 q2 p3 p2 TPP,QQ

T(P) と Q に対するアライメント M の計算 cδ q1 q2 q3 q4 p1 p2 p3

T(p) p3 p p2 p1 q TPP,QQ(p) 基本アルゴリズムの性能解析(1) T TPP,QQ 補題： PP=(p1,p2,p3), QQ=(q1,q2,q3)とし、T を |T(pi) - qi| ≦δ (i=1,2,3) を満たす変換とすると、任意の p  reg(p1,p2,p3) について以下が成立　　　|T(p) - q| ≦ δ ならば |T PP,QQ(p) - q| ≦ 8δ ≦δ ≦8δ q p T(p) TPP,QQ(p) T TPP,QQ p3 p2 p1

基本アルゴリズムの性能解析(2) 定理：　 δに対する最適アラインメントを MOPT とすると、基本アルゴリズムは O(n8) 時間で、以下を満たすアラインメント M （と変換 T）を出力する証明概略 MOPT に現れる P,Q の部分集合を、それぞれ、P’,Q’ とする。すると、P’ がregの中に全部含まれるような PPP’ が存在。 MOPT において、PP に対応する QQ も存在し、補題の仮定を満たす。よって、T(P’) は Q’ と 8δ 以内でマッチするため、アルゴリズムは |M|≧|MOPT| を満たすアライメントを出力。注：（かなり大きくなるが）定数倍の時間をかければ、8δ は δ に近づけることが可能

実用版 stralign 基本アルゴリズムは O(n8) 時間かかるので非実用的ランダムサンプリングや sparse DP などを用いると O(n5) 時間くらいに近づけることができるが、それでも非実用的そこで、理論的な性能保証はあきらめ、実用的なアルゴリズムを開発 PP,QQ として長さ 10～20残基程度の連続した fragment を利用し、TPP,QQ は rmsd の計算法により求める全部で O(n2) ペアしか調べないので、 O(n2)×DPの計算量= O(n4)時間。実際には rmsd が大きいペアには DP を行わないため、より高速。解の精度を高めるため、「アライメント ⇒ rmsd fitting」を数回繰り返す多くの場合、数秒程度でアライメント可能

他の構造アラインメント・アルゴリズム数多くの構造アライメント手法が提案例 DALI（距離行列のアラインメント） SSAP(二重DP) [Taylor & Orengo 1989] CE (Combinatorial Expansion) [Shindyalov & Bourne 1998] VAST (Vector Alignment Search Tool) [Gibrat et al. 1998] DP+Iterative Improvement [Gernstein & Levitt 1998] StrMul (二重ＤＰを基にした多重構造アラインメント） [Daiyasu & Toh 2000]

DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix （同一タンパク P 内の）残基間の距離を行列形式で表現したもの P と Q の distance matrix （ただし、アラインメントされる残基のみから構成される行列）ができるだけ類似するようなアラインメントを計算 Simulated Annealing に類似した方法を用いて、アラインメントを計算 3 5 8 6 1 4 2 7 G L A D V E R - アラインメント

Contact Map Overlap (CMO) 問題（１）立体構造をグラフで表現 {vi,vj}E ⇔ 残基 vi と vj 間の距離がθ以内以下の制約のもとでアラインされる残基ペアを最大化アライメントにおいて (vi,uk) と (vj,ul) が対応するなら、 {vi,vj}E　⇔ {uk,ul}E’ K L V A U C I P G H

Contact Map Overlap (CMO) 問題（２） NP困難 [Goldman et al. 1999] しかし、実際多くのタンパク質立体構造について最適解が計算可能 [Caprara et al. 2004] 整数計画法の利用分枝限定法の利用グラフの最大クリーク問題に還元可能（下図参照）深く関連する問題 RNA二次構造比較 [G-H. Lin et al. 2002] ペアエネルギー関数のもとでのスレッディング [Akutsu & Miyano 1999] vi vj uk ul

構造のマルチプルアライメントの困難性いくつかのアルゴリズム( CE-MC, StrMul, … ) が提案されているが、ヒューリスティクスに基づいており、解の性能保証は無い配列のマルチプルアラインメントと同様に本質的な困難さ(NP困難)があると予想される実際、以下の問題として解釈すると、NP困難最大共通部分点集合問題(LCP) [Akutsu & Halldorson 2000] 入力： d 次元空間上の点集合 S1, S2, …, SN 出力：以下を満たし、最大の要素数を持つ d 次元空間上の点集合 C 各集合 Si に対し、等長変換 Ti が存在し、 T1(S1)  T2(S2) …TN(SN) = C

タンパク質立体構造予測

タンパク質立体構造予測アミノ酸配列から、タンパク質の立体構造（３次元構造）をコンピュータにより推定実験よりは、はるかに精度が悪いだいたいの形がわかれば良いのであれば、４～５割近くの予測率

立体構造予測法の分類物理的原理に基づく方法 (ab initio法) ホモロジーモデリング２次構造予測格子モデルスレッディング　立体構造予測法の分類物理的原理に基づく方法 (ab initio法) エネルギー最小化、分子動力学法ホモロジーモデリング配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖の配置の最適化を分子動力学法などで実行２次構造予測各アミノ酸がα、β、それ以外のいずれかにあるかを予測ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用いれば80%近い予測率格子モデルスレッディング予測したい配列と既知構造の間のアラインメントを計算フラグメント・アセンブリー法数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後、分子動力学法などを用いてそれらをつなげ合わせる

格子モデル折れ畳み経路のシミュレーションによる定性的理解 →フォールディングファンネルエネルギー最小の構造の計算法→NP困難スコア折れ畳み経路のシミュレーションによる定性的理解　→フォールディングファンネルエネルギー最小の構造の計算法→NP困難親水性アミノ酸疎水性アミノ酸スコア＝－９＝－５配列

格子モデルタンパク質構造予測のための、最も単純な数理モデル平面、もしくは、空間の格子点の中で折り曲げる隣にくる赤点（疎水性アミノ酸）の個数を最大にする　　　　　　　　　　　　（ただし、もともと隣にある点は対象外）配列親水性アミノ酸疎水性アミノ酸スコア＝９スコア最大＝最適解スコア＝５

格子モデルの最適解の計算最適解（最大値を持つ答）の計算はとても難しいスーパーコンピュータを使っても1000アミノ酸の問題は（たぶん）解けない最大値が計算できないなら、近似解（最適解に近い値を持つ答）は計算できないだろうか？ ⇒最適解はわからなくても、最適解の4分の1程度　　以上の値の答なら、いつでも速く計算可最適解がわからないのに、何でそんなことができるのだろうか？

格子モデル（HPモデル）の近似に関する理論的結果２次元で1/4近似、３次元で3/8近似　　　　　　　　　　　　(Hart & Istrail, 1995) ３次元でNP-Hard (Berger,Leighton,1998) ２次元でNP-Hard (Crescenzi et al.,1998) ２次元で1/3近似 (Newman, 2002)

最大値の見積もり性質（１）奇数番目の点は、偶数番目の点としか隣り合わない偶数番目の点は、奇数番目の点としか隣り合わない性質（２）以降ではわかりやすくするため、偶数番目の赤点は青点に書き換える性質（２）（はしの２点以外は）１個の点は２個の点としか隣り合わない X : 赤点の個数 Y : 青点の個数 X ≦Y とする (逆の時も同様）最大値 ≦2X+2

近似解の計算（１）もとの配列を中間くらいで切る前半分を青点が1個おきに並ぶように折り曲げる前半に青点の半分以上、後半に赤点の半分以上が来るように切る　　（そうできない場合には、赤と青を入れ替えれば大丈夫）前半分を青点が1個おきに並ぶように折り曲げる後半分を赤点が1個おきに並ぶように折り曲げる

近似解の計算（２）もとの配列を中間くらいで切る前半分を青点が1個おきに並ぶように折り曲げる後半分を赤点が1個おきに並ぶように折り曲げる折り曲げたものを向かい合わせにする

近似解の解析下側の赤点には、必ず青点が結合最適解（の値）は 2X+2 以下だった近似解は赤点の半分以上 ⇒ X/2 以上よって、もとの配列を中間くらいで切る前半に青い点の半分以上、後半に赤い点の半分以上が来るように切る前半分を青点が1個おきに並ぶように折り曲げる後半分を赤点が1個おきに並ぶように折り曲げる折り曲げたものを向かい合わせにする下側の赤点には、必ず青点が結合最適解（の値）は 2X+2 以下だった近似解は赤点の半分以上　⇒　X/2 　以上よって、

まとめ補足タンパク質立体構造アラインメントタンパク質立体構造予測タンパク質構造比較に利用、決定版（定式化）は無い比較的単純なアルゴリズムにより定数近似が可能タンパク質立体構造予測様々な定式化、方法が存在 HPモデルはNP困難であるが、定数近似が可能補足構造アラインメントに関して、今回と似た定式化のもとで O(n32) 時間で厳密解が計算可能 [Ambuhl et al.: Proc. ESA 2000] RMSDを用いた部分構造検索は平均的に高速に実行可能 [Shibuya: J. Comp. Biol. 2007] HPモデルの2次元の場合の近似は1/3まで改善 [Newman: Proc. SODA 2002]