北里大学薬学部3年前期選択 2008年4月-7月 12回 担当者 梅山秀明、竹田-志鷹真由子、寺師玄記、加納和彦

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

生体情報を利用したオンライン認証システムに関する研 究 情報工学科 大山・山口・小尾研究室 学士課程4年田中 丈登.
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
低分子化合物の結合情報を含む高精度タンパク質 立体構造予測データベースを全世界に公開 -創薬研究の効率化や新規機能性生体物質の創製に向けて-
国内線で新千歳空港を利用している航空会社はどこですか?
Scalable Collaborative Filtering Using Cluster-based Smoothing
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
実証分析の手順 経済データ解析 2011年度.
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
時空間データからのオブジェクトベース知識発見
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
中性シイステインプロテアーゼブレオマイシン水解酵素は、脱イミノ化されたフィラグリンをアミノ酸へと分解するのに不可欠である
PlanetLab における 効率的な近隣サーバ選択法
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
北里大学薬学部3年前期選択 2008年4月-7月 12回 担当者 梅山秀明、竹田-志鷹真由子、寺師玄記、加納和彦
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
プログラム実行履歴を用いたトランザクションファンクション抽出手法
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
ソースコードの変更履歴における メトリクス値の変化を用いた ソフトウェアの特性分析
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
生命情報学基礎論 (5) タンパク質立体構造予測
Deep Learningを用いたタンパク質のコンタクト残基予測
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
膜タンパク質の 立体構造予測.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
SVMを用いた生体分子への 金属結合部位予測手法の提案
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
産学連携BICSシンポジウム シリーズ3回 (日本化学会春期年会 平成18年3月28日)
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
Keigo Gohda / CAMM-Kansai
今後の予定 4日目 10月22日(木) 班編成の確認 講義(2章の続き,3章) 5日目 10月29日(木) 小テスト 4日目までの内容
Internet広域分散協調サーチロボット の研究開発
Anja von Heydebreck et al. 発表:上嶋裕樹
京都大学 化学研究所 バイオインフォマティクスセンター
分子生物情報学(2) 配列のマルチプルアライメント法
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
適応的近傍を持つ シミュレーテッドアニーリングの性能
日本語タイトル(point 28) 第4回DSANJ Bio Conference’19 Open
Number of random matrices
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
タンパク質-リガンド複合体への共溶媒効果の系統的解析
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
全原子の位置 r(t) を求める(各原子がいつ,どこにあるか)
MOIRCSサイエンスゼミ 銀河団銀河のMorphology-Density Relation
時間連続性を考慮した 動画からの人物の姿勢推定
メソッドの同時更新履歴を用いたクラスの機能別分類法
MD計算による血小板細胞膜蛋白とリガンド結合の立体構造および結合の力学特性の解明(loss of function 型変異体に関して)
細胞膜受容体-天然物リガンド間架橋に最適化した架橋法の開発
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
混合ガウスモデル Gaussian Mixture Model GMM
北大MMCセミナー 第100回 附属社会創造数学センター主催 Date: 2019年7月11日(木) 16:30~18:00
Presentation transcript:

分子の立体構造と生命講義 6回目 3-Dimensional Molecular Structure for the Life Science 北里大学薬学部3年前期選択 2008年4月-7月 12回 担当者 梅山秀明、竹田-志鷹真由子、寺師玄記、加納和彦 毎週月曜日4時限 2:30-3:45 港区白金キャンパス1501教室 Hideaki Umeyama, Ph.D., Professor School of Pharmacy, Kitasato University 5-9-1 Shirokane, Minato-ku, Tokyo 108-8641, Japan phone : +81-3-5791-6330 fax : +81-3-3446-9553 e-mail:umeyamah@pharm.kitasato-u.ac.jp 港区白金5-9-1 北里大学薬学部教授 (理化学研究所客員主管研究員、東北大学未来研客員教授) 梅山秀明 http://famshelp.gsc.riken.jp/famsbase/index.html http://www.pd-fams.com/index_ja.html http://www.pharm.kitasato-u.ac.jp/bmd/files/achievement.html http://www.pharm.kitasato-u.ac.jp/bmd/ http://h20pharm.kitasato-u.websyllabus.jp/content/versionview/235/29

構造活性フォーラム2008 16:30~17:35 梅山秀明(北里大・理化学研究所客員主管研究員 兼任) 主催 日本薬学会構造活性相関部会 協賛 日本薬学会医薬化学部会,日本薬学会生物系薬学部会,日本薬学会薬学研究ビジョン部会,日本化学会,日本農芸化学会,有機合成化学協会,日本分析化学会,日本農薬学会,近畿化学協会,Combinatorial Chemistry 研究会 日時 平成19年6月20日(金) 会場 北里大学薬学部コンベンションホール 5.高能率インシリコパイプライン研究とドッキング医薬品候補化合物の選択 16:30~17:35 梅山秀明(北里大・理化学研究所客員主管研究員 兼任) 梅山秀明 高谷大輔 寺師玄記 加納和彦 竹田-志鷹真由子

高能率インシリコパイプライン研究とドッキング医薬品候補化合物の選択: Bioinformatics based Ligand-Docking and in-silico screening 梅山秀明 高谷大輔 寺師玄記 加納和彦 竹田-志鷹真由子  北里大学薬学部 生物分子設計学教室

研究の発展経過 バイオインフォマティクスに基づいたリガンドドッキングとインシリコスクリーニング ChooseLD CASP2,3,4,5,6,7,8 タンパク質立体構造予測コンテスト タンパク質モデリングソフト                                FAMS Circle Takeda-Shitaka M., Terashi G., Takaya D., Kanou K., Iwadate M, Umeyama H. Protein structure prediction in CASP6 using CHIMERA and FAMS. Proteins, 61(Suppl 7):122-127 (2005) Terashi G., Takeda-Shitaka M., Takaya D., Komatsu K., Umeyama H. Searching for protein-protein interaction sites and docking by the methods of molecular dynamics, grid scoring, and the pairwise interaction potential of amino acid residues. Proteins, 60:289–295 (2005) Terashi G, Takeda-Shitaka M, Kanou K, Iwadate M, Takaya D, Hosoi A, Ohta K, Umeyama H. Fams-ace: a combined method to select the best model after remodeling all server models. Proteins. 2007;69 Suppl 8:98-107. CAPRIタンパク質ータンパク質ドッキング構造予測 Circle Terashi G, Takeda-Shitaka M, Kanou K, Iwadate M, Takaya D, Umeyama H. The SKE-DOCK server and human teams based on a combined method of shape complementarity and free energy estimation. Proteins. 2007 Dec 1;69(4):866-72. タンパク質ーリガンド、タンパク質ータンパク質複合体予測      FAMS-Ligand & Complex Takeda-Shitaka M., Terashi G., Chiba C., Takaya D., Umeyama H. Medicinal Chemistry, 2, 191-201 (2006). タンパク質立体構造データの蓄積              RIKEN FAMSBASE 誘導適合を考慮したリガンドドッキング Genius バイオインフォマティクスに基づいたリガンドドッキングとインシリコスクリーニング ChooseLD Takaya D, Takeda-Shitaka M, Terashi G, Kanou K, Iwadate M, Umeyama H. Bioinformatics based ligand-docking and in-silico screening. Chem Pharm Bull (Tokyo); 2008 May;56(5):742-4

Arai らによる「誘導適合型受容体を対象にした受容体・リガンド結合解析について」より SARS Protease の活性部位近傍 構造活性相関情報 白色:初期構造(PDB code:1UK3) 球&ステック:1UK4のリガンド アミノ酸表示は構造活性相関に利用した活性部位残基 既知の複合体情報から構造活性相関を利用方法である。

立体構造アライメントによってSARS Protease (PDBID:1UK3) に既知リガンドを収集した。 このリガンド群かから必要な部品をつかって 未知の化合物をドッキングする

この講演の目的 相互作用が既知のタンパク質-リガンド複合体構造を用いて、 自由エネルギーの最小化を満たすように、 ドッキングする未知のリガンド構造を予測する式を定義することによって、 試薬ライブラリから新規阻害剤をインシリコ探索をする。

静電相互作用や原子間分散力といった古典物理的な 他のドッキング研究との関係 位置づけ 静電相互作用や原子間分散力といった古典物理的な ポテンシャル関数や疎水性相互作用 Fingerprint(FP) 医薬品データベース 化合物データベース 新たな関数 我々のアプローチはバイオインフォマティクスからせめて分子動力学につなげる とったものである。 Glide,FlexX

他の手法と類似しない方法を開発する必要がある。 新規のドッキングソフトが必要である背景 類似した 阻害剤候補 リスト 入手(購入)可能な化合物リスト(ZINC, MDL ACD, ナミキ等) 他の手法と類似しない方法を開発する必要がある。 新規 大きな製薬会社は入手可能なドッキングソフトはすべて用いると考えられる。 Glide

ChooseLD (CHOOse biological information Semi-Empirically on the Ligand Docking ) の方法

FPAScore (FingerPrint Alignment Score)算出に使用される ターゲットタンパク質の三次元座標 ターゲットリガンド Our protcol FPAScoreの定義 FPAScore (FingerPrint Alignment Score)算出に使用される 三次元化合物指紋(FP) ターゲットリガンドと ターゲットタンパク質の三次元座標                を入力情報とする。 予測複合体構造を出力する

ファミリータンパク質に結合したリガンドから FP Library (FP Band) の構築 ターゲットタンパク質のアミノ酸配列からファミリータンパク質配列を集めるために、アライメントソフトプログラム  PSI-BLASTを使用 ファミリータンパク質の立体構造をPDBから収集 タンパク質立体構造アライメント (CE) Z-Score 3.7以上のリガンドを結合したファミリータンパク質を集める 結合したリガンドから三次元FPをつくり、FP bandの作成

Fingerprint(FP) の構築方法 AZD2171化合物名 与えられた結合情報を用いて原子をたどる。たどる原子の数は2,3,4個である。(この数には理由があるので後述する。)各々の色線は算出されるfpを意味している。黒線は2個の原子をたどった場合。赤線は3個の場合。ピンクと青の線は4個の場合であり、同じ原子を通過しているがこれは許容される。緑の線は、異なる座標であるが同じ原子種をたどっており、後述のスコア関数のfpの重複度が加算される。 2,3,4個の結合した原子からなる     FP を構築する。3次元座標は含まない。

安定な場所に三次元FPがあると仮定する。 自由エネルギーが 安定な場所に三次元FPがあると仮定する。

スコアを計算するためのFP band 構築 FP bands を縮める 円筒 ターゲットタンパク質に特有のFP band が構築される。

三次元FP 基底変換によるシミュレーティドアニーリング法の提案(発見) FPAScore の計算 リガンドコンフォメーションはこの時点では変化しない。 スコアを計算する ためのFP band 三次元FP 基底変換によるシミュレーティドアニーリング法の提案(発見)

Simulated annealing 新規関数FPAScore が 最も高い複合体構造で解答する

フレッキシブルリガンドドッキング 10,000 ステップのシミュレティッドアニーリング ターゲットリガンドの配座変換 リガンド結合部位へ ドッキング 1サイクル FP アライメントを用いた フィッティングによる並進回転  10,000 ステップのシミュレティッドアニーリング  ターゲットリガンドとFP Library のFP vector のアライメントの実行。対応するFPの増大、減少、および原子座標の対応関係の変更 ドッキング候補構造 の収集 ドッキング構造のプール FPAScoreが最も大きい構造を選択 18

Simulated Annealing 時のFPAScore の関数 3-Dimensional Finger Print Alignment をRMSD利用してのScore化

数式1 FPAScore を算出する関数は Aligned_fp アライメントされた複数三次元FP Fp_rmsd   選択した複数三次元FPの最小自乗fit の rmsd Molecule   予測複合体構造の座標(タンパク質とリガンド)              を引数とする。

数式2(BaseScore) k1 は FP の重ね合わせの精度をどこまで厳密にするかをきめる スケール因子である。 k1が大きくなったときに、rmsdが大きい(悪い)とScoreが 小さくなるような定数である。

Case1_S 5.0×4.0 Case3_S 1.0×4.0 (今回は使用しない) Case2_S 2.5×4.0 リガンド分子内FP 既知リガンドに 依存しないFP Case3_S 1.0×4.0 (今回は使用しない) Case2_S 2.5×4.0

数式3(fp_volume) *nafp : リガンドが FPをどれだけ満たしているかを表す。 *nap :標的タンパク質領域にリガンドの座標が属する領域であり、標的タンパク質との衝突具合を表現している。 *k2 : 標的タンパク質に結合したFP Library のリガンド集団の結合空間が占有する領域を重視する定数ある。 *k3: 標的タンパク質の占有する領域に対するドッキングリガンドの衝突する許容度因子である。 nafpはNumber of Ligand Atom covering Fingerprintの事であり、 これはCElib を構成する低分子の原子を用いて作成された固有格子点領域にdocked ligand moleculeの座標がセンス有する格子点の数である。即ち、nafpにより、docked ligand moleculeが fingerprintをどれだけ満たしているか表す。 napはNumber of Ligand Atom covering Proteinの事であり、これは標的タンパク質を構成する原子より作成される固有格子点領域にリガンドmoleculeの座標が属する数であり、標的タンパク質との衝突具合を表現している。 k2 はその標的タンパク質のfamily のタンパク質に結合したリガンド集団の結合空間を占有する領域を重視する定数であり、大きくすれば大きなリガンドが大きなスコアを

古典的物理関数におけるLenard Jones ポテンシャルに相当する。 数式3(fp_volume)は、リガンド原子が総三次元FP空間占める 個数(nafp)と、リガンド原子がタンパク質と衝突する個数(nap)をバランスする関数である。 古典的物理関数におけるLenard Jones ポテンシャルに相当する。

数式4(fp_contact_surface) nfpcontact : atom(i)が属する格子点に属している原子とある一定の距離(Default 3.8)で接触しているレセプタータンパク質の原子の個数 natom : atom(i)が属する格子点に属するFP Library を構成するの原子の数 となる。 hi : 特に重要な生化学的情報がある場合は使用する。 デフォルトでは 0 を用いる。 nfpcontact : fp に属している原子とある一定の距離(Default 3.8)で 接触しているレセプタータンパク質の原子の個数 また、natmの定義は次の通りである。 natom : 同一格子点に属するCElib由来の化合物を構成する原子の数 となる。 同じリガンド分子であって、PDBのIDコードが違うという場合について、現在は重複して数えるその善し悪しは検討課題となるが、トレーニングセットを研究では重複を許している。 また、hiの定義は次の通りである。 hi : 特に重要な生化学的情報がある場合は使用する。 デフォルトでは 0 を用いる。即ちCircleなどの3D-1D法によって、標的タンパク質との安定的な接触が示唆された場合に導入される改正 fpによって生じる sort_density_of_atom は density_of_atomの分布を 大きい方から順に並べ替えたものである。

数式4(fp_contact_surface)は 受容体と接しているFPを優遇する関数である。

ITAI, Akiko’s patent 発明の名称:生体高分子-リガンド分子の安定複合体構造の探索方法 リガンド結合部位の水素結合性官能基と水素結合しうるリガンドのヘテロ原子を網羅的に対応づける。ダミー原子を発生させ、最小自乗法でfitting(Kabsh法)し、リガンド結合部位の座標系に変更する。 リガンドの配座を変化させながら、ドッキングする。 エネルギーはリガンド結合部位の三次元格子点(レナードジョーンズポテンシャル、静電相互作用:Einter)および、分子内エネルギー(例えば、AMBER:Eintra)、水素結合(例えば、Simplex: Etotal = Einter + Eintra + Whb(水素結合の重み)*Nhb(水素結合の数)*Chb(一個の水素結合安定化エネルギー))を用いる。 経験的物理関数をもちいたドッキング

結果

Epidermal growth factor receptor (EGFR) を (1) ChooseLDのドッキング性能  T85 (85個のリガンド結合タンパク質のベンチマークセット)をもちいたk1の最適化 Hartshorn, M. J., Verdonk, M. L., Chessari, G., Brewerton, S. C. & Mooij, W. T. M. Diverse, High-Quality Test Set for the Validation of Protein-Ligand Docking Performance J. Med. Chem. 50, 726-741 (2007) T133 (133個のリガンド結合タンパク質のベンチマークセット)を用いた予測精度の検証 Jones, G., Willett, P., Glen, R. C., Leach, A. R. & Taylor, R Development and Validation of a Genetic Algorithm for Flexible Docking J. Mol. Biol. 267, 727-748 (1997) (2) ChooseLDのインシリコスクリーニング性能  Epidermal growth factor receptor (EGFR) を   ターゲットとした場合のk2 とk3の最適化 と      インシリコスクリーニング

Summary of benchmark set

T85とT133のトレーニング計算で使用した 既知タンパク質ーリガンド複合体情報 2007年 8月 31日時点でのPDBを使用した。

T85とT133のトレーニング計算で使用した リガンド初期コンフォメーションの発生方法 リガンド初期コンフォメーションは二面角をランダムに変更して、rmsd が最も大きい構造を使用した。 Random change 初期リガンドの座標は用いない。

ベンチマークセットにおけるPDBIDの分布 K1の最適化をT85 で行った。 ベンチマークセットにおけるPDBIDの分布 T133 T85

ドッキングリガンドとタンパク質結合リガンドのFP 基底の類似性をTanimoto 係数(Tc)で調べた ここで、number_of_fp(assembly)はある集合assemblyに所属するfpの数である。 Tc は0(似ていない)から1.0(似ている)の範囲で動く a: fp が両方の fp band に存在する個数 b,c : fp が片方の fp band にのみ存在する個数 J. Chem. Inf. Comput. Sci. 2000, 40, 163-166

この研究のベンチマークテストにおける「成功」の定義 ドッキング後のリガンドの構造と実験構造のリガンドのRmsd(原子種類対応) が 2.0 Å以下  (Good) ドッキング後のリガンドの構造と実験構造のリガンドのRmsd が 2.5 Å以下 (Close) J. Mol. Biol. 267, 727-748 (1997) 本研究では2.0Å を成功とする。 J. Chem. Inf. Model. 47, 1609-1618 (2007) 但し、2.5Åならば、MD, QM等の手法によっては2.0Å以下に最適化できる可能性がある

T85におけるk1の最適化 K1 = 4.0 の時が、成功率平均が最も高い。 k1 は三次元 FP の重ね合わせの精度をどこまで厳密にするかをきめる スケール因子 1ターゲットタンパク質あたり10回計算し、2.0Å以下を成功とした。 得られた予測構造の数 830 840 K1 = 4.0 の時が、成功率平均が最も高い。

T85における各ターゲットについて10回中の成功数 (rmsd 2.0Å以下を成功とした : Good) すべて成功とすべて失敗のターゲットと二極化している。すべて成功が多い。

T85における 各ターゲットごとの10回中成功数 (rmsd 2.5Å以下を成功とした: Good + Close) 10回とも成功が増加した。

T85 における予測成功構造(rmsd 2.0Å以下) における衝突(2.0Å以下)の個数分布 2個の衝突例 古典物理学的エネルギー計算に対応するもとのして FPAScore における数式3(fp_volume)の衝突判定は機能している

ベンチマークセットにおけるPDBIDの分布 T85トレーニングセットで最適化したk1=4 を用いて T133 でドッキング性能を試験 ベンチマークセットにおけるPDBIDの分布 T133 T85

T133における成功率(rmsd 2.0A) Present work Rmsd 2.0Å以下(Good) の割合 J. Chem. Inf. Model. 2007, 47, 1609-1618 K.Onodera, K. Satou and H. Hirota T133における成功率(rmsd 2.0A) Present work Rmsd 2.0Å以下(Good) の割合 我々の手法においては、かくターゲットにおいて、10回のドッキングをおこなった つまり、計1160回のドッキングを行ったことになる。

(rmsd 2.0Å以下) DOCK 21.1% AutoDock 26.6% Tc上限値をさらに低くする ドッキングリガンドとタンパク質結合リガンドのFP 基底の類似性をTanimoto 係数(Tc)で調べ、ドッキングリガンドに似ているタンパク質結合リガンドを使わない程度 (rmsd 2.0Å以下) DOCK 21.1% AutoDock 26.6% Tc の上限値を下げると、使用できるドッキングリガンドに似ている結合リガンドの三次元FPが少なくなり 結果としてChooseLDの成功率は落ちる

T133 における予測成功構造(rmsd 2.0Å以下) における衝突(2.0Å以下)の個数分布 2個の衝突例 古典物理学的エネルギー計算に対応するもとのして FPAScore における衝突判定は機能している

T133における 各ターゲットごとの10回中成功数 (rmsd 2.0Å以下を成功とした: Good) すべて成功とすべて失敗のターゲットと二極化している

T133における 各ターゲットごとの10回中成功数 (rmsd 2.5Å以下を成功とした : Good + Close) 10回の成功ターゲット数が大幅に増えた。

T133における出現順位の選択と 成功率(rmsd 2.0A以下)の変化 T116において、何位まで選べば、2.0Aの構造が得られるかの割合。 10位までを選べば約65%で正解構造が含まれている。

Glide, GOLDとの比較(J Med Chem. 2004 Mar 25;47(7):1739-49 ) T133中で90 target についてGOLD, Glide の両方にrmsd 値の比較 90 ターゲットタンパク質 ChooseLD :10回ドッキングの上位2個を選び ベストの構造を選択。 Glide : 当該論文には記載なし、 GOLDに準ずると考える。 GOLD : the best of GA 20 run ベンチマークによって成績はある程度異なる

複数の有名ドッキングソフト間の 予測成功ターゲットタンパク質の 類似性(1.0 ~0) *a : どちらも成功 *b, c : どちらかが成功 *a : どちらも成功 *b, c : どちらかが成功 *d どちらも失敗 Tc が0.5(a=b+c)近傍であるのでChooseLDは Glide, GOLD, FlexXと比べて独自性がある。

T133 においてGOLDがドッキングできなかったターゲット(1) PDBID: 1DR1 TITLE: CHICKEN LIVER DIHYDROFOLATE REDUCTASE DOCKED LIGANSD: NADP RMSD: 1.743 FPAScore 1295.553 CYAN: Answer GREEN: Predicted ligand Structure The other: the binding site

T133 においてGOLDがドッキングできなかったターゲット(2) PDBID: 4EST TITLE: CRYSTAL STRUCTURE OF THE COVALENT COMPLEX FORMED BY A PEPTIDYL ALPHA,ALPHA-DIFLUORO-BETA-KETO AMIDE WITH PORCINE PANCREATIC ELASTASE AT 1.78-ANGSTROMS RESOLUTION DOCKED LIGAND: INHIBITOR ACE-*ALA-*PRO-*VAL-*DIFLUORO-*N-*PHENYLETHYLACETAMIDE RMSD: 1.729 FPASCORE: 451.291 CYAN: Answer GREEN: Predicted ligand Structure The other: the binding site

他のドッキングソフトとの 結合モード予測成功率の比較(1) PDBに登録されている複合体既知構造でのテスト (116ターゲット;実験構造とRMSDが2Å以下で予測成功) ChooseLD Onodera et. al. J. Chem. Inf. Model. 47, 1609-1618 (2007) Tc:Tanimoto係数 実験情報が増えるに従い、予測精度が上昇していくと考えられる。 51

他のドッキングソフトとの 結合モード予測成功率の比較(2) PDBに登録されている複合体既知構造でのテスト (90ターゲット;GOLD,Glideの計算条件下;予測成功ターゲットの分布 ) 成功するターゲットにばらつきがあり、様々な手法を併用することが新規阻害剤発見に必須であると考える。 52

Epidermal growth factor receptor (EGFR) を (1) ChooseLDのドッキング性能  T85 のベンチマークセットをもちいたk1の最適化 T133 を用いた予測精度の検証 (2) ChooseLDのインシリコスクリーニング性能  Epidermal growth factor receptor (EGFR) を   ターゲットとした場合のk2 とk3の最適化 と      インシリコスクリーニング

EGFR kinase domain の阻害剤の探索を サンプルとしてk2,k3を最適化する ゲフィチニブ (イレッサ)などが阻害

ファミリータンパク質立体構造アライメントによってEGFRの活性部位(kinase domain) に複合体リガンドを集める。 このタンパク質結合リガンド群かから必要な部品である三次元FP を使って 未知の化合物リガンドをドッキングする

EGFR inhibitor情報の入手先

IC50既知化合物一覧(EGFR inhibitor 11個) 3um/L 3um/L 3nm/L 0.8um/L 1.2um/L 11nm/L 5um/L 2.4um/L 0.35um/L 35um/L 1.3um/L

Simulated annealing Simulated annealing 新規関数FPAScore が 最も高い複合体構造で解答する

K2 =2.0のEnrichment curveが最適である MDL CMC Libraryと新たに加えた IC50既知 化合物(EGFR inhibitor 11個)とを用いたk2値の最適化 Enrichment curve k2 K2 =2.0のEnrichment curveが最適である

K3の変化に対してEnrichment curveが IC50既知化合物(EGFR inhibitor 11個)とMDL CMC Library を用いたk3値の最適化(k2 = 1.0を使用した) K3の変化に対してEnrichment curveが あまり変化しなかったので、k3 = 1.0とした。

Tc 下限値の最適化 (上限値 1.00, 下限値 x ) (k1 = 4.0, k2 =2.0, k3 = 1.0) FP Library に対するリガンドの類似性Tanimoto 係数(Tc) 下限値 x Minimum Tc をいろいろと変更する。 0.32 が悪いのは、ライブラリーリガンドが極端に減っているためである。 FP Library に対するTc の下限値は 0.24 のときに良好なEnrichment curveが得られた。 あまり似ていないタンパク質結合リガンドは含まない方が良い。 反対に、似ているものだけに絞っても好ましくない。

EGFR(Epidermal growth factor receptor)をターゲットタンパク質としたインシリコスクリーニングの条件設定(IC50既知化合物の順位) Fingerprint libraryに含めるリガンドと試薬との類似度の下限値 Epidermal growth factor receptor 500位までに既知活性化合物が5個出現する。 62

試薬ライブラリ (MDL ACD Library)に対する インシリコスクリーニングのための 絞込み条件1 下記のEGFR 特異的 FP band と試薬ライブラリ(MDL ACD Library)の各化合物のFP band のTc を算出する 上記の記述に従って、計算されたTcの大きい順から試薬ライブラリを20000 化合物までに絞り込む。 EGFR 特異的 FP band

EGFR のATPを基質とするkinase ドメインに対する インシリコスクリーニングの結果(100位まで表示) 試薬ライブラリに ATP 誘導体が多く存在する オレンジはP原子 上記のオレンジはリン原子であり、ほとんどがATP 誘導体であるため 新規阻害剤を探索する際には、ATP 類似体は省く必要がある。 ATP誘導体を除外し、試薬ライブラリからドラッグライクの化合物を抽出する必要がある。

試薬ライブラリ (MDL ACD Library)に対する インシリコスクリーニングのための 絞込み2: ドッキング構造絞り込み 分子量350以上800以下の低分子、リンを含まない。 重要な水素結合をしているか。(METの主鎖の窒素) タンパク質ーリガンドの衝突 2.0 A 以下が存在するドッキングリガンド分子をのぞき上位を選択した。

Kinase ドメインの空間内における立体構造相補性を満たす 重要な水素結合を満たすドッキング構造がランキング内に存在した。 FPAScore 上位10個を表示(スティックモデル) Kinase ドメインの空間内における立体構造相補性を満たす 詳細はお見せできませんが、既知のホモロジーのあるkinase の複合体情報から 得られた水素結合情報(METM__98) などを満たしている化合物を スクリーニングすることができた。 重要な水素結合を満たすドッキング構造がランキング内に存在した。 購入可能な試薬(MDL ACD Library)であるので、すぐにでもEGFR kinase阻害剤の活性値の測定が可能である。

既知阻害剤から得たFP Library を使用して、 EGFR kinase ドメインに対するインシリコスクリーニング: FP Library を工夫することによりATP誘導体をさける事が可能である。

結果のまとめ 新しく定義したFPAScore をSA( Simulated Annealing)で最適化することによって、Rmsd 2.0 A 以下で予測できる割合はGOLDと同程度である。 Tc 上限値が低く設定した場合は DOCK, AutoDock と同程度であった。 ChooseLDはGlide, GOLD, FlexXと比べて独自性があった。 FPAScoreによるEGFRに対するドッキング構造の順位付けに関して、k1 = 4.0, k2 =2.0, k3= 1.0 既知阻害剤を上位に順位付けできるenrichment curveが得られた。 EGFR kinase ドメインに対するインシリコスクリーニングにおいて有望と考えられる化合物セットを得ることができた。(実験で証明の必要有)

ChooseLDの適用例(結合実験の証明が必要) 1. Epidermal growth factor receptor (EGFR)の TGFα binding ドメイン 阻害剤のインシリコスクリーニング 2. Vascular endothelial growth factor (VEGF) Receptor- 2 にKRN633, KRN951をドッキング 3. Plasmodium falciparum enoyl acyl carrier protein reductase に対する低分子(NAD)が介在した状態でのドッキング

EGFR のTGFα binding ドメインの阻害剤の探索 二量体形成 阻害

EGFR二量体形成阻害剤のインシリコスクリーニング TGFα binding domain EGFR (PDBID : 1MOX) EGFRが二量体を形成するために必要なペプチドであり、 阻害剤のターゲットとなる

タンパク質-タンパク質相互作用をFP Library をとして使用できることを示した。 TGFα binding ドメイン 近傍に TGF類似体のペプチドをFAMS Complex で モデリングし、その側鎖を切り出した。 (同じFPが多数得られる主鎖は除いた。) これから活性をはかる都合上詳しい平面構造は表示できない。 医薬品をドッキング 試薬をドッキング タンパク質-タンパク質相互作用をFP Library をとして使用できることを示した。

VEGFR-2 に対するKRN633, KRN951ドッキング構造の予測 IC50 = 1.16nm/L Mol Cancer Ther 2004;3(12). VEGF 血管内皮増殖因子である。 FAMS( J Mol Graph 18 258-72, 305-6 (2000)) でモデルを構築 (鋳型PDBID:2P2H_A Homology:99.3%)残基欠損を補うため KRN951 IC50 = 0.16nm/L Cancer Res 2006; 66: (18).

Simulated annealing 新規関数FPAScore が 最も高い複合体構造で解答する KRN633

予測構造のばらつきが少なく、信頼できる予測構造と考える。 VEGFR2 にKRN633をドッキング ドッキングに使用されたFP Library の上位10個のPDBID 2HZN_A , 1YWN_A , 2J5F_A , 2IVU_A , 2H8H_A , 2OH4_A , 1GAG_A , 1FPU_A ,2C0I_A , 2P4I_A ChooseLDによる予測構造 10 個 Tc range 1.00 - 0.08 10個とも同様の構造が得られた。 予測構造のばらつきが少なく、信頼できる予測構造と考える。

VEGFR-2 にKRN951をドッキング ドッキングに使用されたFP Library の上位10個のPDBID Maximum value of Tc in FP 0.285714285714286 DOCK 並 約20.8% 29.2%の間で成功している。 ドッキングに使用されたFP Library の上位10個のPDBID 2I0V_A , 2HZN_A, 2OH4_A , 1FGI_A , 1YWN_A , 1FPU_A , 2OFU_A, 2C0I_A , 2H8H_A , 2FGI_A ChooseLDによる予測構造 10 個 使用Tc range 1.00-0.08 FP Library Tc Maximum (0.29) 推定成功率24.3% 予測構造10個中8個がほぼ同じ構造であった。

NADを含んだ複合体をターゲットとした。 Plasmodium falciparum enoyl acyl carrier protein reductaseに対する低分子(NAD)が介在した状態でのドッキング 既知阻害剤 NAD NAD を介した阻害剤候補のデザインも可能である。 マラリア HEMでもHOHでもできる。 NADを含んだ複合体をターゲットとした。

医薬品ライブラリからドッキングし FPAScore上位10構造を解答 NAD ChooseLDはNAD, 水などの低分子が介在してもドッキングが可能である

Fingerprint alignment

ChooseLD(CHOOse biological information Semi-Empirically on the Ligand Docking)法による リガンドドッキング ターゲットタンパク質の 三次元座標 ターゲットリガンドの 三次元座標 複合体構造を予測 80

PDBに対するホモロジー検索。 既知タンパク質ーリガンド複合体構造を入手 ChooseLD法 概要 PDBに対するホモロジー検索。             既知タンパク質ーリガンド複合体構造を入手 タンパク質の立体構造アライメントにより、リガンドをターゲットタンパク質の座標系に変換し、figerprint library構築  (基本的な考え方:相互作用自由エネルギーを満たすと仮定したfigerprintを用いる) フレッキシブルリガンドドッキング C/C++で記述した。約20,000行。 テキスト処理はスクリプト言語(Perl Ruby等)を用いた。 81

ChooseLD法 FPAScore(fingerprint alignment score)  自由エネルギー最小を満たすようなfingerprintを選び出す関数    ドッキング項(Figerprintの一致度) 結合部位との衝突項 結合部位との 接触項 82

並列計算を常時利用 大量の計算を複数の計算機に分散する 並列計算を常時利用  大量の計算を複数の計算機に分散する 計算の分散 結果の収集 計算機の数が増えるほど  試薬リストを速く得ることができる  大量のターゲットタンパク質に対してインシリコスクリーニングが可能となる  ChooseLD法の使用プロトコル(rsh;メモリ非共有型並列計算) その他のプロトコル 世界中のネットワークにつながっている個人使用のデスクトップコンピュータを計算資源にする試み(BOINC等) 83

バーチャルライブラリの構築 (リガンドドッキングの準備過程) MDL® Available Chemicals Directory(年4回更新) MDL® Comprehensive Medicinal Chemistry(年1回更新) ナミキ商事 HTS 300万化合物 PostgreSQLを用いたテーブルによる化合物絞り込み、および 検索高速化 Tanimoto係数検索用関数をPostgresSQLの拡張関数として C言語で実装 84

インシリコスクリーニングの結果整理 (阻害剤候補リスト) SQLiteによる検索プログラムの実装 細かな検索条件の指定が可能(Perl、 Rubyで実装した) Webインターフェイスを介した結果の視覚化 ディスカッションに 使用できる。 85

iPS細胞時代における インシリコスクリーニングの役割 テーラーメイド医療 個人特有の細胞、組織、臓器 In-vitro とin-vivo の中間の活性試験 in-vivo 活性試験 in-vitro 活性試験 新薬の有効性、安全性試験 インシリコスクリーニングの加速が必要となる。 86

結論 新しく定義したFPAScore を用いるバイオインフォマティクスに基づいたリガンドドッキングとインシリコスクリーニング法、ChooseLD を開発した。 FPAScore をSimulated Annealing で最適化する方法によって、Rmsd 2.0 A 以下で予測できる割合はGOLDと同程度であり、Tc上限値が低い場合は DOCK, AutoDock と同程度であった。 性能は既存の古典的物理関数を用いるアルゴリズムと同程度であり、Glide, GOLD, FlexXと比べて独自性があった(従来法との併用でインシリコスクリーニングの精度が上昇すると期待される)。 EGFR のkinaseドメインを用いてターゲットタンパク質に応じて、FPAScore のk1, k2, k3 を最適化することにより良好なenrichment curve が得られることを示した。 応用としてEGFR dimer 阻害剤インシリコスクリーニング、VEGFR-2に対するKRN633, KRN951をドッキング、マラリアの標的タンパク質に対するインシリコスクリーニングでChooseLDの可能性を示した。

今後の検討課題 最適化アルゴリズムの改良 遺伝的アルゴリズム、レプリカ交換法等   遺伝的アルゴリズム、レプリカ交換法等 配列的に似ていない既知複合体構造からFP Library Ligand をえる PSI-Blast : Sequence-Profile Alignment -> Profile-Profile Alignment FP が全く存在しない場合への対応 3D1Dスコアが優位になるようにリガンドを配置 既存物理関数のドッキングソフトを用いてFP Library Ligand を作成

現状の課題 最適化アルゴリズムの改良 遺伝的アルゴリズム、レプリカ交換法等 配列的に似ていない既知複合体構造からFP Library を得る   遺伝的アルゴリズム、レプリカ交換法等 配列的に似ていない既知複合体構造からFP Library を得る PSI-Blast (Sequence-Profile Alignment) に加えて SPARK2, SP3 (Profile-Profile Alignment) FP が全く存在しない場合への対応  3D1Dスコアが優位になるようにリガンドを配置したり、古典的物理関数のドッキングソフト等を用いてFP Library を構築する * 将来、PDBの登録数の増加に伴い、ChooseLDの精度が向上すると考える。

バイオインフォマティクスに基づいた リガンドドッキングと インシリコスクリーニング法の開発 下記の発表資料を参考にしました。 バイオインフォマティクスに基づいた リガンドドッキングと インシリコスクリーニング法の開発 平成19年12月3日 課程博士 公開論文発表会 生物分子設計博士課程 DP-05103 高谷大輔 指導教授 梅山秀明

分子の立体構造と生命講義 6回目 3-Dimensional Molecular Structure for the Life Science 北里大学薬学部3年前期選択 2008年4月-7月 12回 担当者 梅山秀明、竹田-志鷹真由子、寺師玄記、加納和彦 毎週月曜日4時限 2:30-3:45 港区白金キャンパス1501教室 Hideaki Umeyama, Ph.D., Professor School of Pharmacy, Kitasato University 5-9-1 Shirokane, Minato-ku, Tokyo 108-8641, Japan phone : +81-3-5791-6330 fax : +81-3-3446-9553 e-mail:umeyamah@pharm.kitasato-u.ac.jp 港区白金5-9-1 北里大学薬学部教授 (理化学研究所客員主管研究員、東北大学未来研客員教授) 梅山秀明 http://famshelp.gsc.riken.jp/famsbase/index.html http://www.pd-fams.com/index_ja.html http://www.pharm.kitasato-u.ac.jp/bmd/files/achievement.html http://www.pharm.kitasato-u.ac.jp/bmd/ http://h20pharm.kitasato-u.websyllabus.jp/content/versionview/235/29