Presentation is loading. Please wait.

Presentation is loading. Please wait.

SVMを用いた生体分子への 金属結合部位予測手法の提案

Similar presentations


Presentation on theme: "SVMを用いた生体分子への 金属結合部位予測手法の提案"— Presentation transcript:

1 SVMを用いた生体分子への 金属結合部位予測手法の提案
中澤昌美✝ 高田雅美✝ 横田恭宣* 野口保*  関嶋政和*  城和貴✝   ✝奈良女子大学大学院人間文化研究科   * 産業技術総合研究所生命情報工学研究センター 機械学習を用いた生体分子への金属イオン結合部位予測手法とその評価について発表します.

2 目次 金属タンパク質 立体構造解析手法 Protein Data Bank (PDB)
Support Vector Machine (SVM) 金属結合予測手法 実験 まとめ このような流れで発表します. まず,研究背景として金属タンパク質についてカルモジュリンの例を挙げます. 現在行われているタンパク質の解析手法について説明します. 次に,本研究で用いるデータベースPDBとSVMについて述べます. そのあと,提案する金属結合の予測手法について説明し,その手法を用いた実験を行い,最後に本研究をまとめます.

3 金属タンパク質 金属タンパク質 = タンパク質 + 金属イオン 金属イオンの働き フォールディング 補酵素 1A0B 1PPT 2AC3 3
生体内には,金属イオンと結合したタンパク質が存在します. 金属タンパク質中の金属イオンは,タンパク質と結合することでフォールディングに強い影響を与えます. また,既知のタンパク質の約3分の1は,金属イオンが補酵素として必要であることが知られています. このように,金属イオンは生体内で重要な働きをします. 1A0B 1PPT 2AC3 3

4 Calmodulin 低 高 Caイオンの濃度 Caイオンを含む Caイオンを含まない 不活性酵素が結合し活性化 不活性酵素が結合しない
Ca2+/calmodulin 構造変化 金属タンパク質の例としてカルモジュリンがあります. カルモジュリンはカルシウムイオンの濃度に応じて,酵素活性の調節を行うタンパク質です. カルシウムイオン濃度が低い通常の状態では,カルシウムイオンを含まない構造をとっています. この構造では,不活性酵素と結合することができません. しかし,カルシウムイオンの濃度が上昇すると,カルモジュリンはカルシウムイオンと結合し,大きく構造を変化させます. すると,先ほどは結合できなかった不活性酵素と結合することが可能となり,その酵素を活性状態へと導きます. このように,金属イオンはタンパク質と結合することでタンパク質の機能を果たし,生体に大きな影響を与えます. Caイオンと結合しない状態 (1DMO) Caイオンと結合した状態 (3CLN) 4

5 タンパク質の解析手法 タンパク質の立体構造の解析手法 NMR (Nuclear Magnetic Resonance) X線結晶構造解析
コンピュータによる解析 NMR (Nuclear Magnetic Resonance) X線結晶構造解析 莫大な費用と時間が必要 現在NMRやX線結晶構造解析などにより,タンパク質の立体構造が解析が進められています. しかしこのような実験的手法では,膨大な費用と時間が必要です. そのため,実験設定が行いやすく,ターンアラウンドタイムが短縮できるコンピュータによる解析が期待されています. 実験設定が容易 ターンアラウンドタイムの短縮 5

6 コンピュータによる解析の問題点 他のアプローチを用いたソフトウェアが必要 タンパク質の立体構造が未決定 金属イオンのポテンシャル関数が不完全
コンピュータシミュレーションが困難 しかし,コンピュータによって金属イオンの結合性を解析する際にも問題があります. タンパク質の立体構造が決定していないものがあること, 金属イオンのポテンシャル関数が揃っていないことなどから, 分子動力学法などのコンピュータシミュレーションを行うのは非常に困難です. これらの問題を解決するためには,他のアプローチを用いたソフトウェアが必要となっています. 他のアプローチを用いたソフトウェアが必要 6

7 アプローチ 三次構造から一次構造へ ARG – CYS – THR – HIS – TYP – ALA – GLY – SER –
PDPID: 1PPT ARG – CYS – THR – HIS – TYP – ALA – GLY – SER – PRO – GLN – GLN – LEU – CYS – ARG – PRO – MET – PRO – HIS – ARG – LEU – GLN – CYS – TYP – SER 以上の問題点を踏まえて,金属イオンの結合予測手法を提案します. タンパク質はアミノ酸で構成されていることから,タンパク質の立体構造で金属イオンの結合可能性を調べるのはなく,一次構造である,アミノ酸配列への金属イオンの可能性を調べます. アミノ酸配列 (タンパク質の一次構造) タンパク質の立体構造 7

8 Protein Data Bank (PDB)
タンパク質と核酸の三次元立体構造データベース 解析手法:NMR,X線結晶構造解析など 登録数は指数関数的に増加 (現在約55,000) PDBファイルの情報 解析手法 三次元座標データ アミノ酸配列 文献情報 熱揺らぎに関する情報 解像度 本研究では,PDBのデータを用います. PDBはタンパク質と核酸の三次元立体構造データベースです. NMRやX線結晶構造解析といった実験的手法により解析されたデータが登録されています. 登録数は指数関数的に増加しており,現在約55000のデータが登録されています. PDBファイルには,解析手法や座標データ,アミノ酸配列などといった情報が記載されています.

9 Support Vector Machine (SVM)
Vapnikらによって提案 2クラス分類を行う学習機械 線形分離不可能でも高い認識率 ソフトマージン 少しの誤りを許可 カーネルトリック 高次元空間に写像 分離超平面 本研究では学習機械にSVMを用います. SVMはVapnikらによって提案された2クラス分類を行う学習機械の1つです. 線形分離不可能な場合でも,ソフトマージンとカーネルトリックにより,高い認識率を得ることができます. マージン サポートベクター

10 PDB (Protein Data Bank)
金属結合の予測手法 PDBから対象となるPDBファイルを抽出 学習データファイル作成 学習 → モデルファイル生成 予測 PDB file 金属結合の予測は以下の手順で行います. 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB (Protein Data Bank) Model file

11 PDB (Protein Data Bank)
金属結合の予測手法 PDBから対象となるPDBファイルを抽出 学習データファイル作成 学習 → モデルファイル生成 予測 PDB file 始めにPDBから対象となるPDBファイルを抽出します. 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB (Protein Data Bank) Model file

12 PDB (Protein Data Bank)
モノマー X線結晶構造解析 部位特異的変異なし 天然アミノ酸のみで構成 金属イオンを含んで解析 野生型の立体構造に 与える影響のみを考慮 したPDBファイルが抽出 PDB file PDBファイルを抽出する際,次の5つの条件を設定します. 1つのchainからなるモノマーであること. NMRで解析されたものは複数の構造をもつ場合があるので,X線で解析されたものを用います. 突然変異があるものは野生型と構造が異なる可能性があるため,データからは除きます. 化学修飾が行われた後解析されたものは,非野生型とみなし,データからは省きます. 金属イオンを含み解析されたデータを用います. これらの5つの条件を設定することで,野生型の立体構造に与える影響のみを考慮したデータセットを得ることができます. 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB (Protein Data Bank) Model file 12

13 PDB (Protein Data Bank)
金属結合の予測手法 PDBから対象となるPDBファイルを抽出 学習データファイル作成 学習 → モデルファイル生成 予測 PDB file 次に,抽出したPDBファイルから,学習データファイルを作成します. 抽出 学習 予測 Training data file PDB (Protein Data Bank) SVM SVM 予測 結果 Model file

14 学習データファイル作成手法 「結合距離を満たすデータ」 「PDBの結合情報データ」
金属との距離がある一定の距離以内に α炭素原子が存在する残基を結合する と仮定 「PDBの結合情報データ」 PDBファイルのCONECT行にある結合情報 を基にデータ作成 distance 金属 α炭素原子 今回,2通りの方法で学習データを作成します. 1つ目は,「結合距離」を満たすデータを用いる方法です. アミノ酸の中心となる炭素原子であるα炭素原子と金属との距離がある一定の距離以内だと結合すると仮定します. この条件を満たすアミノ酸残基を結合データとして取得します. 2つ目は,「結合情報データ」を用いる方法です. PDBファイルのCONECT行に記載されている情報を基に学習データファイルを作成します.

15 結合距離による 学習データファイル作成手法 (1/2)
金属イオンとα炭素原子の座標を取得 金属イオン-α炭素原子間の距離を計算 結合条件距離を設定 結合距離による学習データファイルの作成は以下の手順で行います. PDBファイルから金属イオンとα炭素原子の座標を取得し,それらの距離を計算します. 結合条件となる距離を設定します. あとの実験では,この距離を4,5,6Åの3通りに変化させて実験を行います. distance Metal atom Alpha carbon atom (M_x, M_y, M_z) (Cα_x, Cα_y, Cα_z)

16 結合距離による 学習データファイル作成手法 (2/2)
条件を満たす残基とその前後の数残基を抽出 アミノ酸の種類ごとにカウント アルファベット順に並べ替え (特徴ベクトル) 学習データファイルに出力 設定した距離の条件を満たす残基とその前後数残基を取り出し,アミノ酸の種類ごとにカウントしてアルファベット順に並べ替えます. これが特徴ベクトルです. 対象となるすべてのPDBファイルに対し,以上の操作を行い,最後に1つの学習データファイルに出力します. ALA:0, ARG:2,・・・, GLX:0 HIS ARG CYS PHE GLN ARG SER MET 学習データファイル ALA 1:0 2:2 …21:0 22:0 1:0 2:1 …21:0 22:1 1:0 2:1 …21:0 22:0 PHE 金属イオン TRP TRP : 抽出する残基 : 抽出しない残基

17 結合情報による 学習データファイル作成手法
金属イオンと結合原子のシリアルナンバーを取得 結合原子が含まれる残基の番号を取得 結合残基とその前後の数残基を抽出 アミノ酸の種類ごとにカウント アルファベット順に並べ替え 学習データファイルに出力 次に,「結合情報」による学習データファイルの作成手法を説明します. 金属イオンと金属が結合している原子のシリアルナンバーを取得し,結合原子が含まれる残基の番号を取り出します. 手順3以降は先ほどと同様に,結合残基とその前後の数残基を取り出し,アミノ酸の種類ごとにカウントし,アルファベット順に並び替えて,特徴ベクトルを作成します. 以上の操作を対象となるPDBファイルに対して行い,学習データファイルに出力します. 学習データファイル 1:0 2:2 …21:0 22:0 1:0 2:1 …21:0 22:1 1:0 2:1 …21:0 22:0

18 PDB (Protein Data Bank)
金属結合の予測手法 PDBから対象となるPDBファイルを抽出 学習データファイル作成 学習 → モデルファイル生成 予測 PDB file 学習データファイルが完成したら,SVMで学習を行い,モデルファイルを作成します. 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB (Protein Data Bank) Model file

19 PDB (Protein Data Bank)
金属結合の予測手法 PDBから対象となるPDBファイルを抽出 学習データファイル作成 学習 → モデルファイル生成 予測 PDB file 最後に,生成されたモデルファイルを基,SVMを用いて予測結果を出力します. 抽出 学習 予測 Training data file SVM SVM 予測 結果 PDB (Protein Data Bank) Model file

20 実験の設定 LIBSVM (A Library for Support Vector Machine) SVMの種類
Linらによって開発されたSVMのライブラリ SVMの種類 C-SVC (C-Support Vector Classification) 金属結合性判定に使用 ε-SVR (ε-Support Vector Regression) 金属結合部位予測に使用 Gaussian Kernel パラメータ Grid search と Cross Validation により決定 実験の設定について説明します. 台湾国立大学のLinらによって開発されたSVMのライブラリであるLIBSVMを用います. SVMにはいくつかのモデルがありますが,金属結合判定の予測を行う際にはC-SVCを,結合部位の予測にはε-SVRを用います. また,カーネル関数にはGaussianカーネルを用います. SVMの2つのパラメータはGrid searchとCross Validationにより決定します.

21 実験1:金属の結合判定(結合距離) 結合距離の条件を変化 (4Å,5Å,6Å) 抽出残基を変化 (7残基,9残基,11残基) 7残基 9残基
結合距離を用いた亜鉛結合予測精度(左) と 非結合予測精度(右) 7残基 9残基 11残基 4.0Å 37.2 % 62.1 % 71.1 % 5.0Å 31.8 % 46.4 % 73.5 % 6.0Å 35.7 % 47.1 % 72.0 % 7残基 9残基 11残基 4.0Å 89.0 % 82.0 % 87.0 % 5.0Å 100 % 6.0Å 99.0 % 実験1では,「結合距離」を基に作成した学習データファイルを用いて,金属の結合判定予測を行います. 結合距離の条件を4,5,6Åと変化させ,取り出す残基数は7,9,11と変化させます. 亜鉛を用いた実験結果は表のようになりました. 左が結合,右が非結合の予測結果です.

22 考察:実験1 「結合距離条件」データを用いた結合判定予測 結合予測精度 結合距離条件を変化 - 精度の変化なし 抽出残基数を変化
亜鉛の結合(上)・非結合(下)予測精度 結合予測精度 Zn 7残基 9残基 11残基 4.0Å 37.2 % 62.1 % 71.1 % 5.0Å 31.8 % 46.4 % 73.5 % 6.0Å 35.7 % 47.1 % 72.0 % 結合距離条件を変化   - 精度の変化なし 抽出残基数を変化   - 多いほど精度向上 結合予測結果を表した上の表から,結合距離の条件を変えた場合は,予測精度の変化は見られませんでした. 残基数を変えた場合,取り出す残基数が多いほど精度が向上しました. このことから,亜鉛が結合するアミノ酸の種類と個数には特徴がみられることがわかります. また,11残基という広い範囲の方が特徴が得やすいことが分かります. Zn 7残基 9残基 11残基 4.0Å 89.0 % 82.0 % 87.0 % 5.0Å 100 % 6.0Å 99.0 % アミノ酸の種類に特徴 特徴は広範囲に及ぶ

23 考察:実験1 「結合距離条件」データを用いた結合判定予測 非結合予測精度 4Åのとき精度少し低い - データ数が少ない 学習が不十分
表.結合・非結合予測精度 非結合予測精度 Zn 7残基 9残基 11残基 4.0Å 37.2 % 62.1 % 71.1 % 5.0Å 31.8 % 46.4 % 73.5 % 6.0Å 35.7 % 47.1 % 72.0 % 4Åのとき精度少し低い   - データ数が少ない 学習が不十分 非結合予測精度の結果を表した下の表において,結合距離の定義が4Åのとき精度が低くなっています. これは,学習データが23しかなく,他の5,6Åのときに比べ,学習が十分に行われなかったためであると考えられます. LIBSVMでは一般的に,特徴ベクトルの数倍のデータが学習に必要であると言われています. つまり4Åで予測精度が低いのは,データの不足によるものであるといえます. 結合(Å) 4.0 5.0 6.0 データ数 23 153 318 Zn 7残基 9残基 11残基 4.0Å 89.0 % 82.0 % 87.0 % 5.0Å 100 % 6.0Å 99.0 %

24 実験2:金属の結合判定(結合情報) 抽出残基を変化 (7残基,9残基,11残基) 亜鉛と鉄(II) Zn 7残基 9残基 11残基
結合予測精度 96.7 % 100 % 非結合予測精度 86.0 % 実験2では,「結合情報」を基に作成した学習データファイルを用いて,金属の結合判定予測を行います. 抽出する残基数を7,9,11に変化させて実験を行いました. 例として,亜鉛と鉄の結果を表に示します. Fe(II) 7残基 9残基 11残基 結合予測精度 41.5 % 22.6 % 42.5 % 非結合予測精度 100 %

25 考察:実験2 「結合情報」データを用いた結合判定予測 結合情報データ
Zn 7残基 9残基 11残基 結合予測精度 96.7 % 100 % 非結合予測精度 86.0 % Fe(II)の予測精度が低い   - データ数が少ない   (Zn: 216,Fe(II): 11) Fe(II) 7残基 9残基 11残基 結合予測精度 41.5 % 22.6 % 42.5 % 非結合予測精度 100 % 亜鉛は結合・非結合の両方とも精度が高くなりました. しかし,鉄(II)は結合予測精度が低くなっています. 亜鉛は学習データが216あるのに対し,鉄は11しかなく,学習不足であるといえます. 他の金属に対しても同様に行うと,学習データの数によって3つのグループ分けができます. データが20以上あるものは,100%に近い精度が得られました. データが10~19の場合精度が良いものと悪いもの両方が得られました. データが9以下の場合,予測精度が10%以下になるものがほとんどで,予測精度はとても低くなりました. 学習不足 20以上:100 %に近い精度 10~19:精度はさまざま 9以下 :10 %以下が多い

26 実験3:結合部位予測 (1/2) 「結合情報」を用いた学習データ (実験2) ε-SVRにより予測値を取得
予測値:結合確率を表す値 (0 ~ 1で表現)       1 に近いほど結合する確率が高い 基準値を設定 (0.95 ~ 0.50 : 0.05刻み) (予測値) > (基準値)     結合すると仮定 実験3では,結合部位の予測を行います. 学習でデータは,前の2つの実験のうち結果のよかった「PDBの結合情報」から得たデータを用いることにします. εSVRによる回帰を用いて,予測値を取得します. 予測値とは,結合の確率を表す値で,0~1で表現され,1に近いほど結合する確率が高くなります. 基準値を設定し,予測値が基準値以上なら結合すると判定します. 基準値は,0.95~0.50までを0.05刻みで設定して実験を行います. 結合判定された残基とその前後の3残基を,結合予測部位とします. (予測値) > (基準値) (予測値) > (基準値) :結合予測部位

27 実験3:結合部位予測 (2/2) 亜鉛が結合する残基番号 基準値0.95 11残基中7残基が予測部位に属する 予測した4部位すべて正解部位
7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 (全11残基) 基準値0.95 11残基中7残基が予測部位に属する 予測した4部位すべて正解部位 1A1Fへの亜鉛結合部位予測結果 亜鉛が結合するタンパク質1A1Fを例にすると,予測結果は表のようになりました. PDBファイルのCONECT行から,亜鉛はこのタンパク質の11ヶ所に結合することが分かりました. 基準値を0.95に設定した場合,11残基中7残基が予測部位に含まれました. また,予測した4部位すべてが正解部位となりました. 基準値 予測部位 0.95 6~13 34~45 48~59 63~71 0.90 6~13 25~45 47~71 80~90 0.85 6~13 25~72 80~90 0.80 6~14 25~72 79~90 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85

28 考察:実験3 結合部位予測 基準値が設定できる金属 (Zn, Fe(II) など) 基準値が低い (Pt、K など) 結合部位に特徴あり
結合部位に特徴なし 1A1Fへの予測結果表から,亜鉛は基準値を高く設定することができます. 亜鉛ををはじめとするこのタイプの金属は,結合部位にアミノ酸の種類や個数の特徴が表れました. 反対に,基準値を設定できなかったり,基準値が低い金属は,結合部位に特徴が見られないため,提案手法で予測を行うことが困難となりました. 1A1Fへの亜鉛結合部位予測結果 基準値 結合予測部位 (正解部位) / (予測部位) 0.95 6~13 34~45 48~59 63~71 4/4 0.90 6~13 25~45 47~71 80~90 0.85 6~13 25~72 80~90 3/3 0.80 6~14 25~72 79~90

29 まとめ タンパク質への金属結合予測手法の提案 実験 金属結合 ・ 結合部位の予測 PDBからデータセットを抽出
2つの手法で学習データファイルを作成 「結合距離」,「結合情報」 SVMによる学習と予測 実験 結合判定予測:学習データ数20以上で高い精度 結合部位予測:金属により精度に差 本研究では,タンパク質への金属結合予測手法を提案しました. 金属の結合判定の予測と,結合部位の予測を行いました. PDBからデータセットを抽出し,「結合距離」と「結合情報」を基に,2種類の学習データファイルを作成し,SVMを用いて学習と予測を行いました. 実験の結果から,結合判定予測は,学習データが20以上で高い精度を示すことが分かりました. また,結合部位予測では,亜鉛のように結合予測しやすいものと,白金などのように結合部位の予測が困難なものがあることがわかりました.


Download ppt "SVMを用いた生体分子への 金属結合部位予測手法の提案"

Similar presentations


Ads by Google