サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎
研究対象 経験的なタンパク質の構造予測方法である タンパク質スレッディング 特定のスコア関数で最適スレッディングを求めるBranch-and-boundアルゴリズムの実装と改良 SVMによるスコア関数の学習
研究の動機 タンパク質の構造決定はアミノ酸配列の決定より困難 遺伝子の機能の予測 抗生物質など薬剤の設計への期待
研究の背景 タンパク質の構造には1000種類程度の 多様性しかないという予測[Chothia92] タンパク質の構造データの蓄積(PDB)[Bernstein76] タンパク質スレッディングのモデル 最適スレッディングを求める効率的なBranch-and-bound Algorithm[Lathrop96,99] 統計的スコア関数[Miyazawa85]
タンパク質スレッディング ×1 ×3 ×2 コア1 ? T A 相互作用 コア2 S D M ? K E T A A A K F E R Q H M D S S T S A A
スコア関数 パラメータの種類 パラメータの数 αヘリックス 20 βシート 相互作用 ×1 ×3 ×2 20×(20+1)/2=210 T A S D M パラメータの種類 パラメータの数 αヘリックス 20 βシート 相互作用 20×(20+1)/2=210
学習データ アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY LDEIYDFMDLLVAQ コア部分の 実際の アミノ酸配列
サポートベクターマシン 超平面 サポートベクター 最大マージン
スコア関数の評価 アミノ酸配列をそれ自身の構造に割り当て最適スレッディングと実際のスレッディングを比較 Branch-and-bound Algorithm ギャップを許したタンパク質スレッディングで最適のアラインメントを求める問題は、NP困難 探索空間をスコアのlower boundを求めながら分割していき、最適解を探す
スレッディングエラー アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY コア部分の 実際の アミノ酸配列
スコア関数の精度
特化スコア関数(1) PDBデータ9個 αヘリックス38個 PDBデータ8個 βストランド79個
特化スコア関数(2)
問題点 既存のスコア関数とあまり変わらない 二次計画問題を解くので、あまりデータを多くできない 現在のモデルは単純すぎたかもしれない 学習に使ったタンパク質のデータが少なかった 二次計画問題を解くので、あまりデータを多くできない
今後の課題 よりリアルなスレッディングモデル より多くのタンパク質構造からの学習 より高速なスレッダー