Presentation is loading. Please wait.

Presentation is loading. Please wait.

京都大学 化学研究所 バイオインフォマティクスセンター

Similar presentations


Presentation on theme: "京都大学 化学研究所 バイオインフォマティクスセンター"— Presentation transcript:

1 京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(6) カーネル法を用いた化合物の性質予測 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

2 内容 化合物の性質予測 サポートベクタマシンとカーネル法 グラフカーネル モーガンインデックスとカーネルの 組み合わせ 計算機実験結果
特徴ベクトルからの化学構造の推定

3 化合物の性質予測 化合物の性質予測 従来手法 人工知能的手法 創薬のために重要 定量的構造活性相関
 化合物の性質予測 化合物の性質予測 創薬のために重要 従来手法 定量的構造活性相関  QSAR: quantitative structure-activity relationship 3D-QSAR 立体構造情報などを利用 CoMFA法(Comparative Molecular Field Analysis)など 人工知能的手法 化合物から特徴ベクトル(分子量、原子の組成、電荷、log Pなど)を生成し、決定木、ニューラルネット、サポートベクターマシンなどを利用

4 化学構造と生物活性との相関を統計的手法(回帰式など)を用いて解析 例 BR = a π + b σ + c Es + d
 定量的構造活性相関(QSAR) 化学構造と生物活性との相関を統計的手法(回帰式など)を用いて解析   BR = a π + b σ + c Es + d BR: 生物活性値 π:置換基の疎水性 σ:電子の吸引性 Es:メチル基を基準にした置換基のかさ高さ a, b, c, d は回帰分析などにより決定

5 サポートベクターマシン カーネル法の一つ、ニューラルネットワークと類似 1990年代に、Cortes と Vapnik が発明
トレーニングデータとして与えられた正例と負例から、それらを分離する超平面を計算 機械学習、統計学、人工知能、パターン認識、バイオインフォマティクスなど様々な分野に応用 配列分類 タンパク質フォールド予測、二次構造構造 遺伝子発現データ解析 タンパク質相互作用予測 化合物の性質推定 c.f. Kernel Methods in Computational Biology, MIT Press, 2004

6 サポートベクターマシン 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習
カーネルを適切に定義することにより超平面以外での分離が可能

7 SVMによるテストデータの分類 学習データより超平面を学習(SVM) テストデータは、対応する点の超平面に対する位置(上下)で判定
テストデータとサポートベクター間のカーネル関数値の重み付き和でテストデータを類別

8 カーネル サポートベクターマシン:基本的には超平面で分離 Φ(x) (特徴ベクトル):「非線形曲面⇒超平面」に写像
カーネル K(x,y)=φ(x)・φ(y) x と y の類似度が高い ⇔ K(x,y)が大

9 カーネルの例 線形カーネル: K(x,y) = x・y 多項式カーネル: K(x,y) = (x・y + c)d
RBFカーネル: K(x,y) = exp (-||x - y||2 /2σ2 ) シグモイドカーネル(厳密にはカーネルではない):         K(x,y) = tanh (κx・y - δ)

10 カーネルとなるための条件 カーネルの定義: K(x,y)=φ(x)・φ(y) Mercer条件を満たす ⇒ カーネル 連続値の場合
離散値の場合 ( x1,x2,…,xn が入力データ)

11 カーネルの作り方 データから特徴ベクトル(feature vector)を作るのが一般的、かつ、 多くの場合に実用的
 多くの場合に実用的 特徴ベクトル: 実数値の列 例えば、各化合物 x に対し、 Φ(x) = (分子量, 容積, 表面積, logP,…)  とすれば、化合物 x,y に対するカーネルは   Φ(x) と Φ(y) の単なる内積

12 グラフ・カーネル グラフ G(V,E) グラフカーネル 情報科学において幅広く利用されているデータ表現法
頂点と辺で構造を表す(点と線で構造を表す) V: 頂点の集合 E: 辺の集合 バイオインフォマティクスにおいても幅広い利用 化学構造、遺伝子ネットワーク、代謝ネットワーク グラフカーネル 二つのグラフ G1(V1,E1) 、G2(V2,E2) 間の類似性の指標 G(V,E)

13 Marginalized カーネル Tsudaらが2002年に提案 定義 配列解析やRNA二次構造解析に応用
h,h’: 隠れ変数群、K’:カーネル 配列解析やRNA二次構造解析に応用

14 Marginalized グラフ・カーネル(1)
Kashimaらが2003年に提案 h: グラフ G1 におけるパス h’: グラフ G2 におけるパス l(h): パス h のラベル(原子名)の列 K’(x,y): ラベル列間のカーネル関数 (例:  K’(x,y)=1 if x=y, otherwise 0  )

15 Marginalized グラフ・カーネル(2)

16 Marginalized グラフ・カーネル(3)

17 Marginalized グラフ・カーネル(4)

18 Marginalized グラフ・カーネル(5)

19 Marginalized グラフ・カーネル(6)

20 Marginalized グラフ・カーネル(7)

21 Marginalized グラフカーネルの問題点
パス(の集合)だけを用いて化学構造を表現 反応中心などの情報を十分に取り入れることが困難? 行列のサイズが大きく(数千×数千)なるため、逆行列の計算に時間がかかる すべてのトレーニングデータのペア(化合物のペア)について、それぞれ、逆行列を計算することが必要 ⇒ 構造情報(Morgan Index)との組み合わせ

22 Morganインデックス 化学構造の一意名を計算機により計算するために1960年代に考案
CAS(Chemical Abstract Service)で利用 等価な原子に同じ番号(整数値)が与えられるような、各原子への番号づけを計算 簡単な繰り返し計算による番号づけ 等価で無い原子にも同じ番号がつく可能性(でも、低い) ⇒ Marginalized グラフカーネルにおいて、原子名とともに、モーガンインデックスを利用 原子名およびモーガンインデックスの両者が一致するパスのみを考慮 ⇒ 部分構造に関する特徴も、ある程度、取り入れられる

23 Morganインデックスの計算法 すべての原子に番号1を割り当てる すべての原子 x について以下を実行 N O
x に結合している原子の番号を総和を、x の番号とする N O 1 3 2 5 4 7 6

24 計算機実験 MUTAG データを利用 ソフトウェア 標準的ベンチマークテストの一つ 化合物のサルモネラ菌の変異性への影響データ
125個の正例、63個の負例を利用 各例1個のみをテストデータとし、他を学習データとしたテストを繰り返した ソフトウェア SVMソフトとして、GIST ( を利用 他は C++ で記述

25 結論 今後の課題 モーガンインデックスの利用により以下を達成 他のインデックス手法の利用、開発 他手法との比較 大規模な計算機実験
Marginalizedカーネルと、同様の精度 他手法と比べても同等以上 数十倍以上、高速 今後の課題 他のインデックス手法の利用、開発 他手法との比較 大規模な計算機実験

26 参考文献 SVMおよびカーネル一般 バイオインフォマティクスにおけるカーネル
N. Cristianini & J. Shawe-Taylor: An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge Univ. Press,  (日本語訳:大北剛:サポートベクターマシン入門, 共立出版, 2005) バイオインフォマティクスにおけるカーネル Kernel Methods in Computational Biology, MIT Press, 2005. Marginalized Graph Kernel + Morgan Index P. Mahe, N. Ueda, T. Akutsu, J-L. Perret, J-P. Vert: Extensions of marginalized graph kernels, Proc. 21st Int. Conf. Machine Learning, , 2004.


Download ppt "京都大学 化学研究所 バイオインフォマティクスセンター"

Similar presentations


Ads by Google