Download presentation
Presentation is loading. Please wait.
1
京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(6) カーネル法を用いた化合物の性質予測 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
2
内容 化合物の性質予測 サポートベクタマシンとカーネル法 グラフカーネル モーガンインデックスとカーネルの 組み合わせ 計算機実験結果
特徴ベクトルからの化学構造の推定
3
化合物の性質予測 化合物の性質予測 従来手法 人工知能的手法 創薬のために重要 定量的構造活性相関
化合物の性質予測 化合物の性質予測 創薬のために重要 従来手法 定量的構造活性相関 QSAR: quantitative structure-activity relationship 3D-QSAR 立体構造情報などを利用 CoMFA法(Comparative Molecular Field Analysis)など 人工知能的手法 化合物から特徴ベクトル(分子量、原子の組成、電荷、log Pなど)を生成し、決定木、ニューラルネット、サポートベクターマシンなどを利用
4
化学構造と生物活性との相関を統計的手法(回帰式など)を用いて解析 例 BR = a π + b σ + c Es + d
定量的構造活性相関(QSAR) 化学構造と生物活性との相関を統計的手法(回帰式など)を用いて解析 例 BR = a π + b σ + c Es + d BR: 生物活性値 π:置換基の疎水性 σ:電子の吸引性 Es:メチル基を基準にした置換基のかさ高さ a, b, c, d は回帰分析などにより決定
5
サポートベクターマシン カーネル法の一つ、ニューラルネットワークと類似 1990年代に、Cortes と Vapnik が発明
トレーニングデータとして与えられた正例と負例から、それらを分離する超平面を計算 機械学習、統計学、人工知能、パターン認識、バイオインフォマティクスなど様々な分野に応用 配列分類 タンパク質フォールド予測、二次構造構造 遺伝子発現データ解析 タンパク質相互作用予測 化合物の性質推定 c.f. Kernel Methods in Computational Biology, MIT Press, 2004
6
サポートベクターマシン 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習
カーネルを適切に定義することにより超平面以外での分離が可能
7
SVMによるテストデータの分類 学習データより超平面を学習(SVM) テストデータは、対応する点の超平面に対する位置(上下)で判定
テストデータとサポートベクター間のカーネル関数値の重み付き和でテストデータを類別
8
カーネル サポートベクターマシン:基本的には超平面で分離 Φ(x) (特徴ベクトル):「非線形曲面⇒超平面」に写像
カーネル K(x,y)=φ(x)・φ(y) x と y の類似度が高い ⇔ K(x,y)が大
9
カーネルの例 線形カーネル: K(x,y) = x・y 多項式カーネル: K(x,y) = (x・y + c)d
RBFカーネル: K(x,y) = exp (-||x - y||2 /2σ2 ) シグモイドカーネル(厳密にはカーネルではない): K(x,y) = tanh (κx・y - δ)
10
カーネルとなるための条件 カーネルの定義: K(x,y)=φ(x)・φ(y) Mercer条件を満たす ⇒ カーネル 連続値の場合
離散値の場合 ( x1,x2,…,xn が入力データ)
11
カーネルの作り方 データから特徴ベクトル(feature vector)を作るのが一般的、かつ、 多くの場合に実用的
多くの場合に実用的 特徴ベクトル: 実数値の列 例えば、各化合物 x に対し、 Φ(x) = (分子量, 容積, 表面積, logP,…) とすれば、化合物 x,y に対するカーネルは Φ(x) と Φ(y) の単なる内積
12
グラフ・カーネル グラフ G(V,E) グラフカーネル 情報科学において幅広く利用されているデータ表現法
頂点と辺で構造を表す(点と線で構造を表す) V: 頂点の集合 E: 辺の集合 バイオインフォマティクスにおいても幅広い利用 化学構造、遺伝子ネットワーク、代謝ネットワーク グラフカーネル 二つのグラフ G1(V1,E1) 、G2(V2,E2) 間の類似性の指標 G(V,E)
13
Marginalized カーネル Tsudaらが2002年に提案 定義 配列解析やRNA二次構造解析に応用
h,h’: 隠れ変数群、K’:カーネル 配列解析やRNA二次構造解析に応用
14
Marginalized グラフ・カーネル(1)
Kashimaらが2003年に提案 h: グラフ G1 におけるパス h’: グラフ G2 におけるパス l(h): パス h のラベル(原子名)の列 K’(x,y): ラベル列間のカーネル関数 (例: K’(x,y)=1 if x=y, otherwise 0 )
15
Marginalized グラフ・カーネル(2)
16
Marginalized グラフ・カーネル(3)
17
Marginalized グラフ・カーネル(4)
18
Marginalized グラフ・カーネル(5)
19
Marginalized グラフ・カーネル(6)
20
Marginalized グラフ・カーネル(7)
21
Marginalized グラフカーネルの問題点
パス(の集合)だけを用いて化学構造を表現 反応中心などの情報を十分に取り入れることが困難? 行列のサイズが大きく(数千×数千)なるため、逆行列の計算に時間がかかる すべてのトレーニングデータのペア(化合物のペア)について、それぞれ、逆行列を計算することが必要 ⇒ 構造情報(Morgan Index)との組み合わせ
22
Morganインデックス 化学構造の一意名を計算機により計算するために1960年代に考案
CAS(Chemical Abstract Service)で利用 等価な原子に同じ番号(整数値)が与えられるような、各原子への番号づけを計算 簡単な繰り返し計算による番号づけ 等価で無い原子にも同じ番号がつく可能性(でも、低い) ⇒ Marginalized グラフカーネルにおいて、原子名とともに、モーガンインデックスを利用 原子名およびモーガンインデックスの両者が一致するパスのみを考慮 ⇒ 部分構造に関する特徴も、ある程度、取り入れられる
23
Morganインデックスの計算法 すべての原子に番号1を割り当てる すべての原子 x について以下を実行 N O
x に結合している原子の番号を総和を、x の番号とする N O 1 3 2 5 4 7 6
24
計算機実験 MUTAG データを利用 ソフトウェア 標準的ベンチマークテストの一つ 化合物のサルモネラ菌の変異性への影響データ
125個の正例、63個の負例を利用 各例1個のみをテストデータとし、他を学習データとしたテストを繰り返した ソフトウェア SVMソフトとして、GIST ( を利用 他は C++ で記述
25
結論 今後の課題 モーガンインデックスの利用により以下を達成 他のインデックス手法の利用、開発 他手法との比較 大規模な計算機実験
Marginalizedカーネルと、同様の精度 他手法と比べても同等以上 数十倍以上、高速 今後の課題 他のインデックス手法の利用、開発 他手法との比較 大規模な計算機実験
26
参考文献 SVMおよびカーネル一般 バイオインフォマティクスにおけるカーネル
N. Cristianini & J. Shawe-Taylor: An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge Univ. Press, (日本語訳:大北剛:サポートベクターマシン入門, 共立出版, 2005) バイオインフォマティクスにおけるカーネル Kernel Methods in Computational Biology, MIT Press, 2005. Marginalized Graph Kernel + Morgan Index P. Mahe, N. Ueda, T. Akutsu, J-L. Perret, J-P. Vert: Extensions of marginalized graph kernels, Proc. 21st Int. Conf. Machine Learning, , 2004.
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.