配列および化合物データ解析のためのカーネル法

Slides:



Advertisements
Similar presentations
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
Advertisements

動的計画法を用いたアラインメント  小菅孝史.
情報生命科学特別講義III (5)配列アラインメント
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
木構造および化学構造に対する特徴ベクトル: 埋め込み、検索、構造推定
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
情報生命科学特別講義III (1) 文字列マッチング
Building text features for object image classification
ラベル付き区間グラフを列挙するBDDとその応用
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(5) 木構造データ間の編集距離
京都大学 化学研究所 バイオインフォマティクスセンター
分子生物情報学(7) 遺伝子発現データの情報解析法 スケールフリーネットワーク
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
京都大学 化学研究所 バイオインフォマティクスセンター
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
サポートベクターマシン によるパターン認識
生命情報学入門 タンパク質の分類法演習 2011年6月14日
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生命情報学基礎論 (5) タンパク質立体構造予測
Deep Learningを用いたタンパク質のコンタクト残基予測
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
膜タンパク質の 立体構造予測.
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
京都大学 化学研究所 バイオインフォマティクスセンター
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
音高による音色変化に着目した音源同定に関する研究
第14章 モデルの結合 修士2年 山川佳洋.
京都大学 化学研究所 バイオインフォマティクスセンター
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
九州大学大学院 情報学専攻特別講義 (3) 配列解析
分子生物情報学(2) 配列のマルチプルアライメント法
Data Clustering: A Review
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Number of random matrices
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
サポートベクターマシン Support Vector Machine SVM
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第16章 動的計画法 アルゴリズムイントロダクション.
直並列グラフの連続多重彩色 西関研究室 吉田進太郎.
京都大学 化学研究所 バイオインフォマティクスセンター
九州大学大学院 情報学専攻特別講義 (8) ニューラルネットワークの 離散モデル
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
生物情報ソフトウェア特論 (4)配列解析II
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
生物情報ソフトウェア特論 (10)固定パラメータアルゴリズムと 部分k木
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
配列解析アルゴリズム特論 配列アライメントI
分子生物情報学(0) バイオインフォマティクス
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
Presentation transcript:

配列および化合物データ解析のためのカーネル法 阿久津達也 京都大学 化学研究所 バイオインフォマティクスセンター

サポートベクターマシン カーネル法の一つ、ニューラルネットワークと類似 1990年代に、Cortes と Vapnik が発明 トレーニングデータとして与えられた正例と負例から、それらを分離する超平面を計算 機械学習、統計学、人工知能、パターン認識、バイオインフォマティクスなど様々な分野に応用 配列分類 タンパク質フォールド予測、二次構造構造 遺伝子発現データ解析 タンパク質相互作用予測 化合物の性質推定 c.f. Kernel Methods in Computational Biology, MIT Press, 2004

サポートベクターマシン 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習 カーネルを適切に定義することにより超平面以外での分離が可能

SVMによるテストデータの分類 学習データより超平面を学習(SVM) テストデータは、対応する点の超平面に対する位置(上下)で判定 テストデータとサポートベクター間のカーネル関数値の重み付き和でテストデータを類別

カーネル サポートベクターマシン:基本的には超平面で分離 Φ(x) (特徴ベクトル):「非線形曲面⇒超平面」に写像 カーネル K(x,y)=φ(x)・φ(y) x と y の類似度が高い ⇔ K(x,y)が大

カーネルの例 線形カーネル: K(x,y) = x・y 多項式カーネル: K(x,y) = (x・y + c)d RBFカーネル: K(x,y) = exp (-||x - y||2 /2σ2 ) シグモイドカーネル(厳密にはカーネルではない):         K(x,y) = tanh (κx・y - δ)

カーネルとなるための条件 カーネルの定義: K(x,y)=φ(x)・φ(y) Mercer条件を満たす ⇒ カーネル 連続値の場合 離散値の場合 ( x1,x2,…,xn が入力データ)

カーネルの作り方 データから特徴ベクトル(feature vector)を作るのが一般的、かつ、 多くの場合に実用的  多くの場合に実用的 特徴ベクトル: 実数値の列 例えば、各化合物 x に対し、 Φ(x) = (分子量, 容積, 表面積, logP,…)  とすれば、化合物 x,y に対するカーネルは   Φ(x) と Φ(y) の単なる内積

アライメントカーネルによる構造予測 SCOPとスーパーファミリー予測 既存カーネル 配列解析手法(アライメント、HMM) 新カーネル 計算機実験結果 結論と課題

タンパク質立体構造予測 アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 実験よりは、精度が悪い だいたいの形がわかれば良いのであれば、4~5割の予測率

フォールド予測 (Fold Recognition) 立体構造は数千種類程度の形に分類される、との予測(Chotia, 1992)に基づく

SCOPデータベース タンパク質立体構造を形状を中心に、人手で、 階層的に、分類したデータベース SCOP Root Class.1  階層的に、分類したデータベース SCOP Root Class.1 Class.2 ‥‥‥‥‥ Fold.1 Fold.2 ‥‥‥‥‥ Super Family.1 Super Family.2 ‥‥‥‥‥ Family.1 Family.2 Family.3 mkkrltitlsesvlenlekmaremglsksamisvalenykkgq ispqarafleevfrrkqslnskekeevakkcgitplqvrvwfinkrmrs

Super Family 予測 入力配列が SCOP のどのスーパーファミリーに属するかを予測 Super Family.1 タンパク質配列 madqlteeqiaefkeafslfdkdgdgtittkelgtvmrslgqnpteaelqdminevdadg ngtidfpefltmmark Super Family.2 Super Family.3 :

Secondary Structure Prediction 既存手法の主なターゲット Class Fold Super Family Family HMM, PSI-BLAST, SVM SW, BLAST, FASTA Threading Secondary Structure Prediction

タンパク質配列解析のための既存カーネル HMMから特徴ベクトルを抽出 配列から直接特徴ベクトルを抽出 Fisher カーネル (Jaakkola et al., 2000) Marginalized カーネル (Tsuda et al., 2002) 配列から直接特徴ベクトルを抽出 Spectrum カーネル (Leslie et al., 2002) Mismatch カーネル (Leslie et al., 2003) 他の配列とのスコアを特徴ベクトルとして利用 SVM pairwise (Liao & Noble, 2002)

配列アライメント バイオインフォマティクスの最重要技術の一つ 2個もしくは3個以上の配列の類似性判定に利用 文字間の最適な対応関係を求める(最適化問題) 配列長を同じにするように、ギャップ記号(挿入、欠失に対応)を挿入

スコア行列(置換行列) 残基間(アミノ酸文字間)の類似性を表す行列 PAM250, BLOSUM45 など

ペアワイズ・アライメント 配列が2個の場合でも可能なアライメントの個数は指数オーダー しかし、スコア最大となるアライメント(最適アライメント)は動的計画法により、O(mn)時間で計算可能(m,n:入力配列の長さ)

動的計画法による大域アライメント(1) (Needleman-Wunschアルゴリズム) 入力文字列から格子状グラフを構成 アライメントと左上から右下へのパスが一対一対応 最長経路=最適アライメント

動的計画法による大域アライメント(2) DP (動的計画法)による 最長経路(スコア)の計算 ⇒ O(mn)時間 行列からの経路の復元は、 F(m,n)からmaxで=となっている F(i,j)を逆にたどることに行う (トレースバック)

ローカルアライメント(1) (Smith-Watermanアルゴリズム) 配列の一部のみ共通部分があることが多い   ⇒共通部分のみのアラインメント 配列検索において広く利用されている 例えば、HEAWGEH と GAWED の場合、         A W G E         A W -E   というアライメントを計算

ローカルアライメント(2) 動的計画法 の式

LAカーネル SWアルゴリズムをカーネルとして利用したい ⇒ MAX 操作のためカーネルとならない 一方、ペアHMMはカーネルとなることが既知 本研究 SWアルゴリズムを模倣するペアHMMを構成 SWアルゴリズム: 最適なパスのみ LAカーネル: 全てのローカルアライメントの(重みつき)和 両者ともに時間計算量はO(mn)だが、LAカーネルの方が数十倍、遅い

LAカーネルの定義(1) 文字(残基)ペアのスコア: Kaβ (x,y) ギャップのスコア: Kgβ (x,y)

LAカーネルの定義(2) カーネルの畳み込み(convolution) ギャップなしブロックが n 個ある場合のスコア LAカーネル

LAカーネルとSWスコアの関係 π:(ローカル)アライメント S(x,y,π): アライメントπのスコア Π:可能なアライメントの集合 定理

LAカーネルとSWスコア SWスコア: 1個の最適なアライメントのみを考慮 LAカーネル: すべての可能なアライメントを考慮

SVMによるスーパーファミリー予測 (1) 各スーパーファミリーごとにSVMを作成 最も高いスコアを出したSVMに対応するファミリーを出力 Super Family.1 SVM.1 タンパク質配列 madqlteeqiaefkeafslfdkdgdgtittkelgtvmrslgqnpteaelqdminevdadg ngtidfpefltmmark Super Family.2 SVM.2 Super Family.3 SVM.3

SVMによるスーパーファミリー予測 (2) 黄色の○ 赤い× 緑の□ スーパーファミリーに所属するタンパク酸配列データ(正例) スーパーファミリーに所属しないタンパク質配列データ(負例) 緑の□ どのスーパーファミリーに所属するかを予測したいタンパク質配列データ(テストデータ)

カーネル計算の並列化 x1 x2 x3 x4 LAカーネルの計算 並列化 1回あたりO(mn)時間(|x|=m, |y|=n) 配列データの個数を N とし、配列の平均長を n ⇒ 全部で O(N2n2) 時間 ⇒ 並列化が必要 x1 x2 x3 x4 並列化 CPU1 CPU2 CPU3

並列計算機の利用 LAカーネルの計算 1回あたりO(mn)時間だが大量の計算が必要 並列計算機 並列化 半日程度でカーネル計算が終了 学習データ中のすべての配列ペアに対して計算 1CPUだと数十日を要する 並列計算機 SGI ORIGIN 3800 (R14000(500MHz) × 256CPU) PCクラスタ HPC (2.8GHz Xeom × 8CPU) 並列化 LSF (Load Sharing Facility) と script の組み合わせ 単純なデータ分割(分割されたデータごとに別CPUで計算) 半日程度でカーネル計算が終了 並列化手法は単純だが、非常に有効

提案手法の評価法

ROCによる性能評価 カーブが上にあるほど良い性能

mRFPによる性能評価 カーブが上にあるほど良い性能

結論 課題 タンパク質ホモロジー検出のための新たなカーネル ベンチマークテストにおいては最高クラスの性能 単純な並列化が非常に有効 Smith-WatermanアルゴリズムとペアHMMの組み合わせ ベンチマークテストにおいては最高クラスの性能 単純な並列化が非常に有効 課題 タンパク配列の個数(学習データ数)が少ないスーパーファミリーの予測

グラフカーネルによる化合物の 性質予測

グラフ・カーネル グラフ G(V,E) グラフカーネル 情報科学において幅広く利用されているデータ表現法 頂点と辺で構造を表す(点と線で構造を表す) V: 頂点の集合 E: 辺の集合 バイオインフォマティクスにおいても幅広い利用 化学構造、遺伝子ネットワーク、代謝ネットワーク グラフカーネル 二つのグラフ G1(V1,E1) 、G2(V2,E2) 間の類似性の指標 G(V,E)

Marginalized カーネル Tsudaらが2002年に提案 定義 配列解析やRNA二次構造解析に応用 h,h’: 隠れ変数群、K’:カーネル 配列解析やRNA二次構造解析に応用

Marginalized グラフ・カーネル(1) Kashimaらが2003年に提案 h: グラフ G1 におけるパス h’: グラフ G2 におけるパス l(h): パス h のラベル(原子名)の列 K’(x,y): ラベル列間のカーネル関数 (例:  K’(x,y)=1 if x=y, otherwise 0  )

Marginalized グラフ・カーネル(2)

Marginalized グラフ・カーネル(3)

Marginalized グラフ・カーネル(4)

Marginalized グラフ・カーネル(5) グラフカーネルの定義 h: グラフ G1 におけるパス h’: グラフ G2 におけるパス すべてのパスを考慮するので、そのまま実行したのでは指数時間かかるが、工夫すると逆行列の計算に帰着できる (|V1||V2|×|V1||V2|サイズの逆行列の計算)

Marginalized グラフ・カーネル(6)

Marginalized グラフ・カーネル(7)

Marginalized グラフ・カーネル(8)

Marginalized グラフカーネルの問題点 パス(の集合)だけを用いて化学構造を表現 反応中心などの情報を十分に取り入れることが困難? 行列のサイズが大きく(化合物xの原子数×化合物yの原子数)2)なるため、逆行列の計算に時間がかかる すべてのトレーニングデータのペア(化合物のペア)について、それぞれ、逆行列を計算することが必要 ⇒ 構造情報(Morgan Index)との組み合わせ により行列のサイズを減らす

Morganインデックス 化学構造の一意名を計算機により計算するために1960年代に考案 CAS(Chemical Abstract Service)で利用 等価な原子に同じ番号(整数値)が与えられるような、各原子への番号づけを計算 簡単な繰り返し計算による番号づけ 等価で無い原子にも同じ番号がつく可能性(でも、低い) ⇒ Marginalized グラフカーネルにおいて、原子名とともに、モーガンインデックスを利用 原子名およびモーガンインデックスの両者が一致するパスのみを考慮 ⇒ 部分構造に関する特徴も、ある程度、取り入れられる

Morganインデックスの計算法 すべての原子に番号1を割り当てる すべての原子 x について以下を実行 N O x に結合している原子の番号を総和を、x の番号とする N O 1 3 2 5 4 7 6

計算機実験 MUTAG データを利用 ソフトウェア 標準的ベンチマークテストの一つ 化合物のサルモネラ菌の変異性への影響データ 125個の正例、63個の負例を利用 各例1個のみをテストデータとし、他を学習データとしたテストを繰り返した ソフトウェア SVMソフトとして、GIST (http://microarray.cpmc.columbia.edu/gist) を利用 他は C++ で記述

計算機実験の結果: 予測精度 Marginalized カーネル    + モーガン法 他手法

計算機実験の結果: 計算時間

結論 今後の課題 モーガンインデックスの利用により以下を達成 他のインデックス手法の利用、開発 他手法との比較 Marginalizedカーネルと、同様の精度 数十倍以上、高速 今後の課題 他のインデックス手法の利用、開発 他手法との比較 大規模な計算機実験(現在、実行中) 並列処理が必要

参考文献 SVMおよびカーネル一般 バイオインフォマティクスにおけるカーネル N. Cristianini & J. Shawe-Taylor: An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge Univ. Press, 2000. バイオインフォマティクスにおけるカーネル Kernel Methods in Computational Biology, MIT Press, 2004. Marginalized Kernel + Morgan Index P. Mahe, N. Ueda, T. Akutsu, J-L. Perret, J-P. Vert: Extensions of marginalized graph kernels, Proc. 21st Int. Conf. Machine Learning, 552-559, 2004. LAカーネル H. Saigo, J-P Vert, N. Ueda, T. Akutsu: Protein homology detection using string alignment kernels, Bioinformatics, 20:1682-1689, 2004.