Download presentation
Presentation is loading. Please wait.
1
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
2
内容 発現データを用いた腫瘍細胞の分類 サポートベクターマシン 配列解析のためのカーネル タンパク質の分類問題
3
腫瘍細胞分類 発現データを観測することにより、腫瘍細胞の詳細な分類を行う 抗がん剤の適切な投与などに応用できる可能性
4
Eric Landerらの研究-I (1999) 急性白血病の分類 6800個程度の遺伝子の発現データを利用 72サンプル
ALL (acute lymphoblastic leukemias) AML (acute myeloid leukemias)
5
Eric Landerらの研究II 急性白血病のデータ(Golub et al, 1999)
38+34の患者の6817遺伝子の発現量を AffymetrixのDNAチップで計測 ALL と AML のクラス分け B-CELL ALL と T-CELL ALL のクラス分け 多数決により決定(ただし、差が少ない場合には判定不能とする)
6
Eric Landerらの研究III クラス予測 クラス発見 Informative Gene
与えられたデータがどの既知クラスに入るかを推定 (重み付き)多数決により推定 クラス発見 新たな腫瘍のタイプを発見 自己組織化マップ(クラスタリング技法の一種)を利用 Informative Gene クラス予測に有用な遺伝子セット クラス分けとの相関に基づき選択 Feature Selection (AI分野で数多くの研究)
7
発現データからの細胞分類 遺伝子1 遺伝子2 遺伝子3 遺伝子4 遺伝子5 遺伝子6 タイプ Sample1 1.1 4.5 4.1 2.1 0.4 4.3 ALL Sample2 2.2 2.6 5.0 5.3 0.5 3.4 Sample3 1.3 4.8 2.5 3.9 0.8 Sample4 4.6 0.3 3.5 Sample5 0.9 0.2 2.7 3.7 AML Sample6 3.0 2.8 1.2 Sample7 1.7 3.1 4.2 (遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0 ⇒ALL と推定
8
サポートベクターマシン (1) カーネル法の一つ 1990年代に、Cortes と Vapnik が発明
トレーニングデータとして与えられた正例と負例から、それらを分離する超平面を計算 ⇒ 学習=超平面の計算 機械学習、統計学、人工知能、パターン認識、バイオインフォマティクスなど様々な分野に応用 配列分類 タンパク質フォールド予測、二次構造予測 遺伝子発現データ解析 タンパク質相互作用予測 化合物の性質推定
9
サポートベクターマシン (2) 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習 例=点
カーネルを適切に定義することにより超平面以外での分離が可能
10
SVMによるテストデータの分類 SVM: サポートベクターマシン SVMの利用法 学習データより超平面を学習
新たなデータ(テストデータ)については、超平面に対する上下で正負を判定
11
サポートベクターマシンと細胞分類 白血病の場合 学習データ テストデータ(新しい患者) 正例: ALL 負例: AML
12
カーネル サポートベクターマシン:基本的には超平面で分離 Φ(x) (特徴ベクトル):「非線形曲面⇒超平面」に写像
カーネル: K(x,y)= Φ(x) ・ Φ(y) x と y の類似度が高い ⇔ K(x,y)が大
13
カーネルの定義 関数 K: X×X→ R がカーネル iff. X から内積空間 F への写像φが存在し、 とかける
14
マーセルの定理 X を有限空間とし、K(x,y) を X 上の対称関数とすると、 K(x,y) がカーネル iff.
行列 K=(K(xi,xj)) (i, j=1,…,n) が半正定値 行列 K が半正定値 iff. K の固有値がすべて非負 iff. (x) (xtKx 0)
15
カーネルの例(1) (x・y+c)d はカーネル 証明(d=2, c=0の場合)
16
カーネルの例(2) K1, K2 がカーネルの時、以下もカーネル (i)(ii)より、カーネルの正係数の線形和もカーネル
(i)(ii)(iii)より、カーネルの正係数の多項式もカーネル
17
実問題に対するカーネル データから特徴ベクトル(feature vector)を作るのが一般的、かつ、 多くの場合に実用的
多くの場合に実用的 特徴ベクトル: 実数値の列 例えば、各化合物 x に対し、 Φ(x) = (分子量, 容積, 表面積, logP,…) とすれば、化合物 x,y に対するカーネルは Φ(x) と Φ(y) の単なる内積
18
配列解析のためのカーネル 配列を実数ベクトルに変換 様々なカーネルの提案
配列解析のためのカーネル 配列を実数ベクトルに変換 様々なカーネルの提案 Marginalized kernel, Fisher kernel, Local alignment kernel, …
19
タンパク質配列解析のためのカーネル 隠れマルコフモデル(HMM)から特徴ベクトルを抽出 配列から直接特徴ベクトルを抽出
Fisher カーネル (Jaakkola et al., 2000) Marginalized カーネル (Tsuda et al., 2002) 配列から直接特徴ベクトルを抽出 Spectrum カーネル (Leslie et al., 2002) Mismatch カーネル (Leslie et al., 2003) 他の配列とのスコアを特徴ベクトルとして利用 SVM pairwise (Liao & Noble, 2002) 配列パターンの出現頻度を特徴ベクトルとして利用 モチーフカーネル(Ben-Hur & Brutlag, 2003) 二つの配列から直接カーネル値を計算 Local Alignment Kernel (Saigo et al, 2004)
20
Spectrum カーネル 長さ k の各文字列の出現回数を特徴ベクトルとする カーネルはその内積(K(x,y)=Φ (x)・ Φ (y))
単純だけど有用、かつ、高速に計算可能
21
カーネル法の応用:タンパク質細胞内局在性予測
タンパク質が細胞のどの器官に運ばれるかを配列から予測
22
SVMによる細胞内局在性予測 各器官ごとにSVMを学習 器官X 器官Xに輸送されるタンパク質配列を正例 それ以外のタンパク質を負例
23
膜タンパク質の膜貫通領域予測 膜貫通領域: αへリックス 7~17残基程度の疎水性指標の平均値をプロット 平均値が高い部分が膜貫通領域と推定
24
参考文献 バイオインフォマティクス全般 カーネル法 金久實:ポストゲノム情報への招待、共立出版、2001
大北(訳):サポートベクターマシン入門、共立出版、2005 赤穂昭太郎:カーネル多変量解析、岩波書店、2008 丸山修、阿久津達也:バイオインフォマティクス –配列データ解析と構造予測、朝倉書店、2007
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.