生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日

Slides:



Advertisements
Similar presentations
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
Advertisements

日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
木構造および化学構造に対する特徴ベクトル: 埋め込み、検索、構造推定
情報生命科学特別講義III (1) 文字列マッチング
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
復習.
講義1:カーネル法 産業技術総合研究所 津田宏治.
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
コンピュータ将棋におけるカーネル法を用いた静的評価関数の学習
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
京都大学 化学研究所 バイオインフォマティクスセンター
分子生物情報学(7) 遺伝子発現データの情報解析法 スケールフリーネットワーク
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
京都大学 化学研究所 バイオインフォマティクスセンター
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
配列および化合物データ解析のためのカーネル法
第6章 カーネル法 修士2年 藤井 敬士.
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
生命情報学入門 タンパク質の分類法演習 2011年6月14日
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生命情報学基礎論 (5) タンパク質立体構造予測
生命情報学入門 配列のつなぎ合わせと再編成
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
膜タンパク質の 立体構造予測.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
京都大学 化学研究所 バイオインフォマティクスセンター
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Anja von Heydebreck et al. 発表:上嶋裕樹
京都大学 化学研究所 バイオインフォマティクスセンター
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
分子生物情報学(2) 配列のマルチプルアライメント法
膜タンパク質のインフォマテイクス 必要とされている課題.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Number of random matrices
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
サポートベクターマシン Support Vector Machine SVM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
京都大学 化学研究所 バイオインフォマティクスセンター
人工知能特論II 第8回 二宮 崇.
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
パターン認識特論 カーネル主成分分析 和田俊和.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
プログラミング基礎a 第5回 C言語によるプログラミング入門 配列と文字列
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日 生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日  阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

内容 発現データを用いた腫瘍細胞の分類 サポートベクターマシン 配列解析のためのカーネル タンパク質の分類問題

腫瘍細胞分類 発現データを観測することにより、腫瘍細胞の詳細な分類を行う 抗がん剤の適切な投与などに応用できる可能性

Eric Landerらの研究-I (1999) 急性白血病の分類 6800個程度の遺伝子の発現データを利用 72サンプル ALL (acute lymphoblastic leukemias) AML (acute myeloid leukemias)

Eric Landerらの研究II 急性白血病のデータ(Golub et al, 1999) 38+34の患者の6817遺伝子の発現量を  AffymetrixのDNAチップで計測 ALL と AML のクラス分け B-CELL ALL と T-CELL ALL のクラス分け 多数決により決定(ただし、差が少ない場合には判定不能とする)

Eric Landerらの研究III クラス予測 クラス発見 Informative Gene 与えられたデータがどの既知クラスに入るかを推定 (重み付き)多数決により推定 クラス発見 新たな腫瘍のタイプを発見 自己組織化マップ(クラスタリング技法の一種)を利用 Informative Gene クラス予測に有用な遺伝子セット クラス分けとの相関に基づき選択 Feature Selection (AI分野で数多くの研究)

発現データからの細胞分類 遺伝子1 遺伝子2 遺伝子3 遺伝子4 遺伝子5 遺伝子6 タイプ Sample1 1.1 4.5 4.1 2.1 0.4 4.3 ALL Sample2 2.2 2.6 5.0 5.3 0.5 3.4 Sample3 1.3 4.8 2.5 3.9 0.8 Sample4 4.6 0.3 3.5 Sample5 0.9 0.2 2.7 3.7 AML Sample6 3.0 2.8 1.2 Sample7 1.7 3.1 4.2 (遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0   ⇒ALL と推定

サポートベクターマシン (1) カーネル法の一つ 1990年代に、Cortes と Vapnik が発明 トレーニングデータとして与えられた正例と負例から、それらを分離する超平面を計算    ⇒ 学習=超平面の計算 機械学習、統計学、人工知能、パターン認識、バイオインフォマティクスなど様々な分野に応用 配列分類 タンパク質フォールド予測、二次構造予測 遺伝子発現データ解析 タンパク質相互作用予測 化合物の性質推定

サポートベクターマシン (2) 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習 例=点 カーネルを適切に定義することにより超平面以外での分離が可能

SVMによるテストデータの分類 SVM: サポートベクターマシン SVMの利用法 学習データより超平面を学習 新たなデータ(テストデータ)については、超平面に対する上下で正負を判定

サポートベクターマシンと細胞分類 白血病の場合 学習データ テストデータ(新しい患者) 正例: ALL 負例: AML

カーネル サポートベクターマシン:基本的には超平面で分離 Φ(x) (特徴ベクトル):「非線形曲面⇒超平面」に写像 カーネル: K(x,y)= Φ(x) ・ Φ(y) x と y の類似度が高い ⇔ K(x,y)が大

カーネルの定義 関数 K: X×X→ R がカーネル   iff.   X から内積空間 F への写像φが存在し、     とかける

マーセルの定理 X を有限空間とし、K(x,y) を X 上の対称関数とすると、 K(x,y) がカーネル iff.  行列 K=(K(xi,xj)) (i, j=1,…,n) が半正定値 行列 K が半正定値 iff. K の固有値がすべて非負 iff. (x) (xtKx  0)

カーネルの例(1) (x・y+c)d はカーネル 証明(d=2, c=0の場合)

カーネルの例(2) K1, K2 がカーネルの時、以下もカーネル (i)(ii)より、カーネルの正係数の線形和もカーネル (i)(ii)(iii)より、カーネルの正係数の多項式もカーネル

実問題に対するカーネル データから特徴ベクトル(feature vector)を作るのが一般的、かつ、 多くの場合に実用的  多くの場合に実用的 特徴ベクトル: 実数値の列 例えば、各化合物 x に対し、 Φ(x) = (分子量, 容積, 表面積, logP,…)  とすれば、化合物 x,y に対するカーネルは   Φ(x) と Φ(y) の単なる内積

配列解析のためのカーネル 配列を実数ベクトルに変換 様々なカーネルの提案  配列解析のためのカーネル 配列を実数ベクトルに変換 様々なカーネルの提案 Marginalized kernel, Fisher kernel, Local alignment kernel, …

タンパク質配列解析のためのカーネル 隠れマルコフモデル(HMM)から特徴ベクトルを抽出 配列から直接特徴ベクトルを抽出 Fisher カーネル (Jaakkola et al., 2000) Marginalized カーネル (Tsuda et al., 2002) 配列から直接特徴ベクトルを抽出 Spectrum カーネル (Leslie et al., 2002) Mismatch カーネル (Leslie et al., 2003) 他の配列とのスコアを特徴ベクトルとして利用 SVM pairwise (Liao & Noble, 2002) 配列パターンの出現頻度を特徴ベクトルとして利用 モチーフカーネル(Ben-Hur & Brutlag, 2003) 二つの配列から直接カーネル値を計算 Local Alignment Kernel (Saigo et al, 2004)

Spectrum カーネル 長さ k の各文字列の出現回数を特徴ベクトルとする カーネルはその内積(K(x,y)=Φ (x)・ Φ (y)) 単純だけど有用、かつ、高速に計算可能

カーネル法の応用:タンパク質細胞内局在性予測 タンパク質が細胞のどの器官に運ばれるかを配列から予測

SVMによる細胞内局在性予測 各器官ごとにSVMを学習 器官X 器官Xに輸送されるタンパク質配列を正例 それ以外のタンパク質を負例

膜タンパク質の膜貫通領域予測 膜貫通領域: αへリックス 7~17残基程度の疎水性指標の平均値をプロット 平均値が高い部分が膜貫通領域と推定

参考文献 バイオインフォマティクス全般 カーネル法 金久實:ポストゲノム情報への招待、共立出版、2001 大北(訳):サポートベクターマシン入門、共立出版、2005 赤穂昭太郎:カーネル多変量解析、岩波書店、2008 丸山修、阿久津達也:バイオインフォマティクス –配列データ解析と構造予測、朝倉書店、2007