京都大学 化学研究所 バイオインフォマティクスセンター

Slides:



Advertisements
Similar presentations
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
Advertisements

日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
情報生命科学特別講義III (1) 文字列マッチング
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
タンパク質相互作用ネットワークの スケールフリーモデル
遺伝的アルゴリズム  新川 大貴.
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
マイクロシミュレーションにおける 可変属性セル問題と解法
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
京都大学 化学研究所 バイオインフォマティクスセンター
分子生物情報学(7) 遺伝子発現データの情報解析法 スケールフリーネットワーク
京都大学 化学研究所 バイオインフォマティクスセンター
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
サポートベクターマシン によるパターン認識
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
生命情報学入門 タンパク質の分類法演習 2011年6月14日
情報生命科学特別講義III (11) RNA二次構造予測
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生命情報学基礎論 (5) タンパク質立体構造予測
生命情報学入門 配列のつなぎ合わせと再編成
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
九州大学大学院 情報学専攻特別講義 (9) ブーリアンネットワークの 解析と制御
膜タンパク質の 立体構造予測.
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Keigo Gohda / CAMM-Kansai
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Introduction to Soft Computing (第11回目)
Anja von Heydebreck et al. 発表:上嶋裕樹
分子生物情報学(2) 配列のマルチプルアライメント法
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
第4章 社会構造概念はどのように豊穣化されるか
適応的近傍を持つ シミュレーテッドアニーリングの性能
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Data Clustering: A Review
サポートベクターマシン Support Vector Machine SVM
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ音声合成における 事前分布とモデル構造の話者間共有
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
生物情報ソフトウェア特論 (10)固定パラメータアルゴリズムと 部分k木
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

京都大学 化学研究所 バイオインフォマティクスセンター 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(5) 遺伝子発現データ解析 タンパク質-リガンド・ドッキング 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

内容 遺伝子発現データの解析 タンパク質ーリガンドのドッキング DNAマイクロアレイ 遺伝子発現データを用いた腫瘍細胞分類 ドッキングの各手法/ソフトウェア紹介 DOCK、AutoDock、FlexX、ICM、GOLD プロファイルを用いた結合予測(SH3-SPOT)

遺伝子発現データの解析 DNAチップ・DNAマイクロアレイ 遺伝子発現データ解析 多数の遺伝子の発現量を同時測定可能 クラスタリング どの遺伝子が似ているか? 遺伝子ネットワーク推定 どの遺伝子がどの遺伝子を制御しているか? 腫瘍細胞分類 腫瘍のより細かな分類、抗がん剤の適切投与

遺伝子発現データを用いた 腫瘍細胞分類 発現データを観測することにより、腫瘍細胞の詳細な分類を行う 抗がん剤の適切な投与などに応用できる可能性

Eric Landerらの研究I (1999) 急性白血病の分類 6800個程度の遺伝子の発現データを利用 72サンプル ALL (acute lymphoblastic leukemias) AML (acute myeloid leukemias)

Eric Landerらの研究II 急性白血病のデータ(Golub et al, 1999) 38+34の患者の6817遺伝子の発現量を  AffymetrixのDNAチップで計測 ALL と AML のクラス分け B-CELL ALL と T-CELL ALL のクラス分け 多数決により決定(ただし、差が少ない場合には判定不能とする)

Eric Landerらの研究III クラス予測 クラス発見 Informative Gene 与えられたデータがどの既知クラスに入るかを推定 (重み付き)多数決により推定 クラス発見 新たな腫瘍のタイプを発見 自己組織化マップ(クラスタリング技法の一種)を利用 Informative Gene クラス予測に有用な遺伝子セット クラス分けとの相関に基づき選択 Feature Selection (AI分野で数多くの研究)

発現データからの細胞分類 遺伝子1 遺伝子2 遺伝子3 遺伝子4 遺伝子5 遺伝子6 タイプ Sample1 1.1 4.5 4.1 2.1 0.4 4.3 ALL Sample2 2.2 2.6 5.0 5.3 0.5 3.4 Sample3 1.3 4.8 2.5 3.9 0.8 Sample4 4.6 0.3 3.5 Sample5 0.9 0.2 2.7 3.7 AML Sample6 3.0 2.8 1.2 Sample7 1.7 3.1 4.2 実際には発現量はアナログ値 (遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0   ⇒ALL と推定

分類規則の学習法 判別分析 決定木 ニューラルネットワーク サポートベクタマシン 統計分野で古くから利用 人工知能分野で多くの研究 生物の神経回路網との類似に基づく 脳科学とも深い関連 古くから研究されていたが1980年代から多くの研究 サポートベクタマシン 1995年頃より人工知能、パターン認識などの分野で多くの研究

サポートベクタマシン 分類のための学習方式 特徴 バイオインフォマティクスにおいても既に様々な応用 正負の例(トレーニングデータ)からマージンを最大化するパラメータを学習 過学習を起こしにくい 様々なカーネルを利用可能 二次計画法を利用(最適性の保証) バイオインフォマティクスにおいても既に様々な応用

SVMによる腫瘍細胞分類(クラス予測) ALLを正例、AMLを負例として与えて、超平面を学習 超平面: x+y=k サンプル (xi,yi) xi+yi > k なら ALL xi+yi > k なら AML

決定木 YES, NO を繰り返すことにより分類

内容 遺伝子発現データの解析 タンパク質ーリガンドのドッキング DNAマイクロアレイ 遺伝子発現データを用いた腫瘍細胞分類 ドッキングの各手法/ソフトウェア紹介 DOCK、AutoDock、FlexX、ICM、GOLD プロファイルを用いた結合予測(SH3-SPOT)

二つのドッキング問題 Rough Docking Detailed Docking 多くのリガンドのスクリーニングに利用 幾何的なアルゴリズムに基づく場合が多い ドッキンググラフ、Geometric Hashing Detailed Docking より精密な配置を計算 様々な配置についてのエネルギー計算が必要

DOCK UCSFのKuntzらが1982年頃より開発 二つの部分に大きく分けられる SPHGEN MATCH タンパク質構造から球の集合を生成 MATCH リガンドを球集合にマッチするように回転平行移動 実際には複数のMATCHを求めてスコアづけする。また、MATCHの際に化学的性質を考慮するなど、様々な工夫がなされている。

DOCK: SPHGEN タンパク質の Connolly Surface を計算 Active site をカバーするように球を配置 球をクラスタリングし、重複する球や大きな球を削除 球を性質により分類

DOCK: MATCH 点のペア(pi,qj),(pi’,qj’)は以下の条件を満たせばマッチ | d(pi,pi’) – d(qj,qj’)| ≦ ε 互いにマッチする点集合を計算 (pi,qj)を頂点とし、上記条件を満たすペアの間に辺を置く   ⇒ドッキンググラフ G ドッキンググラフで最大クリーク(最大完全部分グラフ)探索

最大クリーク 最大クリーク:頂点数最大の完全部分グラフ 完全グラフ:どの2頂点間にも辺があるグラフ NP困難だが、1万頂点くらいのグラフなら最適解も計算可能

AutoDock Scripps Institute の Morris らが開発 エネルギー極小となる配置を計算 特徴 原子位置などを格子上に限ることによりエネルギー計算を効率化 Amber に基づく経験的なエネルギー関数 探索のための様々な手法 リガンドの flexibility も扱える

AutoDock:探索機能 大域探索 局所探索 大域探索と局所探索の組み合わせ Simulated Annealing Distributed SA Genetic Algorithm 局所探索 大域探索と局所探索の組み合わせ Lamarckian GA

FlexX GMDのRarey, Lengauerらが開発 特徴 リガンドの flexibility が扱える Pose clustering という geometric hashing に似た手法を用いてリガンドの部分構造が結合可能な(複数の)位置を計算 リガンドの部分構造を incremental に組み合わせる 現在の部分構造(+配置)に、スコアが最も高くなるような配置の部分構造を組み合わせる

Geometric Hashing 画像認識などで良く用いられる 三角形を重ね合わせる ⇒ 一意に回転平行移動が決まる 三角形を重ね合わせる ⇒ 一意に回転平行移動が決まる 各三角形ペアごとに回転平行移動を計算し、投票 投票数の多い回転平行移動を解とする

GOLD Sheffield大の G. Jones らが開発 配置の探索に遺伝的アルゴリズムを利用 回転角や原子の結合位置を遺伝子として記述 エネルギーなどを用いて fitness スコアを計算

ICM NYUの Abagyan らが開発 リガンドの各結合の回転角を変化させる  (Internal Coordinate Mechanics) Metropolis アルゴリズムを利用 ただし、Simulated Annealing とは異なる

ドッキング予測の評価 CASP (CASP2) CAPRI (主にタンパク質どうしのドッキング) http://predictioncenter.llnl.gov/casp2/Casp2.html CAPRI (主にタンパク質どうしのドッキング) http://capri.ebi.ac.uk/ Proteins 誌に特集号

プロファイルを用いた結合予測(1) SH3-SPOT タンパク配列(SH3ドメイン)が与えられた時、どのペプチドと結合しやすいかを予測 タンパク質配列の残基位置とペプチドの位置の各組み合わせについてプロファイルを作成 入力された配列とペプチドの組み合わせに対し、プロファイルからスコアを計算 ⇒スコアの高いペプチドと結合すると予測

プロファイルを用いた結合予測(2)

まとめ 遺伝子発現データの解析 タンパク質ーリガンドのドッキング DNAマイクロアレイ 遺伝子発現データを用いた腫瘍細胞分類 ドッキングの各手法/ソフトウェア紹介 DOCK、AutoDock、FlexX、ICM、GOLD プロファイルを用いた結合予測(SH3-SPOT)

参考文献 発現データを用いた細胞分類 ドッキング Golub et al.: Science, 286, 531 (1999) Ewing & Kuntz: J. Comp. Chem., 18, 1176 (1997) DOCK Morris et al.: J. Comp. Chem., 19, 1639 (1998) AutoDock Rarey et al.: J. Mol. Biol., 261, 470 (1996) FlexX Abagyan et al.: J. Comp. Chem., 15, 488 (1994) ICM Jones et al.: J. Mol. Biol., 267, 727 (1997) GOLD Amato et al.: J. Comp. Biol., 10, 239 (2003) Robotics Brannetti et al.: J. Mol. Biol., 298, 313 (2000) SH3-SPOT