Presentation is loading. Please wait.

Presentation is loading. Please wait.

集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観

Similar presentations


Presentation on theme: "集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観"— Presentation transcript:

1 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

2 バイオインフォマティクス(1) 生物学+情報技術(IT) 1990年代に大きく発展 ← ゲノム計画の急速な進展
   ← ゲノム計画の急速な進展      (既に100種類以上の生物種のゲノムが決定) 情報解析の必要性 DNA配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど

3 バイオインフォマティクス(2) 主要トピック 分野としての特徴 データベース構築 遺伝子発見、遺伝子制御領域推定
配列検索、配列比較、進化系統樹 タンパク質構造予測、機能予測、相互作用予測 遺伝子発現データ解析 ネットワーク構造解析 化合物の性質推定 分野としての特徴 多くのデータベース・ソフトウェアがWEBなどから利用可能 研究成果が(生物学研究への)応用に直結

4 バイオインフォマティクスにおける データベース
多くの重要なデータベースが無償でWEBからアクセス可能 DNA配列: GenBank, EMBL, DDBJ タンパク質配列: Swissprot タンパク質立体構造: PDB モチーフ: Prosite, Pfam, … 代謝パスウェイ: KEGG

5 Bioinformatics Center
バイオインフォマティクスセンター Bioinformatics Center 京都大学 化学研究所 附属 2001年4月設立 現在、4研究室 金久研: KEGG 馬見塚研: データマイニング 阿久津研: アルゴリズム 人材養成ユニット(藤研): 分子進化

6 KEGG: Kyoto Encyclopedia of Genes and Genomes
金久研が開発しているデータベース 様々な生物情報データを格納 代謝パスウェイ 化合物、代謝反応式 ゲノム配列 遺伝子発現データ DBGET (統合データベースシステム) GenBnak, PDB, SwissProt, …

7 KEGG: Top page

8 KEGG中の代謝パスウェイの例

9 KEGG/LIGAND中の代謝反応式の例

10 研究室の研究内容 研究方針 研究トピック 数理的原理に基づく生命情報解析手法の開発 生命システムの数理的理解 相互作用推定
タンパク質―タンパク質、遺伝子―遺伝子など スケールフリーネットワーク 配列解析(文字列解析)アルゴリズム タンパク質立体構造解析(比較・予測) 化学情報解析(ケモインフォマティクス) 生物データ解析のための統計的手法 HMM、サポートベクタマシン

11 遺伝子と蛋白質 遺伝情報の流れ 遺伝子 ゲノム タンパク質 DNA⇒RNA⇒タンパク DNA配列中で直接的に 機能する部分
染色体全体(半数体) 遺伝情報の総体 タンパク質 アミノ酸(20種類)の鎖

12 DNAとアミノ酸 DNAはA,C,G,Tの4文字の並び DNAは二重ラセン構造⇒相補鎖 塩基:DNA1文字、 残基:アミノ酸1文字
 (アミノ酸は20種類)

13 アミノ酸と蛋白質 アミノ酸:20種類 蛋白質:アミノ酸の鎖(短いものはペプチドと呼ばれる)

14 側鎖の例

15 計算量 情報科学では、入力データのサイズ(n)に対して、計算時間がどのように変化するかを理論的に解明することが重要
O(n): かなり速い(文字列検索など) O(n log n): 結構速い(ソートなど) O(n2): まあまあ速い(アライメントなど) O(n3): ちょっと遅い(RNA二次構造予測など) O(n4): 結構遅い(Pseudo-knotつきRNA二次構造予測など) NP困難: すごく遅い (マルチプルアライメント、スレッディングなど) P=NP は理論計算機科学における最大の難問 P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム(多項式時間アルゴリズム)は存在しない しかし、タンパク質配列などは n ≦ 1000 くらいなので、実用アルゴリズムを開発できる可能性はある

16 講義内容 スケールフリーネットワーク 配列アライメント タンパク質立体構造予測 遺伝子発現データ解析 タンパク質-リガンド・ドッキング
カーネル法を用いた化合物の性質予測 おわりに+21世紀COE「ゲノム科学の知的情報基盤・研究拠点形成」


Download ppt "集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観"

Similar presentations


Ads by Google