集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
バイオインフォマティクス(1) 生物学+情報技術(IT) 1990年代に大きく発展 ← ゲノム計画の急速な進展 ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノムが決定) 情報解析の必要性 DNA配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど
バイオインフォマティクス(2) 主要トピック 分野としての特徴 データベース構築 遺伝子発見、遺伝子制御領域推定 配列検索、配列比較、進化系統樹 タンパク質構造予測、機能予測、相互作用予測 遺伝子発現データ解析 ネットワーク構造解析 化合物の性質推定 分野としての特徴 多くのデータベース・ソフトウェアがWEBなどから利用可能 研究成果が(生物学研究への)応用に直結
バイオインフォマティクスにおける データベース 多くの重要なデータベースが無償でWEBからアクセス可能 DNA配列: GenBank, EMBL, DDBJ タンパク質配列: Swissprot タンパク質立体構造: PDB モチーフ: Prosite, Pfam, … 代謝パスウェイ: KEGG
Bioinformatics Center バイオインフォマティクスセンター Bioinformatics Center 京都大学 化学研究所 附属 2001年4月設立 現在、4研究室 金久研: KEGG 馬見塚研: データマイニング 阿久津研: アルゴリズム 人材養成ユニット(藤研): 分子進化
KEGG: Kyoto Encyclopedia of Genes and Genomes 金久研が開発しているデータベース 様々な生物情報データを格納 代謝パスウェイ 化合物、代謝反応式 ゲノム配列 遺伝子発現データ DBGET (統合データベースシステム) GenBnak, PDB, SwissProt, …
KEGG: Top page
KEGG中の代謝パスウェイの例
KEGG/LIGAND中の代謝反応式の例
研究室の研究内容 研究方針 研究トピック 数理的原理に基づく生命情報解析手法の開発 生命システムの数理的理解 相互作用推定 タンパク質―タンパク質、遺伝子―遺伝子など スケールフリーネットワーク 配列解析(文字列解析)アルゴリズム タンパク質立体構造解析(比較・予測) 化学情報解析(ケモインフォマティクス) 生物データ解析のための統計的手法 HMM、サポートベクタマシン
遺伝子と蛋白質 遺伝情報の流れ 遺伝子 ゲノム タンパク質 DNA⇒RNA⇒タンパク DNA配列中で直接的に 機能する部分 染色体全体(半数体) 遺伝情報の総体 タンパク質 アミノ酸(20種類)の鎖
DNAとアミノ酸 DNAはA,C,G,Tの4文字の並び DNAは二重ラセン構造⇒相補鎖 塩基:DNA1文字、 残基:アミノ酸1文字 (アミノ酸は20種類)
アミノ酸と蛋白質 アミノ酸:20種類 蛋白質:アミノ酸の鎖(短いものはペプチドと呼ばれる)
側鎖の例
計算量 情報科学では、入力データのサイズ(n)に対して、計算時間がどのように変化するかを理論的に解明することが重要 O(n): かなり速い(文字列検索など) O(n log n): 結構速い(ソートなど) O(n2): まあまあ速い(アライメントなど) O(n3): ちょっと遅い(RNA二次構造予測など) O(n4): 結構遅い(Pseudo-knotつきRNA二次構造予測など) NP困難: すごく遅い (マルチプルアライメント、スレッディングなど) P=NP は理論計算機科学における最大の難問 P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム(多項式時間アルゴリズム)は存在しない しかし、タンパク質配列などは n ≦ 1000 くらいなので、実用アルゴリズムを開発できる可能性はある
講義内容 スケールフリーネットワーク 配列アライメント タンパク質立体構造予測 遺伝子発現データ解析 タンパク質-リガンド・ドッキング カーネル法を用いた化合物の性質予測 おわりに+21世紀COE「ゲノム科学の知的情報基盤・研究拠点形成」