Presentation is loading. Please wait.

Presentation is loading. Please wait.

ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.

Similar presentations


Presentation on theme: "ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二."— Presentation transcript:

1 ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

2 ゲノムデータ 実験技術の進歩とともに データの産出速度が加速 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。
核酸配列情報  GATC… タンパク質配列情報  SER ALA PRO … タンパク質立体構造情報 遺伝病などの疾病に関する情報 文献情報 実験技術の進歩とともに データの産出速度が加速

3 指数的に増え続けるゲノムデータ

4 ゲノムデータの例(GenBankのエントリ)
LOCUS EBOMAY bp ss-RNA VRL SEP-1990 DEFINITION Ebola virus 3' proximal protein gene, 5' end. ACCESSION M33062 NID g323684 KEYWORDS . SOURCE Ebola virus (strain MAY; Zaire 1976) RNA. ORGANISM Ebola virus Viruses; ssRNA negative-strand viruses; Mononegavirales; Filoviridae; Filovirus. REFERENCE 1 (bases 1 to 157) AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D. TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and Marburg virus JOURNAL Virology 149, (1986) MEDLINE FEATURES Location/Qualifiers source /organism="Ebola virus" /db_xref="taxon:11268" CDS >157 /note="3'proximal protein" /codon_start=1 /db_xref="PID:g323685" /translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS" BASE COUNT a c g t ORIGIN 1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa 61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat 121 ctgtaatcac accgttgatt cagagccaca cacaagt //

5 ゲノムデータの量(エントリ数) 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 アミノ酸配列の
Date Database Release #Entries #Residues 98/9/22 genbank (Aug 98) 2,532,359 1,797,137,713 98/10/27 genbank-upd /10-28 (Oct 98) , ,645,601 98/8/25 embl (Jun 98) 2,131,533 1,434,776,497 98/10/24 embl-upd /10-24 (Oct 98) , ,494,813 98/8/25 swissprot (Jul 98) , ,840,295 98/10/20 swissprot-upd /10-20 (Oct 98) , ,825,820 98/8/25 pir (Jun 98) , ,838,376 98/9/18 prf (Sep 98) , ,113,650 98/8/25 pdb (Apr 98) , ,644,523 98/9/4 pdb-upd /09-04 (Sep 98) ,475 98/8/25 pdbstr (Apr 98) , ,617,704 98/9/4 pdbstr-upd /09-04 (Sep 98) ,113 98/8/25 epd (Apr 97) , ,800 98/8/25 transfac (May 98) ,321 98/8/25 prosite (Jul 98) ,352 98/8/25 prosdoc (Jul 98) ,014 98/8/27 blocks (Feb 98) ,845 98/8/25 prints (May 98) 98/8/25 prodom (Nov 97) , ,756,724 98/8/25 pmd (May 96) ,078 98/9/8 aaindex (Sep 98) 98/9/9 litdb (Aug 20) ,878 98/10/27 omim MIM10+/10-27 (Oct 98) ,116 98/10/28 genes /10-28 (Oct 98) , ,793,382 98/10/27 ligand /10-26 (Oct 98) ,291 98/10/28 pathway /10-28 (Oct 98) ,092 98/8/27 brite (May 98) 98/10/28 linkdb (Oct 98) 6,269,418 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 プロモータ配列 転写因子 アミノ酸配列の モチーフ(パタ ーン辞書) 変異タンパク(ミュータント) アミノ酸の各種指標 文献データ(PRFから生成) 遺伝病 遺伝子百科 事典(KEGG) 上記データ全ての参照関係 -upd がついているものは、毎日更新される追加分。その他は定期/不定期に更新。

6 ゲノムネット(GenomeNet) JAISTのミラーサーバ 京大化研 スパコンラボ(SCL) 東大医科研 ヒトゲノム解析センター(HGC)

7 ゲノムネットのサービス ftpミラーリング(最新のゲノムデータのコピーを持つ) DBGET(キーワード検索/エントリ取得)
LinkDB(関連したエントリを辿る) ホモロジーサーチ(類似した配列の検索) 他の配列解析ツール(PSORT etc.) 日本独自のゲノムデータを公開(BSORF, MBGD, etc.) 遺伝子百科事典(KEGG )

8 ゲノムネットのWWWサーバ

9 DBGET

10 DBGETを使ってGenBankを検索

11 検索結果のリスト

12 リストに挙がっているエントリを表示

13 LinkDB

14 LinkDB

15 ホモロジー検索(BLAST)

16 BLASTの実行結果

17 知識発見を統合したシステム WebPACADE
タンパク質の立体構造検索・解析・および 知識発見を統合したシステム WebPACADE 類似部分構造検索機能(PACADE) 可視化機能(PDB highlight) 簡易データマイニング機能 これらのサービスは相互呼び出しを行っており ゲノムネット上でサービスされている(可視化 機能を提供する PDB highlight から入れる)

18 システムの構成と動作 WebPACADE PACADE PDB highlight structural sim. search
data mining module structural sim. search assoc. rule discovery visualization links to foreign services links to foreign services input forms result of sim. search visual window result of mining user

19 WebPACADE がサポートするデータ PACADE PDB rel.80 から選んだ4842エントリのタンパク質の
二次構造に関するジオメトリ情報をファクトとして 格納している(約170万ファクト) PDB highlight ゲノムネットでの最新PDB(rel.84)を全てサポート (7688エントリ) 簡易データマイニング ゲノムネットが提供する LinkDB(異なるゲノムデータ ベースのエントリ間の参照関係)を用いている 参照関係の総数は約600万件

20 PACADE による類似部分構造検索 可視化で使う プラグイン (フリーウェア) 類似元を 可視化 類似部分構 造を可視化 簡易データ
マイニング

21 PDB highlight による可視化 他のデータベースの参照 一次構造 他の解析サービスの呼び出し 立体構造 プラグインを操作するこ
とにより拡大縮小/回転 /平行移動などが可能 二次構造

22 簡易データマイニングの模様 対象のゲノムデータ ベースを指定 PDBのエントリ集合 簡易データ マイニング 見つかった 相関ルール

23 JAISTにおけるゲノムネットのミラーサーバ
ディスクが足りないので ここは工事中。今月中旬 から利用可能になる予定。

24 データ更新の様子 JAIST EBI NCBI HGC NIG SCL … DB更新 必要な データ を取得 東京と京都で互いに データ交換
国内外から最新データを 取得(一次ミラーリング) HGC SCL

25 更新状況の比較 JAIST SCL HGC :db1:ideas:binfo |egrep '\-upd|link'
98/10/27 genbank-upd /10-28 (Oct 98) , ,645,601 98/10/24 embl-upd /10-24 (Oct 98) , ,494,813 98/10/20 swissprot-upd /10-20 (Oct 98) , ,825,820 98/9/4 pdb-upd /09-04 (Sep 98) ,475 98/9/4 pdbstr-upd /09-04 (Sep 98) ,113 98/10/28 linkdb (Oct 98) 6,269,418 :db1:ideas:rsh_star "binfo | egrep '\-upd|link'" 98/10/22 genbank-upd /10-22 (Oct 98) , ,162,742 98/10/24 embl-upd /10-24 (Oct 98) , ,501,816 98/10/19 swissprot-upd /10-20 (Oct 98) , ,826,052 98/10/22 genpept-upd /10-22 (Oct 98) , ,131,562 98/10/17 pdb-upd /10-18 (Oct 98) ,133 98/10/17 pdbstr-upd /10-18 (Oct 98) ,088 98/10/28 linkdb (Oct 98) 6,326,285 :db1:ideas:rsh_gray "binfo | egrep '\-upd|link'" 98/10/28 genbank-upd /10-28 (Oct 98) , ,655,330 98/10/10 embl-upd /10-10 (Oct 98) , ,653,593 98/10/19 swissprot-upd /10-20 (Oct 98) , ,825,154 98/10/28 genpept-upd /10-28 (Oct 98) , ,448,406 98/8/2 pdb-upd /08-02 (Aug 98) ,407 98/8/2 pdbstr-upd /08-02 (Aug 98) ,304 SCL HGC

26 SCLやHGCとの違い Webで使ってる範囲では機能的には全く同じ。例えば、ホモロ
ジー検索などは自動的にHGCかSCLで実行される。サーバの URLは 。 ホモロジー検索をJAISTのマシンでローカルに実行することは できない(ディスク増設により解決予定)。 さすがにパフォーマンスがちょっと落ちる(HGCやSCLはStar Fireの32~64プロセッサ、こっちは Enterprize 3000 の4プロ セッサ)。近々メモリ増設予定なので、DBGETなどは改善見込。 サーバ管理者の立場からは、HGCやSCLとの接続速度が少々 不満(200MB/hしか出ないので、GenBankのリリース更新を転送 するのに3日かかる)。また、NCBIなど海外のサイトへの接続性 も速くなって欲しい。ちなみにHGCはIIJの6Mで北米などに接続 しており、SCLとHGCの間は6MのATMで直結なので相当速い。

27 それでもミラーサーバを立ちあげる理由(利点)
JAIST内部や、JAISTとネットワーク的に近いサイトでは、 東京や京都にWebでアクセスするよりも快適に使える。 共同研究者としてJAIST内部に来た場合、 最新のゲノムデータを格納したファイルを直接触ることができる。 →独自のゲノム解析研究を進めることができる。 コマンドラインからDBGETやホモロジー検索ができる。 →Webよりもスクリプトで回し易い。 オートマウントの設定をすれば自分のワークステーション上で 上記のことが行える(計画中)。 ゲノム解析以外の研究にも使えるかも? 情報や材料などの他研究科からもぼちぼち使われています。

28 コマンドラインからの利用法 パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット
:db1:ken:source /bio/lib/cshrc.ideas :db1:ken:which bfind /bio/bin/bfind :db1:ken:bfind pdb shiga-like pdb:1BOV VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) :db1:ken:bfind pdb shiga-like | bget HEADER TOXIN OCT BOV BOV 2 COMPND VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) BOV 3 SOURCE (ESCHERICHIA COLI) BOV 4 AUTHOR P.E.STEIN,R.J.READ BOV 5 REVDAT OCT-93 1BOV BOV 6 JRNL AUTH P.E.STEIN,A.BOODHOO,G.J.TYRRELL,J.L.BRUNTON, BOV 7 JRNL AUTH 2 R.J.READ BOV 8 JRNL TITL CRYSTAL STRUCTURE OF THE CELL-BINDING B OLIGOMER 1BOV 9 JRNL TITL 2 OF VEROTOXIN-1 FROM E. COLI BOV 10 JRNL REF NATURE V BOV 11 JRNL REFN ASTM NATUAS UK ISSN BOV 12 ~以下略~ パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット ヒットしたエントリを bget で取得 詳しくは「ゲノムネットのデータベース利用法 第2版」を御覧下さい。 も多少参考に なります(Web用に書かれているのがちょっと難点ですが)。

29 おわりに まだ立ち上がったばかりですが、興味のある方はぜひ ゲノムネットを使ってみて下さい。
ゲノムネットに関する御意見・御質問は佐藤までお寄せ 下さい。共同研究の御相談等に関しては小長谷教授の 方に御連絡頂いた方が良いかと思います。 北陸先端大のサーバに関する重要な変更等については 以下のURLで随時お知らせする予定です。


Download ppt "ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二."

Similar presentations


Ads by Google