ゲノムネットの利用法に関する講習会 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二
ゲノムデータ 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。 核酸配列情報 GATC… タンパク質配列情報 SER ALA PRO … タンパク質立体構造情報 遺伝病などの疾病に関する情報 文献情報 …
指数的に増え続けるゲノムデータ 実験技術の進歩とともに、 データの産出速度が加速
ゲノムデータの例(GenBankのエントリ) LOCUS EBOMAY 157 bp ss-RNA VRL 15-SEP-1990 DEFINITION Ebola virus 3' proximal protein gene, 5' end. ACCESSION M33062 NID g323684 KEYWORDS . SOURCE Ebola virus (strain MAY; Zaire 1976) RNA. ORGANISM Ebola virus Viruses; ssRNA negative-strand viruses; Mononegavirales; Filoviridae; Filovirus. REFERENCE 1 (bases 1 to 157) AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D. TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and Marburg virus JOURNAL Virology 149, 251-254 (1986) MEDLINE 86124724 FEATURES Location/Qualifiers source 1..157 /organism="Ebola virus" /db_xref="taxon:11268" CDS 53..>157 /note="3'proximal protein" /codon_start=1 /db_xref="PID:g323685" /translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS" BASE COUNT 56 a 22 c 31 g 48 t ORIGIN 1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa 61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat 121 ctgtaatcac accgttgatt cagagccaca cacaagt //
ゲノムデータの量(エントリ数) 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 アミノ酸配列の Date Database Release #Entries #Residues ------ ------------- -------------------- ---------- ------------ 98/9/22 genbank 108.0 (Aug 98) 2,532,359 1,797,137,713 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/8/25 embl 55 (Jun 98) 2,131,533 1,434,776,497 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/8/25 swissprot 36.0 (Jul 98) 74,019 26,840,295 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/8/25 pir 57.0 (Jun 98) 109,075 34,838,376 98/9/18 prf 98-09 (Sep 98) 108,435 39,113,650 98/8/25 pdb 84.0 (Apr 98) 7,533 2,644,523 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/8/25 pdbstr 84.0 (Apr 98) 12,420 2,617,704 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/8/25 epd 50.0 (Apr 97) 1,308 784,800 98/8/25 transfac 3.4 (May 98) 7,321 98/8/25 prosite 15.0 (Jul 98) 1,352 98/8/25 prosdoc 15.0 (Jul 98) 1,014 98/8/27 blocks 10.0 (Feb 98) 3,845 98/8/25 prints 18.0 (May 98) 865 98/8/25 prodom 34.2 (Nov 97) 53,597 6,756,724 98/8/25 pmd 96-05 (May 96) 7,078 98/9/8 aaindex 3.0 (Sep 98) 500 98/9/9 litdb 24-16 (Aug 20) 298,878 98/10/27 omim MIM10+/10-27 (Oct 98) 10,116 98/10/28 genes 8.0+/10-28 (Oct 98) 76,891 70,793,382 98/10/27 ligand 18.0+/10-26 (Oct 98) 9,291 98/10/28 pathway 8.0+/10-28 (Oct 98) 2,092 98/8/27 brite 0.5 (May 98) 87 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 プロモータ配列 転写因子 アミノ酸配列の モチーフ(パタ ーン辞書) 変異タンパク(ミュータント) アミノ酸の各種指標 文献データ(PRFから生成) 遺伝病 遺伝子百科 事典(KEGG) 上記データ全ての参照関係 -upd がついているものは、毎日更新される追加分。その他は定期/不定期に更新。
ゲノムネット(GenomeNet) JAISTのミラーサーバ 京大化研 スパコンラボ(SCL) 東大医科研 ヒトゲノム解析センター(HGC)
ゲノムネットのサービス ftpミラーリング(最新のゲノムデータのコピーを持つ) DBGET(キーワード検索/エントリ取得) LinkDB(関連したエントリを辿る) ホモロジーサーチ(類似した配列の検索) 他の配列解析ツール(PSORT etc.) 日本独自のゲノムデータを公開(BSORF, MBGD, etc.) 遺伝子百科事典(KEGG )
ゲノムネットのWWWサーバ http://www.genome.ad.jp/
DBGET
DBGETを使ってGenBankを検索
検索結果のリスト
リストに挙がっているエントリを表示
LinkDB
LinkDB
ホモロジー検索(BLAST)
BLASTの実行結果
JAISTにおけるゲノムネットのミラーサーバ ディスクが足りないので ここは工事中。来月中旬 から利用可能になる予定。
更新状況の比較 JAIST SCL HGC :db1:ideas:binfo |egrep '\-upd|link' 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 :db1:ideas:rsh_star "binfo | egrep '\-upd|link'" 98/10/22 genbank-upd 108.0+/10-22 (Oct 98) 413,096 425,162,742 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,762 635,501,816 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,430 3,826,052 98/10/22 genpept-upd 108.0+/10-22 (Oct 98) 28,017 10,131,562 98/10/17 pdb-upd 84.0+/10-18 (Oct 98) 455 178,133 98/10/17 pdbstr-upd 84.0+/10-18 (Oct 98) 787 176,088 98/10/28 linkdb 98-10-28 (Oct 98) 6,326,285 :db1:ideas:rsh_gray "binfo | egrep '\-upd|link'" 98/10/28 genbank-upd 108.0+/10-28 (Oct 98) 428,508 439,655,330 98/10/10 embl-upd 55+/10-10 (Oct 98) 627,994 637,653,593 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,427 3,825,154 98/10/28 genpept-upd 108.0+/10-28 (Oct 98) 29,189 10,448,406 98/8/2 pdb-upd 84.0+/08-02 (Aug 98) 477 182,407 98/8/2 pdbstr-upd 84.0+/08-02 (Aug 98) 817 180,304 SCL HGC
SCLやHGCとの違い 誰かネットとマシン下さい… Webで使ってる範囲では機能的には全く同じ。例えば、ホモロ ジー検索などは自動的にHGCかSCLで実行される。サーバの URLは http://www.jaist.genome.ad.jp/ 。ホスト名は db1 。 ホモロジー検索をJAISTのマシンでローカルに実行することは できない(ディスク増設により解決予定)。 さすがにパフォーマンスがちょっと落ちる(HGCやSCLはStar Fireの32~64プロセッサ、こっちは Enterprize 3000 の4プロ セッサ)。近々メモリ増設予定なので、DBGETなどは改善見込。 NCBIなど海外のサイトにつながるリンクを辿った場合、対外接 続速度の差がもろに出る(HGCはIIJの6Mで北米などに接続)。 誰かネットとマシン下さい…
それでもミラーサーバを立ちあげる理由(利点) 最新のゲノムデータを格納したファイルを直接触れる。 →独自のゲノム解析研究を進めることができる。 コマンドラインからDBGETやホモロジー検索ができる。 →Webよりもスクリプトで回し易い。 オートマウントの設定をすれば自分のワークステーション の上で上記のことが行える(計画中)。 ゲノム解析以外の研究にも使えるかも?
コマンドラインからの利用法 パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット :db1:ken:source /bio/lib/cshrc.ideas :db1:ken:which bfind /bio/bin/bfind :db1:ken:bfind pdb shiga-like pdb:1BOV VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) :db1:ken:bfind pdb shiga-like | bget HEADER TOXIN 08-OCT-91 1BOV 1BOV 2 COMPND VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) 1BOV 3 SOURCE (ESCHERICHIA COLI) 1BOV 4 AUTHOR P.E.STEIN,R.J.READ 1BOV 5 REVDAT 1 31-OCT-93 1BOV 0 1BOV 6 JRNL AUTH P.E.STEIN,A.BOODHOO,G.J.TYRRELL,J.L.BRUNTON, 1BOV 7 JRNL AUTH 2 R.J.READ 1BOV 8 JRNL TITL CRYSTAL STRUCTURE OF THE CELL-BINDING B OLIGOMER 1BOV 9 JRNL TITL 2 OF VEROTOXIN-1 FROM E. COLI 1BOV 10 JRNL REF NATURE V. 355 748 1992 1BOV 11 JRNL REFN ASTM NATUAS UK ISSN 0028-0836 006 1BOV 12 ~以下略~ パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット ヒットしたエントリを bget で取得 詳しくは「ゲノムネットのデータベース利用法 第2版」を御覧下さい。 http://www.genome.ad.jp/dbget/dbget_manual.html も多少参考に なります(Web用に書かれているのがちょっと難点ですが)。
おわりに まだ立ち上がったばかりですが、興味のある方はぜひ 使ってみてください。Webサーバのパフォーマンスが 気に入らない場合は遠慮なく http://www.genome.ad.jp/ の方を使って頂いて構いません。 御意見・御質問は佐藤までお寄せください。本格的に 研究に使用したい場合も御相談頂ければ幸いです。 重要な変更に関しては以下のURLで随時お知らせする 予定です。 http://www.jaist.ac.jp/ks/labs/ken/genomenet/
ゲノムセンターのスパコンシステム