Download presentation
Presentation is loading. Please wait.
1
ゲノムネットの利用法に関する講習会 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二
2
ゲノムデータ 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。 核酸配列情報 GATC…
タンパク質配列情報 SER ALA PRO … タンパク質立体構造情報 遺伝病などの疾病に関する情報 文献情報 …
3
指数的に増え続けるゲノムデータ 実験技術の進歩とともに、 データの産出速度が加速
4
ゲノムデータの例(GenBankのエントリ)
LOCUS EBOMAY bp ss-RNA VRL SEP-1990 DEFINITION Ebola virus 3' proximal protein gene, 5' end. ACCESSION M33062 NID g323684 KEYWORDS . SOURCE Ebola virus (strain MAY; Zaire 1976) RNA. ORGANISM Ebola virus Viruses; ssRNA negative-strand viruses; Mononegavirales; Filoviridae; Filovirus. REFERENCE 1 (bases 1 to 157) AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D. TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and Marburg virus JOURNAL Virology 149, (1986) MEDLINE FEATURES Location/Qualifiers source /organism="Ebola virus" /db_xref="taxon:11268" CDS >157 /note="3'proximal protein" /codon_start=1 /db_xref="PID:g323685" /translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS" BASE COUNT a c g t ORIGIN 1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa 61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat 121 ctgtaatcac accgttgatt cagagccaca cacaagt //
5
ゲノムデータの量(エントリ数) 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 アミノ酸配列の
Date Database Release #Entries #Residues 98/9/22 genbank (Aug 98) 2,532,359 1,797,137,713 98/10/27 genbank-upd /10-28 (Oct 98) , ,645,601 98/8/25 embl (Jun 98) 2,131,533 1,434,776,497 98/10/24 embl-upd /10-24 (Oct 98) , ,494,813 98/8/25 swissprot (Jul 98) , ,840,295 98/10/20 swissprot-upd /10-20 (Oct 98) , ,825,820 98/8/25 pir (Jun 98) , ,838,376 98/9/18 prf (Sep 98) , ,113,650 98/8/25 pdb (Apr 98) , ,644,523 98/9/4 pdb-upd /09-04 (Sep 98) ,475 98/8/25 pdbstr (Apr 98) , ,617,704 98/9/4 pdbstr-upd /09-04 (Sep 98) ,113 98/8/25 epd (Apr 97) , ,800 98/8/25 transfac (May 98) ,321 98/8/25 prosite (Jul 98) ,352 98/8/25 prosdoc (Jul 98) ,014 98/8/27 blocks (Feb 98) ,845 98/8/25 prints (May 98) 98/8/25 prodom (Nov 97) , ,756,724 98/8/25 pmd (May 96) ,078 98/9/8 aaindex (Sep 98) 98/9/9 litdb (Aug 20) ,878 98/10/27 omim MIM10+/10-27 (Oct 98) ,116 98/10/28 genes /10-28 (Oct 98) , ,793,382 98/10/27 ligand /10-26 (Oct 98) ,291 98/10/28 pathway /10-28 (Oct 98) ,092 98/8/27 brite (May 98) 98/10/28 linkdb (Oct 98) 6,269,418 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 プロモータ配列 転写因子 アミノ酸配列の モチーフ(パタ ーン辞書) 変異タンパク(ミュータント) アミノ酸の各種指標 文献データ(PRFから生成) 遺伝病 遺伝子百科 事典(KEGG) 上記データ全ての参照関係 -upd がついているものは、毎日更新される追加分。その他は定期/不定期に更新。
6
ゲノムネット(GenomeNet) JAISTのミラーサーバ 京大化研 スパコンラボ(SCL) 東大医科研 ヒトゲノム解析センター(HGC)
7
ゲノムネットのサービス ftpミラーリング(最新のゲノムデータのコピーを持つ) DBGET(キーワード検索/エントリ取得)
LinkDB(関連したエントリを辿る) ホモロジーサーチ(類似した配列の検索) 他の配列解析ツール(PSORT etc.) 日本独自のゲノムデータを公開(BSORF, MBGD, etc.) 遺伝子百科事典(KEGG )
8
ゲノムネットのWWWサーバ
9
DBGET
10
DBGETを使ってGenBankを検索
11
検索結果のリスト
12
リストに挙がっているエントリを表示
13
LinkDB
14
LinkDB
15
ホモロジー検索(BLAST)
16
BLASTの実行結果
17
JAISTにおけるゲノムネットのミラーサーバ
ディスクが足りないので ここは工事中。来月中旬 から利用可能になる予定。
18
更新状況の比較 JAIST SCL HGC :db1:ideas:binfo |egrep '\-upd|link'
98/10/27 genbank-upd /10-28 (Oct 98) , ,645,601 98/10/24 embl-upd /10-24 (Oct 98) , ,494,813 98/10/20 swissprot-upd /10-20 (Oct 98) , ,825,820 98/9/4 pdb-upd /09-04 (Sep 98) ,475 98/9/4 pdbstr-upd /09-04 (Sep 98) ,113 98/10/28 linkdb (Oct 98) 6,269,418 :db1:ideas:rsh_star "binfo | egrep '\-upd|link'" 98/10/22 genbank-upd /10-22 (Oct 98) , ,162,742 98/10/24 embl-upd /10-24 (Oct 98) , ,501,816 98/10/19 swissprot-upd /10-20 (Oct 98) , ,826,052 98/10/22 genpept-upd /10-22 (Oct 98) , ,131,562 98/10/17 pdb-upd /10-18 (Oct 98) ,133 98/10/17 pdbstr-upd /10-18 (Oct 98) ,088 98/10/28 linkdb (Oct 98) 6,326,285 :db1:ideas:rsh_gray "binfo | egrep '\-upd|link'" 98/10/28 genbank-upd /10-28 (Oct 98) , ,655,330 98/10/10 embl-upd /10-10 (Oct 98) , ,653,593 98/10/19 swissprot-upd /10-20 (Oct 98) , ,825,154 98/10/28 genpept-upd /10-28 (Oct 98) , ,448,406 98/8/2 pdb-upd /08-02 (Aug 98) ,407 98/8/2 pdbstr-upd /08-02 (Aug 98) ,304 SCL HGC
19
SCLやHGCとの違い 誰かネットとマシン下さい… Webで使ってる範囲では機能的には全く同じ。例えば、ホモロ
ジー検索などは自動的にHGCかSCLで実行される。サーバの URLは 。ホスト名は db1 。 ホモロジー検索をJAISTのマシンでローカルに実行することは できない(ディスク増設により解決予定)。 さすがにパフォーマンスがちょっと落ちる(HGCやSCLはStar Fireの32~64プロセッサ、こっちは Enterprize 3000 の4プロ セッサ)。近々メモリ増設予定なので、DBGETなどは改善見込。 NCBIなど海外のサイトにつながるリンクを辿った場合、対外接 続速度の差がもろに出る(HGCはIIJの6Mで北米などに接続)。 誰かネットとマシン下さい…
20
それでもミラーサーバを立ちあげる理由(利点)
最新のゲノムデータを格納したファイルを直接触れる。 →独自のゲノム解析研究を進めることができる。 コマンドラインからDBGETやホモロジー検索ができる。 →Webよりもスクリプトで回し易い。 オートマウントの設定をすれば自分のワークステーション の上で上記のことが行える(計画中)。 ゲノム解析以外の研究にも使えるかも?
21
コマンドラインからの利用法 パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット
:db1:ken:source /bio/lib/cshrc.ideas :db1:ken:which bfind /bio/bin/bfind :db1:ken:bfind pdb shiga-like pdb:1BOV VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) :db1:ken:bfind pdb shiga-like | bget HEADER TOXIN OCT BOV BOV 2 COMPND VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) BOV 3 SOURCE (ESCHERICHIA COLI) BOV 4 AUTHOR P.E.STEIN,R.J.READ BOV 5 REVDAT OCT-93 1BOV BOV 6 JRNL AUTH P.E.STEIN,A.BOODHOO,G.J.TYRRELL,J.L.BRUNTON, BOV 7 JRNL AUTH 2 R.J.READ BOV 8 JRNL TITL CRYSTAL STRUCTURE OF THE CELL-BINDING B OLIGOMER 1BOV 9 JRNL TITL 2 OF VEROTOXIN-1 FROM E. COLI BOV 10 JRNL REF NATURE V BOV 11 JRNL REFN ASTM NATUAS UK ISSN BOV 12 ~以下略~ パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット ヒットしたエントリを bget で取得 詳しくは「ゲノムネットのデータベース利用法 第2版」を御覧下さい。 も多少参考に なります(Web用に書かれているのがちょっと難点ですが)。
22
おわりに まだ立ち上がったばかりですが、興味のある方はぜひ 使ってみてください。Webサーバのパフォーマンスが
気に入らない場合は遠慮なく の方を使って頂いて構いません。 御意見・御質問は佐藤までお寄せください。本格的に 研究に使用したい場合も御相談頂ければ幸いです。 重要な変更に関しては以下のURLで随時お知らせする 予定です。
23
ゲノムセンターのスパコンシステム
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.