ゲノムネットの利用法に関する講習会 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.

Slides:



Advertisements
Similar presentations
ゲノム解析における並列処理の事例紹介 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.
Advertisements

日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
低分子化合物の結合情報を含む高精度タンパク質 立体構造予測データベースを全世界に公開 -創薬研究の効率化や新規機能性生体物質の創製に向けて-
The Perl Conference Japan ’98 朝日奈アンテナによる コンテンツ情報の取得と利用
最新ファイルの提供を保証する代理FTPサーバの開発
初めてサテライトラボを利用する学生は1-4のステップが必要です。
植物系統分類学・第13回 分子系統学の基礎と実践
遠隔実験への取り組み.
BioRuby プロジェクト In-house R&D 環境のためのオープンソースプラットフォーム
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分散コンピューティング環境上の Webリンク収集システムの実装
2012年度 総合華頂探求(生命情報科学実習) 華頂女子中学高等学校 2年 医療・理系コース 小倉、北川、木村、久留野、田中、野村、山下
RNA i (RNA interference).
ゲノムとデータベース データベースの利用場面 システムに対する要求
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
ネットで百科 for Library の使いかた
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
2012/11/3(土) 平成24年度 第2回 データベース講習会 「創薬研究のためのデータベース講習会」
奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観
京都大学 化学研究所 バイオインフォマティクスセンター
BioRuby プロジェクト In-house R&D 環境のためのオープンソースプラットフォーム
EBSCOhost 詳細検索 チュートリアル support.ebsco.com.
(B2) 親: minami, kazuki 多様な認証機器に対応する 認証システム (B2) 親: minami, kazuki.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
BioRubyにおける高速なBLAST結果処理機能の実装
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
日本語解析済みコーパス管理ツール 「茶器」
インターネット技術特論 B:コマンドライン, shell 山口 実靖
データベースとJavaをつなげよう! ~JDBC~
プログラミング言語Ⅰ(実習を含む。), 計算機言語Ⅰ・計算機言語演習Ⅰ, 情報処理言語Ⅰ(実習を含む。)
第1回オープンバイオ研究会 w/ SIG-BMK.
ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.
BioRubyの開発と 遺伝子情報解析への応用 大阪大学遺伝情報実験センター ゲノム情報解析分野 後藤 直久 2005年1月21日.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
SVMを用いた生体分子への 金属結合部位予測手法の提案
第19回 HiHA Seminar Hiroshima Research Center for Healthy Aging (HiHA)
Traits 形質.
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
三浦元喜 北陸先端科学技術大学院大学 知識科学研究科 2007/9/7
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
WWW上の効率的な ハブ探索法の提案と実装
Keigo Gohda / CAMM-Kansai
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
Internet広域分散協調サーチロボット の研究開発
通信機構合わせた最適化をおこなう並列化ンパイラ
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
パスファインダーの作成 ※ sakura. ne. jp/CJE121023
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
エピソード記憶に訴えるBookmarkless Bookmarkの実現
卒業研究進捗報告 2009年  月   日 研究題目: 学生番号:         氏名:          
ORI-GENE A Tool for Gene Classification and Prediction of Function Based on Evolutionary Tree Hideaki Mizuno, Yoshimasa Tanaka, Kenta Nakai, Akinori Sarai.
植物系統分類学・第14回 分子系統学の基礎と実践
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
情報共有による Z39.50データベース選択支援環境
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
様々なデータの蓄積,共有が簡単操作で可能に!
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
疾患バリアントデータベースMGeNDのご案内と 臨床ゲノム情報統合データベース整備事業へのご協力のお願い
遺伝統計学 集中講義 (6) 終わりに.
Ion PGM™ 次世代シーケンサーによる 受託解析サービスのご案内 ・細菌叢解析(16S メタゲノム)
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

ゲノムネットの利用法に関する講習会 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

ゲノムデータ 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。 核酸配列情報 GATC… タンパク質配列情報  SER ALA PRO … タンパク質立体構造情報 遺伝病などの疾病に関する情報 文献情報 …

指数的に増え続けるゲノムデータ 実験技術の進歩とともに、 データの産出速度が加速

ゲノムデータの例(GenBankのエントリ) LOCUS EBOMAY 157 bp ss-RNA VRL 15-SEP-1990 DEFINITION Ebola virus 3' proximal protein gene, 5' end. ACCESSION M33062 NID g323684 KEYWORDS . SOURCE Ebola virus (strain MAY; Zaire 1976) RNA. ORGANISM Ebola virus Viruses; ssRNA negative-strand viruses; Mononegavirales; Filoviridae; Filovirus. REFERENCE 1 (bases 1 to 157) AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D. TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and Marburg virus JOURNAL Virology 149, 251-254 (1986) MEDLINE 86124724 FEATURES Location/Qualifiers source 1..157 /organism="Ebola virus" /db_xref="taxon:11268" CDS 53..>157 /note="3'proximal protein" /codon_start=1 /db_xref="PID:g323685" /translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS" BASE COUNT 56 a 22 c 31 g 48 t ORIGIN 1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa 61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat 121 ctgtaatcac accgttgatt cagagccaca cacaagt //

ゲノムデータの量(エントリ数) 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 アミノ酸配列の Date Database Release #Entries #Residues ------ ------------- -------------------- ---------- ------------ 98/9/22 genbank 108.0 (Aug 98) 2,532,359 1,797,137,713 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/8/25 embl 55 (Jun 98) 2,131,533 1,434,776,497 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/8/25 swissprot 36.0 (Jul 98) 74,019 26,840,295 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/8/25 pir 57.0 (Jun 98) 109,075 34,838,376 98/9/18 prf 98-09 (Sep 98) 108,435 39,113,650 98/8/25 pdb 84.0 (Apr 98) 7,533 2,644,523 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/8/25 pdbstr 84.0 (Apr 98) 12,420 2,617,704 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/8/25 epd 50.0 (Apr 97) 1,308 784,800 98/8/25 transfac 3.4 (May 98) 7,321 98/8/25 prosite 15.0 (Jul 98) 1,352 98/8/25 prosdoc 15.0 (Jul 98) 1,014 98/8/27 blocks 10.0 (Feb 98) 3,845 98/8/25 prints 18.0 (May 98) 865 98/8/25 prodom 34.2 (Nov 97) 53,597 6,756,724 98/8/25 pmd 96-05 (May 96) 7,078 98/9/8 aaindex 3.0 (Sep 98) 500 98/9/9 litdb 24-16 (Aug 20) 298,878 98/10/27 omim MIM10+/10-27 (Oct 98) 10,116 98/10/28 genes 8.0+/10-28 (Oct 98) 76,891 70,793,382 98/10/27 ligand 18.0+/10-26 (Oct 98) 9,291 98/10/28 pathway 8.0+/10-28 (Oct 98) 2,092 98/8/27 brite 0.5 (May 98) 87 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 プロモータ配列 転写因子 アミノ酸配列の モチーフ(パタ ーン辞書) 変異タンパク(ミュータント) アミノ酸の各種指標 文献データ(PRFから生成) 遺伝病 遺伝子百科 事典(KEGG) 上記データ全ての参照関係 -upd がついているものは、毎日更新される追加分。その他は定期/不定期に更新。

ゲノムネット(GenomeNet) JAISTのミラーサーバ 京大化研 スパコンラボ(SCL) 東大医科研 ヒトゲノム解析センター(HGC)

ゲノムネットのサービス ftpミラーリング(最新のゲノムデータのコピーを持つ) DBGET(キーワード検索/エントリ取得) LinkDB(関連したエントリを辿る) ホモロジーサーチ(類似した配列の検索) 他の配列解析ツール(PSORT etc.) 日本独自のゲノムデータを公開(BSORF, MBGD, etc.) 遺伝子百科事典(KEGG )

ゲノムネットのWWWサーバ http://www.genome.ad.jp/

DBGET

DBGETを使ってGenBankを検索

検索結果のリスト

リストに挙がっているエントリを表示

LinkDB

LinkDB

ホモロジー検索(BLAST)

BLASTの実行結果

JAISTにおけるゲノムネットのミラーサーバ ディスクが足りないので ここは工事中。来月中旬 から利用可能になる予定。

更新状況の比較 JAIST SCL HGC :db1:ideas:binfo |egrep '\-upd|link' 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 :db1:ideas:rsh_star "binfo | egrep '\-upd|link'" 98/10/22 genbank-upd 108.0+/10-22 (Oct 98) 413,096 425,162,742 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,762 635,501,816 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,430 3,826,052 98/10/22 genpept-upd 108.0+/10-22 (Oct 98) 28,017 10,131,562 98/10/17 pdb-upd 84.0+/10-18 (Oct 98) 455 178,133 98/10/17 pdbstr-upd 84.0+/10-18 (Oct 98) 787 176,088 98/10/28 linkdb 98-10-28 (Oct 98) 6,326,285 :db1:ideas:rsh_gray "binfo | egrep '\-upd|link'" 98/10/28 genbank-upd 108.0+/10-28 (Oct 98) 428,508 439,655,330 98/10/10 embl-upd 55+/10-10 (Oct 98) 627,994 637,653,593 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,427 3,825,154 98/10/28 genpept-upd 108.0+/10-28 (Oct 98) 29,189 10,448,406 98/8/2 pdb-upd 84.0+/08-02 (Aug 98) 477 182,407 98/8/2 pdbstr-upd 84.0+/08-02 (Aug 98) 817 180,304 SCL HGC

SCLやHGCとの違い 誰かネットとマシン下さい… Webで使ってる範囲では機能的には全く同じ。例えば、ホモロ ジー検索などは自動的にHGCかSCLで実行される。サーバの URLは http://www.jaist.genome.ad.jp/ 。ホスト名は db1 。 ホモロジー検索をJAISTのマシンでローカルに実行することは できない(ディスク増設により解決予定)。 さすがにパフォーマンスがちょっと落ちる(HGCやSCLはStar Fireの32~64プロセッサ、こっちは Enterprize 3000 の4プロ セッサ)。近々メモリ増設予定なので、DBGETなどは改善見込。 NCBIなど海外のサイトにつながるリンクを辿った場合、対外接 続速度の差がもろに出る(HGCはIIJの6Mで北米などに接続)。 誰かネットとマシン下さい…

それでもミラーサーバを立ちあげる理由(利点) 最新のゲノムデータを格納したファイルを直接触れる。 →独自のゲノム解析研究を進めることができる。 コマンドラインからDBGETやホモロジー検索ができる。 →Webよりもスクリプトで回し易い。 オートマウントの設定をすれば自分のワークステーション の上で上記のことが行える(計画中)。 ゲノム解析以外の研究にも使えるかも?

コマンドラインからの利用法 パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット :db1:ken:source /bio/lib/cshrc.ideas :db1:ken:which bfind /bio/bin/bfind :db1:ken:bfind pdb shiga-like pdb:1BOV VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) :db1:ken:bfind pdb shiga-like | bget HEADER TOXIN 08-OCT-91 1BOV 1BOV 2 COMPND VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) 1BOV 3 SOURCE (ESCHERICHIA COLI) 1BOV 4 AUTHOR P.E.STEIN,R.J.READ 1BOV 5 REVDAT 1 31-OCT-93 1BOV 0 1BOV 6 JRNL AUTH P.E.STEIN,A.BOODHOO,G.J.TYRRELL,J.L.BRUNTON, 1BOV 7 JRNL AUTH 2 R.J.READ 1BOV 8 JRNL TITL CRYSTAL STRUCTURE OF THE CELL-BINDING B OLIGOMER 1BOV 9 JRNL TITL 2 OF VEROTOXIN-1 FROM E. COLI 1BOV 10 JRNL REF NATURE V. 355 748 1992 1BOV 11 JRNL REFN ASTM NATUAS UK ISSN 0028-0836 006 1BOV 12 ~以下略~ パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット ヒットしたエントリを bget で取得 詳しくは「ゲノムネットのデータベース利用法 第2版」を御覧下さい。 http://www.genome.ad.jp/dbget/dbget_manual.html も多少参考に なります(Web用に書かれているのがちょっと難点ですが)。

おわりに まだ立ち上がったばかりですが、興味のある方はぜひ 使ってみてください。Webサーバのパフォーマンスが 気に入らない場合は遠慮なく http://www.genome.ad.jp/ の方を使って頂いて構いません。 御意見・御質問は佐藤までお寄せください。本格的に 研究に使用したい場合も御相談頂ければ幸いです。 重要な変更に関しては以下のURLで随時お知らせする 予定です。 http://www.jaist.ac.jp/ks/labs/ken/genomenet/

ゲノムセンターのスパコンシステム