ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.

Slides:



Advertisements
Similar presentations
1 1)外部の図書館の利用のしかた ①国立国会図書館 ( 東京本館・・・千代田区永田町 ) 国会議事堂の近く。 ● 満 18 歳以上であれば、だれでも施設・資料を利用することができる。 ● インターネットによる複写サービスもある。 ●NDL-OPAC というシステムから、インターネットを使ってどこからでも.
Advertisements

ゲノム解析における並列処理の事例紹介 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
情報基礎A 情報科学研究科 徳山 豪.
最新ファイルの提供を保証する代理FTPサーバの開発
初めてサテライトラボを利用する学生は1-4のステップが必要です。
植物系統分類学・第13回 分子系統学の基礎と実践
BioRuby プロジェクト In-house R&D 環境のためのオープンソースプラットフォーム
分散コンピューティング環境上の Webリンク収集システムの実装
2012年度 総合華頂探求(生命情報科学実習) 華頂女子中学高等学校 2年 医療・理系コース 小倉、北川、木村、久留野、田中、野村、山下
RNA i (RNA interference).
ParaViewを用いたPHITS 計算結果の3次元表示
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
ネットで百科 for Library の使いかた
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
ファイルシステムキャッシュを 考慮した仮想マシン監視機構
Z39.50プロトコルを用いた 検索クライアントの開発
担当:青木義満 情報工学科 3年生対象 専門科目 システムプログラミング システムプログラミング プロセス間通信(パイプ) 担当:青木義満
データマイニング 湯山 悠司.
奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観
Full Text Finder Publication Finder の概要
IUGONETメタデータ・データベースの使い方
京都大学 化学研究所 バイオインフォマティクスセンター
BioRuby プロジェクト In-house R&D 環境のためのオープンソースプラットフォーム
(B2) 親: minami, kazuki 多様な認証機器に対応する 認証システム (B2) 親: minami, kazuki.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
BioRubyにおける高速なBLAST結果処理機能の実装
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
データベース設計 第9回 Webインタフェースの作成(1)
インターネット技術特論 B:コマンドライン, shell 山口 実靖
データベースとJavaをつなげよう! ~JDBC~
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
プログラミング言語Ⅰ(実習を含む。), 計算機言語Ⅰ・計算機言語演習Ⅰ, 情報処理言語Ⅰ(実習を含む。)
第1回オープンバイオ研究会 w/ SIG-BMK.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
SVMを用いた生体分子への 金属結合部位予測手法の提案
ゲノムネットの利用法に関する講習会 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.
実行時情報に基づく OSカーネルのコンフィグ最小化
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
三浦元喜 北陸先端科学技術大学院大学 知識科学研究科 2007/9/7
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
WWW上の効率的な ハブ探索法の提案と実装
Keigo Gohda / CAMM-Kansai
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
Internet広域分散協調サーチロボット の研究開発
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
卒業研究進捗報告 2009年  月   日 研究題目: 学生番号:         氏名:          
★CD-ROMを使った情報検索 瞬時に検索できる! ★電子文字化されたデータを使いレポートを仕上げる 電子文字は加工が容易!
植物系統分類学・第14回 分子系統学の基礎と実践
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
B04 PaSViS:交通用ICカードの利用履歴可視化システム
情報共有による Z39.50データベース選択支援環境
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
様々なデータの蓄積,共有が簡単操作で可能に!
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
Mondriaan Memory Protection の調査
疾患バリアントデータベースMGeNDのご案内と 臨床ゲノム情報統合データベース整備事業へのご協力のお願い
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
遺伝統計学 集中講義 (6) 終わりに.
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

ゲノムネットについて 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

ゲノムデータ 実験技術の進歩とともに データの産出速度が加速 主に分子生物学の実験の結果得られるデータ。 世界各国で集積・配付されている。 核酸配列情報  GATC… タンパク質配列情報  SER ALA PRO … タンパク質立体構造情報 遺伝病などの疾病に関する情報 文献情報 … 実験技術の進歩とともに データの産出速度が加速

指数的に増え続けるゲノムデータ

ゲノムデータの例(GenBankのエントリ) LOCUS EBOMAY 157 bp ss-RNA VRL 15-SEP-1990 DEFINITION Ebola virus 3' proximal protein gene, 5' end. ACCESSION M33062 NID g323684 KEYWORDS . SOURCE Ebola virus (strain MAY; Zaire 1976) RNA. ORGANISM Ebola virus Viruses; ssRNA negative-strand viruses; Mononegavirales; Filoviridae; Filovirus. REFERENCE 1 (bases 1 to 157) AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D. TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and Marburg virus JOURNAL Virology 149, 251-254 (1986) MEDLINE 86124724 FEATURES Location/Qualifiers source 1..157 /organism="Ebola virus" /db_xref="taxon:11268" CDS 53..>157 /note="3'proximal protein" /codon_start=1 /db_xref="PID:g323685" /translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS" BASE COUNT 56 a 22 c 31 g 48 t ORIGIN 1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa 61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat 121 ctgtaatcac accgttgatt cagagccaca cacaagt //

ゲノムデータの量(エントリ数) 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 アミノ酸配列の Date Database Release #Entries #Residues ------ ------------- -------------------- ---------- ------------ 98/9/22 genbank 108.0 (Aug 98) 2,532,359 1,797,137,713 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/8/25 embl 55 (Jun 98) 2,131,533 1,434,776,497 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/8/25 swissprot 36.0 (Jul 98) 74,019 26,840,295 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/8/25 pir 57.0 (Jun 98) 109,075 34,838,376 98/9/18 prf 98-09 (Sep 98) 108,435 39,113,650 98/8/25 pdb 84.0 (Apr 98) 7,533 2,644,523 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/8/25 pdbstr 84.0 (Apr 98) 12,420 2,617,704 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/8/25 epd 50.0 (Apr 97) 1,308 784,800 98/8/25 transfac 3.4 (May 98) 7,321 98/8/25 prosite 15.0 (Jul 98) 1,352 98/8/25 prosdoc 15.0 (Jul 98) 1,014 98/8/27 blocks 10.0 (Feb 98) 3,845 98/8/25 prints 18.0 (May 98) 865 98/8/25 prodom 34.2 (Nov 97) 53,597 6,756,724 98/8/25 pmd 96-05 (May 96) 7,078 98/9/8 aaindex 3.0 (Sep 98) 500 98/9/9 litdb 24-16 (Aug 20) 298,878 98/10/27 omim MIM10+/10-27 (Oct 98) 10,116 98/10/28 genes 8.0+/10-28 (Oct 98) 76,891 70,793,382 98/10/27 ligand 18.0+/10-26 (Oct 98) 9,291 98/10/28 pathway 8.0+/10-28 (Oct 98) 2,092 98/8/27 brite 0.5 (May 98) 87 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 核酸配列 (遺伝子) アミノ酸配列 (タンパク質) タンパク質立体構造 アミノ酸配列 プロモータ配列 転写因子 アミノ酸配列の モチーフ(パタ ーン辞書) 変異タンパク(ミュータント) アミノ酸の各種指標 文献データ(PRFから生成) 遺伝病 遺伝子百科 事典(KEGG) 上記データ全ての参照関係 -upd がついているものは、毎日更新される追加分。その他は定期/不定期に更新。

ゲノムネット(GenomeNet) JAISTのミラーサーバ 京大化研 スパコンラボ(SCL) 東大医科研 ヒトゲノム解析センター(HGC)

ゲノムネットのサービス ftpミラーリング(最新のゲノムデータのコピーを持つ) DBGET(キーワード検索/エントリ取得) LinkDB(関連したエントリを辿る) ホモロジーサーチ(類似した配列の検索) 他の配列解析ツール(PSORT etc.) 日本独自のゲノムデータを公開(BSORF, MBGD, etc.) 遺伝子百科事典(KEGG )

ゲノムネットのWWWサーバ http://www.genome.ad.jp/

DBGET

DBGETを使ってGenBankを検索

検索結果のリスト

リストに挙がっているエントリを表示

LinkDB

LinkDB

ホモロジー検索(BLAST)

BLASTの実行結果

知識発見を統合したシステム WebPACADE タンパク質の立体構造検索・解析・および 知識発見を統合したシステム WebPACADE 類似部分構造検索機能(PACADE) http://pacade.genome.ad.jp/pacade.html 可視化機能(PDB highlight) http://pacade.genome.ad.jp/pdb_highlight.html 簡易データマイニング機能 http://pacade.genome.ad.jp/cgi-bin/mining_form.pl これらのサービスは相互呼び出しを行っており ゲノムネット上でサービスされている(可視化 機能を提供する PDB highlight から入れる)

システムの構成と動作 WebPACADE PACADE PDB highlight structural sim. search data mining module structural sim. search assoc. rule discovery visualization links to foreign services links to foreign services input forms result of sim. search visual window result of mining user

WebPACADE がサポートするデータ PACADE PDB rel.80 から選んだ4842エントリのタンパク質の 二次構造に関するジオメトリ情報をファクトとして 格納している(約170万ファクト) PDB highlight ゲノムネットでの最新PDB(rel.84)を全てサポート (7688エントリ) 簡易データマイニング ゲノムネットが提供する LinkDB(異なるゲノムデータ ベースのエントリ間の参照関係)を用いている 参照関係の総数は約600万件

PACADE による類似部分構造検索 可視化で使う プラグイン (フリーウェア) 類似元を 可視化 類似部分構 造を可視化 簡易データ マイニング

PDB highlight による可視化 他のデータベースの参照 一次構造 他の解析サービスの呼び出し 立体構造 プラグインを操作するこ とにより拡大縮小/回転 /平行移動などが可能 二次構造

簡易データマイニングの模様 対象のゲノムデータ ベースを指定 PDBのエントリ集合 簡易データ マイニング 見つかった 相関ルール

JAISTにおけるゲノムネットのミラーサーバ ディスクが足りないので ここは工事中。今月中旬 から利用可能になる予定。

データ更新の様子 JAIST EBI NCBI HGC NIG SCL … DB更新 必要な データ を取得 東京と京都で互いに データ交換 国内外から最新データを 取得(一次ミラーリング) HGC SCL

更新状況の比較 JAIST SCL HGC :db1:ideas:binfo |egrep '\-upd|link' 98/10/27 genbank-upd 108.0+/10-28 (Oct 98) 428,496 439,645,601 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,766 635,494,813 98/10/20 swissprot-upd 36.0+/10-20 (Oct 98) 9,429 3,825,820 98/9/4 pdb-upd 84.0+/09-04 (Sep 98) 560 208,475 98/9/4 pdbstr-upd 84.0+/09-04 (Sep 98) 926 204,113 98/10/28 linkdb 98-10-28 (Oct 98) 6,269,418 :db1:ideas:rsh_star "binfo | egrep '\-upd|link'" 98/10/22 genbank-upd 108.0+/10-22 (Oct 98) 413,096 425,162,742 98/10/24 embl-upd 55+/10-24 (Oct 98) 646,762 635,501,816 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,430 3,826,052 98/10/22 genpept-upd 108.0+/10-22 (Oct 98) 28,017 10,131,562 98/10/17 pdb-upd 84.0+/10-18 (Oct 98) 455 178,133 98/10/17 pdbstr-upd 84.0+/10-18 (Oct 98) 787 176,088 98/10/28 linkdb 98-10-28 (Oct 98) 6,326,285 :db1:ideas:rsh_gray "binfo | egrep '\-upd|link'" 98/10/28 genbank-upd 108.0+/10-28 (Oct 98) 428,508 439,655,330 98/10/10 embl-upd 55+/10-10 (Oct 98) 627,994 637,653,593 98/10/19 swissprot-upd 36.0+/10-20 (Oct 98) 9,427 3,825,154 98/10/28 genpept-upd 108.0+/10-28 (Oct 98) 29,189 10,448,406 98/8/2 pdb-upd 84.0+/08-02 (Aug 98) 477 182,407 98/8/2 pdbstr-upd 84.0+/08-02 (Aug 98) 817 180,304 SCL HGC

SCLやHGCとの違い Webで使ってる範囲では機能的には全く同じ。例えば、ホモロ ジー検索などは自動的にHGCかSCLで実行される。サーバの URLは http://www.jaist.genome.ad.jp/ 。 ホモロジー検索をJAISTのマシンでローカルに実行することは できない(ディスク増設により解決予定)。 さすがにパフォーマンスがちょっと落ちる(HGCやSCLはStar Fireの32~64プロセッサ、こっちは Enterprize 3000 の4プロ セッサ)。近々メモリ増設予定なので、DBGETなどは改善見込。 サーバ管理者の立場からは、HGCやSCLとの接続速度が少々 不満(200MB/hしか出ないので、GenBankのリリース更新を転送 するのに3日かかる)。また、NCBIなど海外のサイトへの接続性 も速くなって欲しい。ちなみにHGCはIIJの6Mで北米などに接続 しており、SCLとHGCの間は6MのATMで直結なので相当速い。

それでもミラーサーバを立ちあげる理由(利点) JAIST内部や、JAISTとネットワーク的に近いサイトでは、 東京や京都にWebでアクセスするよりも快適に使える。 共同研究者としてJAIST内部に来た場合、 最新のゲノムデータを格納したファイルを直接触ることができる。 →独自のゲノム解析研究を進めることができる。 コマンドラインからDBGETやホモロジー検索ができる。 →Webよりもスクリプトで回し易い。 オートマウントの設定をすれば自分のワークステーション上で 上記のことが行える(計画中)。 ゲノム解析以外の研究にも使えるかも? 情報や材料などの他研究科からもぼちぼち使われています。

コマンドラインからの利用法 パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット :db1:ken:source /bio/lib/cshrc.ideas :db1:ken:which bfind /bio/bin/bfind :db1:ken:bfind pdb shiga-like pdb:1BOV VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) :db1:ken:bfind pdb shiga-like | bget HEADER TOXIN 08-OCT-91 1BOV 1BOV 2 COMPND VEROTOXIN-1 (B-OLIGOMER, ALSO CALLED SHIGA-LIKE TOXIN-1) 1BOV 3 SOURCE (ESCHERICHIA COLI) 1BOV 4 AUTHOR P.E.STEIN,R.J.READ 1BOV 5 REVDAT 1 31-OCT-93 1BOV 0 1BOV 6 JRNL AUTH P.E.STEIN,A.BOODHOO,G.J.TYRRELL,J.L.BRUNTON, 1BOV 7 JRNL AUTH 2 R.J.READ 1BOV 8 JRNL TITL CRYSTAL STRUCTURE OF THE CELL-BINDING B OLIGOMER 1BOV 9 JRNL TITL 2 OF VEROTOXIN-1 FROM E. COLI 1BOV 10 JRNL REF NATURE V. 355 748 1992 1BOV 11 JRNL REFN ASTM NATUAS UK ISSN 0028-0836 006 1BOV 12 ~以下略~ パスや環境変数の設定 キーワード shiga-like で PDB を検索 1件ヒット ヒットしたエントリを bget で取得 詳しくは「ゲノムネットのデータベース利用法 第2版」を御覧下さい。 http://www.genome.ad.jp/dbget/dbget_manual.html も多少参考に なります(Web用に書かれているのがちょっと難点ですが)。

おわりに まだ立ち上がったばかりですが、興味のある方はぜひ ゲノムネットを使ってみて下さい。 ゲノムネットに関する御意見・御質問は佐藤までお寄せ 下さい。共同研究の御相談等に関しては小長谷教授の 方に御連絡頂いた方が良いかと思います。 北陸先端大のサーバに関する重要な変更等については 以下のURLで随時お知らせする予定です。 http://www.jaist.ac.jp/ks/labs/ken/genomenet/