ゲノム解析における並列処理の事例紹介北陸先端科学技術大学院大学知識科学研究科佐藤賢二.

ゲノム解析における並列処理の事例紹介北陸先端科学技術大学院大学知識科学研究科佐藤賢二

ゲノムデータ主に分子生物学の実験の結果得られるデータ。世界各国で集積・配付されている。核酸配列情報 GATC…
タンパク質配列情報　　SER ALA PRO … タンパク質立体構造情報遺伝病などの疾病に関する情報文献情報 …

ゲノム情報処理で並列処理が必要な理由実験技術の進歩によりデータが加速度的に増え続ける
例）キーワード検索やホモロジー検索の並列処理 Combinatorial Computation が要求されることが多い例）モデル生物の全ゲノム配列が続々と決定されたことにより、ゲノム全体を比較して生物の進化を調べる Comparative Genomics が活発化例）相関ルール発見などのデータマイニング手法を用いてゲノムに関する知識発見を行いたいタンパク質は巨大分子（数万の原子の間の力学）例）分子動力学（どっちかというとベクトル化？）

指数的に増え続けるゲノムデータ実験技術の進歩とともに、データの産出速度が加速

ゲノムデータの例（GenBankのエントリ）
LOCUS EBOMAY bp ss-RNA VRL SEP-1990 DEFINITION Ebola virus 3' proximal protein gene, 5' end. ACCESSION M33062 NID g323684 KEYWORDS . SOURCE Ebola virus (strain MAY; Zaire 1976) RNA. ORGANISM Ebola virus Viruses; ssRNA negative-strand viruses; Mononegavirales; Filoviridae; Filovirus. REFERENCE 1 (bases 1 to 157) AUTHORS Kiley,M.P., Wilusz,J., McCormick,J.B. and Keene,J.D. TITLE Conservation of the 3' terminal nucleotide sequences of Ebola and Marburg virus JOURNAL Virology 149, (1986) MEDLINE FEATURES Location/Qualifiers source /organism="Ebola virus" /db_xref="taxon:11268" CDS >157 /note="3'proximal protein" /codon_start=1 /db_xref="PID:g323685" /translation="MRKINNFLSLKFDDRNLKLKLLICNHTVDSEPHTS" BASE COUNT a c g t ORIGIN 1 gggcacacaa aaagaaagaa gaatttttag gatcttttgt gtgcgaataa ctatgaggaa 61 gattaataat ttcctctcat tgaaatttga tgatcggaat ttgaaattga aattgttgat 121 ctgtaatcac accgttgatt cagagccaca cacaagt //

ゲノムデータの量（エントリ数）核酸配列（遺伝子）アミノ酸配列（タンパク質）タンパク質立体構造アミノ酸配列アミノ酸配列の
Date Database Release #Entries #Residues 98/9/22 genbank (Aug 98) 2,532,359 1,797,137,713 98/10/27 genbank-upd /10-28 (Oct 98) , ,645,601 98/8/25 embl (Jun 98) 2,131,533 1,434,776,497 98/10/24 embl-upd /10-24 (Oct 98) , ,494,813 98/8/25 swissprot (Jul 98) , ,840,295 98/10/20 swissprot-upd /10-20 (Oct 98) , ,825,820 98/8/25 pir (Jun 98) , ,838,376 98/9/18 prf (Sep 98) , ,113,650 98/8/25 pdb (Apr 98) , ,644,523 98/9/4 pdb-upd /09-04 (Sep 98) ,475 98/8/25 pdbstr (Apr 98) , ,617,704 98/9/4 pdbstr-upd /09-04 (Sep 98) ,113 98/8/25 epd (Apr 97) , ,800 98/8/25 transfac (May 98) ,321 98/8/25 prosite (Jul 98) ,352 98/8/25 prosdoc (Jul 98) ,014 98/8/27 blocks (Feb 98) ,845 98/8/25 prints (May 98) 98/8/25 prodom (Nov 97) , ,756,724 98/8/25 pmd (May 96) ,078 98/9/8 aaindex (Sep 98) 98/9/9 litdb (Aug 20) ,878 98/10/27 omim MIM10+/10-27 (Oct 98) ,116 98/10/28 genes /10-28 (Oct 98) , ,793,382 98/10/27 ligand /10-26 (Oct 98) ,291 98/10/28 pathway /10-28 (Oct 98) ,092 98/8/27 brite (May 98) 98/10/28 linkdb (Oct 98) 6,269,418 核酸配列（遺伝子）アミノ酸配列（タンパク質）タンパク質立体構造アミノ酸配列プロモータ配列転写因子アミノ酸配列のモチーフ（パターン辞書）変異タンパク（ミュータント）アミノ酸の各種指標文献データ（PRFから生成）遺伝病遺伝子百科事典（KEGG）上記データ全ての参照関係 -upd がついているものは、毎日更新される追加分。その他は定期／不定期に更新。

ゲノムネット（GenomeNet) JAISTのミラーサーバ京大化研スパコンラボ（SCL) 東大医科研ヒトゲノム解析センター（HGC)

京大（SCL）のシステム構成

東大（HGC）のシステム構成日立SR2201 256+16PE SGI CRAY Origin2000 256PE
Sun StarFire 64PE

JAISTのシステム構成 Sun Ultra Enterprise 3000 (4PE, 512MB, 270GB)
オートマウントに組み込んでいるので、学内のマシンならどこでもデータを参照できる（Solarisと IRIXでは検索／解析プログラムも実行可能）最近の悩みは 2GB over のファイルの扱い

ディスク消費量現在の消費量は約１３７GB Filesystem kbytes used avail capacity Mounted on
/dev/dsk/c1t3d3s % /bio /dev/md/dsk/d % /export/db100 /dev/md/dsk/d % /export/db101 /dev/md/dsk/d % /export/db102 /dev/md/dsk/d % /export/db103 /dev/md/dsk/d % /export/db104 /dev/md/dsk/d % /export/db105 現在の消費量は約１３７GB

データ更新の様子 JAIST EBI NCBI HGC NIG SCL … DB更新必要なデータを取得東京と京都で互いにデータ交換
国内外から最新データを取得（一次ミラーリング） HGC SCL

ゲノムネットのサービス ftpミラーリング（最新のゲノムデータのコピーを持つ） DBGET（キーワード検索／エントリ取得）
LinkDB（関連したエントリを辿る）ホモロジーサーチ（類似した配列の検索）他の配列解析ツール（PSORT etc.）日本独自のゲノムデータを公開（BSORF, MBGD, etc.）遺伝子百科事典（KEGG )

ゲノムネットのWWWサーバ

DBGETを使ってGenBankを検索

検索結果のリスト

リストに挙がっているエントリを表示

LinkDB

ホモロジー検索（BLAST)

BLASTの実行結果

ゲノムネットにおける主な並列化まず、SCLのStarFireでWeb経由のアクセスを受け付ける。
DBGETによるキーワード検索のうち、探索空間が非常に大きいもの（GenBankやEMBLなどの核酸配列データベース）はSCL のOriginに検索要求を投げ、４０並列×N でさばく。他はSCLの StarFireでそのまま処理する（こちらは１２並列×N）。ホモロジー検索のうち、FASTAについてはHGCのSR2201に検索要求を投げ、１６～３２並列×N でさばく。 BLASTについてはHGCのOriginに投げ、３２並列×Nでさばく。サービスは他にも色々あるが、状況に応じて要求を投げるマシンを適宜変更しながら対応している。

並列化の手法とキャッシュ FASTAとBLASTはマルチスレッドで並列化。Solaris では POSIX の
pthread と Sun 独自の thread を選択できるが、パフォーマンス上の違いはあまり見られない。 HGCのSR2201でさばいている並列化FASTAは特注プログラム。 DBGETはコンパイル時の設定によりマルチプロセスで並列化。 StarFire（Solaris）では検索に使ったファイルがメモリにキャッシュされるので、DBGETやFASTAやBLASTが２回目からは速くなる。キャッシュされるファイルのサイズは大きいもので５００MB以上。多分Origin （IRIX）も同様の機構で速くなる。SR2201（HI-UX/MPP）は少し違う機構だが、やはり主記憶常駐化により２回目からFASTAが速くなる。

JAIST内の各種のマシンで DBGET(8プロセス版）を使ってみる
db1(E3000) db2(E3000) sf1(StarFire) ks18e0o00(Octane) 4PE 4PE 32PE 2PE メモリ 512MB/10MB 512MB/401MB 4GB/1.76GB 128MB/- の状態１回目 35.3 sec sec sec sec の検索メモリ 512MB/10MB 512MB/92MB 4GB/1.46GB 128MB/- ２～１１ sec(ave.) 5.23 sec(ave.) 6.36 sec(ave.) sec(ave.) 回目の検索メモリ 512MB/10MB 512MB/91MB 4GB/1.46GB 128MB/-

傾向と対策 DGBETとFASTAとBLASTを同じマシンでサービスする場合、とにかくメモリが数GB空いてないと遅くて駄目。できればデータ
ベース更新用のマシンと検索用のマシンを分けた方が良い。 → JAISTのサーバ（db1）では近々4GBに増設予定核酸配列が検索対象の場合、３２並列前後で台数効果が下がり始めるので、多数の検索要求をさばく場合は１６並列×Nとか３２並列×Nくらいの方が、多分全体のスループットが上がる。アミノ酸配列が検索対象の場合、核酸に比べると探索空間が８分の１くらいなので、空きメモリも少なくてよい。当然計算量も少ないので、４並列×Nくらいが適当。

データマイニング（１）ー相関ルール発見ー・IBMのAgrawalらが1993年に提案。商品の販売記録を分
析し、商品間の相関関係を把握するために使用された。・１回の商品購入で一緒に買われる頻度が高い商品集　合を検索し、ルール化する。・ルールの価値はサポートおよび確信度という２つの　パラメータで定量的に評価される。・サポートがある値以下の組合せは計算途中で捨てる。　同様に確信度がある値以下の相関ルールは生成しない。２段階処理

コンビニエンスストアの例パン, バター => ミルクアイテム顧客の購買データサポート= 2 確信度= 66.6%
相関ルール発見（Apriori）最小サポート= 1 最小確信度= 60% パン, バター => ミルクサポート= 2 確信度= 66.6%

相関ルール発見は計算が爆発しやすい同時に買われる頻度が高い商品集合を検索する段階（第１ステップ）は
基本的に商品集合の全てのサブセットについて頻度計算を行うので、 Combinatorialな計算になる。無駄な計算を省いたAprioriアルゴリズムでもかなりの計算量になる。第２ステップでルール化する部分では、しきい値が低いと大量のルールが生じるため、これも時間がかかる。東大の喜連川研究室では、第１ステップの頻度計算を各候補サブセットをPEに割り付けて並列計算を行うHPAアルゴリズムを開発している。１００ノードのPCクラスタで測定した結果、かなりリニアに台数効果が出ている（詳しくは情報処理学会誌１１月号を参照）。

データマイニング（２）ー論理積ルールー東大医科研の森下・中谷らは、多因子性遺伝子疾患の病因遺伝子を
特定する問題に対し、Quinlanが決定木生成でデータ分割のために用いたエントロピー最小化に基づいて、病因遺伝子集合を論理積ルール（相関ルール発見における商品集合検索を連続値に拡張したようなもの）として発見する並列アルゴリズムを開発した（詳しくは日本ソフトウェア科学会第１５回大会併設チュートリアル「データマイニングの実装と応用」ISSN 参照）。このアルゴリズムでは最初に固定数のスレッドを生成し、探索木の兄弟ノードを複数のスレッドで並列計算し、計算の結果できた子ノードをキューイングすることを繰り返して計算を行うことで速度を上げている（だが問題自体はNP困難）。StarFireでは毎回同じ実行時間で殆どリニアに台数効果が出るが、Originではそううまくいかないらしい（DSMとSMPの違い？）。他にも決定木／回帰木の並列生成をやはりマルチスレッドで行っている。

知識発見を統合したシステム WebPACADE
タンパク質の立体構造検索・解析・および知識発見を統合したシステム WebPACADE 類似部分構造検索機能（PACADE) 可視化機能（PDB highlight）簡易データマイニング機能これらのサービスは相互呼び出しを行っておりゲノムネット上でサービスされている（可視化機能を提供する PDB highlight から入れる）

システムの構成と動作 WebPACADE PACADE PDB highlight structural sim. search
data mining module structural sim. search assoc. rule discovery visualization links to foreign services links to foreign services input forms result of sim. search visual window result of mining user

WebPACADE がサポートするデータ PACADE PDB rel.80 から選んだ4842エントリのタンパク質の
二次構造に関するジオメトリ情報をファクトとして格納している（約１７０万ファクト） PDB highlight ゲノムネットでの最新PDB（rel.84）を全てサポート（7688エントリ）簡易データマイニングゲノムネットが提供する LinkDB（異なるゲノムデータベースのエントリ間の参照関係）を用いて相関ルール発見を行うモジュール（LinkDBが提供する参照関係の総数は約６６０万件）

PACADE による類似部分構造検索可視化で使うプラグイン（フリーウェア）類似元を可視化類似部分構造を可視化簡易データ
マイニング

PDB highlight による可視化他のデータベースの参照一次構造他の解析サービスの呼び出し立体構造プラグインを操作するこ
とにより拡大縮小／回転／平行移動などが可能二次構造

簡易データマイニングの模様対象のゲノムデータベースを指定 PDBのエントリ集合簡易データマイニング見つかった相関ルール

WebPACADEの課題＝並列化 PACADEの類似構造検索自体が遅い（３０秒～５分程度）
→CoralからPVMが使えるらしいので試してみる予定構造上の類似性に基づいたタンパク質の網羅的な分類は重要なテーマだが、PACADEでこれをやると大変 →HGCのStarFireを半分（32PE）使って all-to-all の検索を実行した時は３週間かかった（出てきた類似関係の総数は約１３００万）データマイニングモジュールはHPAのような並列化が必要 →現在は探索範囲とターゲットをユーザに指定させることで爆発を回避している状態

おわりにゲノム解析は「データがどんどん増えるので計算機資源がいくらあってもすぐに足りなくなってしまう応用領域」の典型
（Webのサーチエンジンに近いものがある） →並列化は必須の技術キーワード検索やホモロジー検索など、日常的に利用するものについては割合単純なデータ並列が有効（キャッシュも）データマイニングなど、Advanced な解析を行いたい場合は組み合わせ爆発に陥るケースが多いので、アルゴリズムの工夫が重要

ゲノム解析における並列処理の事例紹介北陸先端科学技術大学院大学知識科学研究科佐藤賢二.

Similar presentations

Presentation on theme: "ゲノム解析における並列処理の事例紹介北陸先端科学技術大学院大学知識科学研究科佐藤賢二."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

ゲノム解析における並列処理の事例紹介 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二.

Similar presentations

Presentation on theme: "ゲノム解析における並列処理の事例紹介 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二."— Presentation transcript:

Similar presentations

About project

フィードバック

ゲノム解析における並列処理の事例紹介北陸先端科学技術大学院大学知識科学研究科佐藤賢二.

Presentation on theme: "ゲノム解析における並列処理の事例紹介北陸先端科学技術大学院大学知識科学研究科佐藤賢二."— Presentation transcript: