並列計算技術によるタンパク質の構造解析 IBM RS/6000SPを用いた研究 同志社大学大学院 小掠真貴 同志社大学工学部 廣安知之 同志社大学大学院 小掠真貴 同志社大学工学部 廣安知之 三木光範 同志社大学(学) 角美智子 昨年度,私達の研究グループでは,けいはんな通信放送機構(TAO)において,IBMマシンRS/6000SPを使用し並列計算に関する研究を行いました.本日はその研究成果報告を行います.
研究背景 大規模な科学技術計算 タンパク質立体構造解析 地球外知的生命体探査 地球シミュレータ 画像処理 気象解析 流体解析 近年,さまざまな科学技術計算が必要とされていますが,それらのほとんどが大規模な計算です.たとえば,地球外生命体探査(The Search for Extraterrestrial Intelligence:SETI[カリフォルニア大バークレー校])では,宇宙からくる電波を解析し,そこに地球外生命体からの信号がないかどうかを探すというものです.宇宙からくるすべての電波を解析しなければならないため,莫大な計算量が必要となります.また,地球シミュレータ[海洋科学技術センター]とは,地球変動(地震,温暖化現象)を予測するための仮想地球(計算機システム)であり,同様に多くの計算量を必要とします.タンパク質の立体構造解析も計算量が膨大になる科学技術計算のひとつです. 気象解析 流体解析
研究背景 タンパク質 遺伝子解析からタンパク質の立体構造解析へ 生物の生命活動に必要 生物学的機能と密接な関係 アルツハイマー病,糖尿病 遺伝子を設計図として作られる ヒトゲノム研究により 遺伝子情報が次第に明らかになる タンパク質は,人間をはじめとする生物の生命活動に欠かせないものです.タンパク質の持つ機能は,生物学的な機能と密接な関係にあるため,その機能の解析は重要となります.たとえば,アルツハイマー病は,タンパク質が正常な形で存在しない場合に起こることや,糖尿病はインスリンというタンパク質ホルモンの分泌が少ないときに起こる病気だということが知られています.タンパク質は遺伝子を設計図として作られますが,ヒトゲノム研究によりヒトの遺伝子情報が次第に明らかになってきた今日では,その遺伝子情報を元にしたタンパク質の立体構造解析へと注目が集まっています. 遺伝子解析からタンパク質の立体構造解析へ
タンパク質の立体構造解析 タンパク質の構造 タンパク質立体構造解析の必要性 新薬の開発 病理の発現機構の解明 アミノ酸配列(一次構造)
タンパク質の立体構造解析 数値計算によるタンパク質の立体構造解析 エネルギーが最も 低くなる状態を求める 最適化手法による 計算が必要となる 最適化問題としての 立体構造解析
最適化問題 ある条件のもとで,目的とするものを最小化(最大化) するような変数を決定する問題 最も安く行きたい 最も早く行きたい A A B 40min \120 20min \120 40min \120 20min \120 35min \220 35min \220 30min 30min \100 \100 A A B B 50min 50min 30min \150 30min \150 \60 45min \160 \60 45min \160 42min \90 42min \90 115min \380 95min \540
最適化手法 最適化手法の分類 数理的手法 最急降下法,ニュートン法など 現実問題を解くことは困難 発見的手法(ヒューリスティック法) 物理現象のアナロジー 数理的手法には最急降下法やニュートン法などが挙げられるが,モデル化や計算量から,現実問題を数理的手法で解くことができる場合は少ない.そこで近年,物理現象や生物進化をコンピュータで模擬し,経験的に最適解を得ようとする手法として,発見的手法(ヒューリスティック法)が受け入れられている.ヒューリスティック手法も膨大な計算量を必要とするが,現実問題を解くことができる有効な手法のひとつであると考えられる. 生物進化のアナロジー 膨大な計算量
シミュレーテッドアニーリング (SA) 金属の焼きなまし(アニーリング)という物理現象を コンピュータでシミュレートする方法 ゆっくり冷やす 高温状態 低温状態 エネルギーが大きく 不安定 エネルギーが小さく 安定 ヒューリスティック法のひとつとしてここでは2つの手法を紹介する. まず一つ目としてシミュレーテッドアニーリング(以下SA)は,・・・
シミュレーテッドアニーリング (SA) f (x1, x2) 初期化 生成 評価 温度 受理判定 クーリング 終了 くり返し high temperature 初期化 low temperature local minimum 生成 評価 受理判定 クーリング global minimum 温度 くり返し Metropolis基準 P = -(Enext-Ecurrent) T exp 終了
遺伝的アルゴリズム (GA) 生物の進化の過程を模倣した最適化手法 もう一つのヒューリスティック法として,遺伝的アルゴリズム(GA)が挙げられる. 染色体やDNAの概念を利用.
遺伝的アルゴリズム (GA) f (x1, x2) 初期化 評価 選択 交叉 突然変異 (3, 5 ) 1 1 1 x1 x2 終了 Candidate solution 評価 選択 交叉 突然変異 encode decode (3, 5 ) くり返し (Genetic Operator) 遺伝的操作 Individual : 1 1 1 x1 x2 終了 chromosome
並列処理 プロセッサを複数個用いて, 複数の処理を同時並行的に行うこと 並列処理の必要性 計算の高速化 計算機システムの信頼性,分散性などの向上 しかし,ヒューリスティック法では計算量が多く必要となるため,並列処理が欠かせない.並列処理とは,プロセッサを複数個用いた・・・ 並列処理によって,計算の高速化や計算機システムの・・・を図ることができる.
並列処理 計算時間の短縮 task1 task2 task3 task1 task2 task3 逐次処理 並列処理 Time 計算の高速化とは,計算時間を短縮すること,つまり処理速度を向上することである.たとえば,この図のように3つのタスクがあるとする.もし1つのプロセッサで逐次処理を行うと,3つ分の時間がかかることになる.しかし,3つのプロセッサを用いると,各プロセッサはタスクを1つずつ処理すればよく,かかる時間が三分の一となる.
並列処理 プロセッサ間通信 task1 task2 task3 task4 task5 task6 task3 task2 task1 逐次処理 並列処理 task1 task2 task3 task4 task5 task6 task3 task2 task1 Time communication しかし実際には,プロセッサ数に比例して処理速度が向上するとは限らない.並列処理を行うことによって,本来の逐次処理では必要としなかった本来の目的と異なるところで余分な時間がかかることがあるからである.その一つに,プロセッサ間通信がある.処理を複数のプロセッサに分けることによって,本来一ヶ所にあるべきデータを分割する必要が生じる.そのデータの受け渡しにかかる時間が通信時間である.通信時間がかかりすぎると,並列処理によって得られる速度向上の意味がなくなってしまうので,通信時間は計算時間全体と比較して,小さいものでなければならない.そのため,並列処理を行うときに使用する手法はその点を考慮して作成するべきである. task6 task5 task4
IBM RS/6000SP 分散メモリ型超並列プロセッサ 13ノードで構成 Node4~13 : Type1 本実験では,並列処理用のマシンである,IBMのRS/6000SPという分散メモリ型超並列プロセッサを用いた.分散メモリ型並列プロセッサでは,先程述べた通信を必要とする.本マシンは3つの異なるタイプからなる13ノードの並列計算機である. Node4~13 : Type1 Node2, 3 : Type2 Node1 : Type3
IBM RS/6000SP Type1 10ノードによる並列処理 ノード間通信 通信媒体 : SPスイッチ (150MByte/Sec) 今回は,科学技術計算に適したType1の10ノードを用いて実験を行った.1ノードに1プロセッサであるため,複数のノードを用いて計算を行うためにはプロセッサ間通信(ノード間通信)が必要となる.通信のための媒体は,SPスイッチである.
遺伝的交叉を用いた 並列シミュレーテッドアニーリング SAとGAのハイブリッドアルゴリズム タンパク質の立体構造解析において, 従来のSAよりも性能が高いことが明らかとなっている 分散メモリ型並列計算機に実装するためには 新たなモデルが必要 RS/6000SPに実装するための 遺伝的交叉を用いた並列シミュレーテッド アニーリングの並列モデルを開発
遺伝的交叉を用いた並列SAによる タンパク質の立体構造解析 5つのアミノ酸からなるタンパク質Met-enkephalin 最小エネルギー構造 E < -11 kcal/mol Met-enkephalin 設計変数 19個の二面角 1つの設計変数ごとに アニーリングの処理を行う 19回のアニーリングの 処理を1MCsweepという
遺伝的交叉を用いた並列SAによる タンパク質の立体構造解析 構造解析のモデル化とアルゴリズムの適用 1MCsweepあたり 19回のアニーリング
実験結果:解探索能力 0.93 0.90 0.90
実験結果:計算時間 810.53 544.31 409.78
遺伝的交叉を用いた並列SAの実装モデルは 結論 遺伝的交叉を用いた並列SAの並列実装モデル を開発し,タンパク質立体構造解析をRS/6000SP によって行った 90%以上の解探索能力 1.98倍の速度向上 (プロセッサ数2倍) 遺伝的交叉を用いた並列SAの実装モデルは 分散メモリ型並列計算機を用いての タンパク質立体構造解析に有効である
fin 本研究の実施にあたり,岡崎国立共同研究機構の岡本祐幸先生に多大なご指導をいただいたことに深く感謝申し上げます. IBM RS/6000SPの利用にあたり,ご指導くださいましたけいはんな通信放送機構(TAO)やIBMの皆様に心より感謝申し上げます.