e-サイエンス推進のための 広域分散ファイルシステムの 適用と評価

Slides:



Advertisements
Similar presentations
G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマン ス測定用のツール 使い方: exe ファイルのパスと作業ディレクトリ指定して実 行するだけ 注意点 : GPU のコード実行後にプログラム終了前に,
Advertisements

オープン&ビッグデータ活用・地方創生推進機構 事務局 オープン&ビッグデータ活用・地方創生推進機構 評価版ツールの状況報告 平成26年度第3回 技術委員会 資料3-1.
2020 年( TMT 、 SPICA 時代)の すばる望遠鏡 高見英樹 ( 国立天文台) 年の光赤外の情勢 大きな流れ TMT 稼働開始 SPICA 打ち上げ、 JWST は? LSST 稼働開始、 HSC の役割は? Keck 、 Gemini は存続だが予算は厳しい、 VLT は着実.
ATLAS実験データ解析に向けた、長距離広帯域ネットワークにおけるデータ転送
The Perl Conference Japan ’98 朝日奈アンテナによる コンテンツ情報の取得と利用
クラスタの構成技術と クラスタによる並列処理
最新ファイルの提供を保証する代理FTPサーバの開発
TCPコネクションの分割 によるスループットの向上
JPAを利用した RESTful Webサービスの開発
ML 演習 第 8 回 2007/07/17 飯塚 大輔, 後藤 哲志, 前田 俊行
IDLTM/IONTMを使用した UDON (Universe via Darts ON-line) プロトタイプの作成
解析サーバの現状と未来 2006/07/18 衛星データ処理勉強会 村上 弘志 現状のシステム構成など 統合解析環境としての整備
神奈川大学大学院工学研究科 電気電子情報工学専攻
VO講習会 2015如月 (2015年2月26-27日、国立天文台三鷹)
ファイルシステムキャッシュを 考慮した仮想マシン監視機構
最新情報技術を活用した超大規模 天文データ解析機構の研究開発
南極からの新赤外線天文学の創成 南極内陸は、ブリザードがなく、非常に穏やかな、地球上で最も星空の美しい場所です。この場所で私たちは新しい赤外線天文学を展開します 宇宙初期の広域銀河地図を作って、私たちの銀河系の生い立ちを解明します 137億年前 100億年前 宇宙の果て 最初の星が生まれ、銀河が成長した時代.
医療支援診断のためのコンピュータ分散システムの検討
PlanetLab における 効率的な近隣サーバ選択法
第5回 CPUの役割と仕組み3 割り込み、パイプライン、並列処理
画像処理ボード上での 高速テンプレートマッチングの 実装と検証
ネストした仮想化を用いた VMの安全な帯域外リモート管理
サーバ構成と運用 ここから私林がサーバ構成と運用について話します.
ノードの情報を動的に反映したオーバレイネットワークの構築
ノードの情報を動的に反映したオーバレイネットワークの構築
 データベースによる並列処理 情報論理工学研究室  三宅健太.
スパコンとJLDG HEPの計算環境 HEPnet-J
UNIXについて 松野秀平.
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
JVO (Japanese Virtual Observatory) の研究開発 V03c
Flyingware : バイトコード変換による 安全なエージェントの実行
空間情報サーバ (株)パスコ.
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
型付きアセンブリ言語を用いた安全なカーネル拡張
過負荷時の分散ソフトウェアの 性能劣化を改善する スケジューリングの提案
分散IDSの実行環境の分離 による安全性の向上
「計算科学による素粒子・原子核・宇宙の融合」
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
MPIとOpenMPを用いた Nクイーン問題の並列化
リモートホストの異常を検知するための GPUとの直接通信機構
実行時情報に基づく OSカーネルのコンフィグ最小化
複数ホストに分割されたメモリを用いる仮想マシンの監視機構
JVOの研究開発 (メタデータ交換の国際対応)
JVO の研究開発 -- バーチャル天文台に対応した データサービスの実装 --
JVO (Japanese Virtual Observatory) の研究開発
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
Internet広域分散協調サーチロボット の研究開発
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
Webプロキシ HTTP1.0 ヒント CS-B3 ネットワークプログラミング  &情報科学科実験I.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
宇宙科学統合解析環境の構築とAstro-E2解析支援
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
ソフトウェア保守のための コードクローン情報検索ツール
JVOの研究開発 (プロトタイプ2の実装) 田中昌宏、白崎裕治、本田敏志、 大石雅寿、水本好彦(国立天文台)、
InTriggerクラスタ環境の構築 i-explosion 支援班 クラスタ環境の概要 研究に使える「共有資源」を提供
仮想環境を用いた 侵入検知システムの安全な構成法
ISO23950による分散検索の課題と その解決案に関する検討
ユビキタスコンピューティングの ための ハンドオーバー機能付きRMIの実装
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
強制パススルー機構を用いた VMの安全な帯域外リモート管理
国際宇宙ステーション搭載 全天X線監視装置搭載用CCDカメラ開発の現状
高度プログラミング演習 (11).
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
Jan 2015 Speaker: Kazuhiro Inaba
モジュール分割.
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
JVOプロトタイプ システムの開発 DEWS2004 2004年 3月 5日 田中 昌宏、白崎 裕治、 本田 敏志、
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
強制パススルー機構を用いた VMの安全な帯域外リモート管理
Presentation transcript:

e-サイエンス推進のための 広域分散ファイルシステムの 適用と評価 ― 大規模天文データ解析に向けて ― 田中昌宏、建部修見(筑波大) 2009-8-6 SWoPP2009

発表内容 研究の背景と目的 Gfarmによる天文eサイエンス基盤の提案 提案基盤上での天文データ解析の初期性能評価 天文データの格納方法 格納データの検索方法 提案基盤上での天文データ解析の初期性能評価 天文画像処理プログラムの並列実行 2009-8-6 SWoPP2009

研究背景 大量の天文観測データ 大量データを活用した天文eサイエンス 観測装置の進化 広域サーベイ観測 すばる望遠鏡で視野10倍のカメラを開発中(2011年実現予定) 次世代望遠鏡: ALMA, TMT(30-m Telescope) 広域サーベイ観測 SDSS DR7   15.7 TB 2MASS All Sky   11.4 TB 大量データを活用した天文eサイエンス 多数の銀河についての統計的な研究 褐色矮星・活動銀河核などの天体探索 2009-8-6 SWoPP2009

天文観測データの流れ(研究背景) 観測 天文データの検索・取得方法がばらばら → 天文データ取得が困難 データ解析 研究 データ データ アーカイブ データ アーカイブ …. 観測 天文データの検索・取得方法がばらばら → 天文データ取得が困難 データ解析 研究 2009-8-6 SWoPP2009

バーチャル天文台(研究背景) IVOA (International Virtual Observatory Alliance) 天文データ配信の国際標準 IVOA (International Virtual Observatory Alliance)  において仕様決定 ↓ 天文データ検索・取得の仕様統一により、天文データの検索・取得が容易に バーチャル天文台 サービス検索のための メタデータ配信 天文データ 検索サービス image1 image2 2009-8-6 SWoPP2009

大量データの解析が必要(研究背景) 観測 大量データの解析が必要に データ解析 研究 データ データ アーカイブ アーカイブ …. 2009-8-6 SWoPP2009

天文データ解析へのグリッドの適用 これまでに適用されたグリッド/ストレージの例: 課題 TeraGrid : SRB, EGEE : gLite 課題 大容量ストレージの確保 広域データ処理のための効率的なファイル配置 公開データの広域共有 実際の研究基盤としての使いやすさ 2009-8-6 SWoPP2009

研究目的 研究の目標 本発表における研究目的 天文eサイエンスにおける、大規模天文データ解析の実現 広域分散ファイルシステム Gfarm を適用した、 天文eサイエンス基盤の提案 大規模天文データ解析に向けての第一歩として、初期性能評価を行う 2009-8-6 SWoPP2009

発表内容 研究背景・目的 Gfarmによる天文eサイエンス基盤の提案 提案基盤上での天文データ解析の初期性能評価 天文データの格納方法 格納データの検索方法 提案基盤上での天文データ解析の初期性能評価 画像処理プログラムの並列実行 2009-8-6 SWoPP2009

Gfarm 広域分散ファイルシステム 大規模なデータ解析を可能にする特徴 地理的に離れた拠点のストレージを統合 スケーラブル ストレージを束ねて大容量にできる 耐障害性・アクセス分散 ファイルの複製機能 高性能 計算ノードへのファイル配置による最適な入出力 2009-8-6 SWoPP2009

Global Directory Tree によるアクセス Gfarmによる広域データ共有 Laboratory A NAOJ JAXA Gfarm / /subaru /archives /akari /labA … /subaru/spcam … … … /archives/2mass /akari/fis /labA/personB data … data … data … data … ユーザデータ 公開データ 観測者データ Global Directory Tree によるアクセス 2009-8-6 SWoPP2009

天文データの格納 バーチャル天文台(VO)のデータが利用しやすいように、VO標準仕様を利用 格納ディレクトリ名 ディレクトリ検索 VOサービスのIDから作成 例: ivo://edu.jhu/sdss →    /edu.jhu/sdss/ ディレクトリ検索 VOサービス発見に用いられるのメタデータ(XML)を、Gfarmファイルシステムに格納 → XPathによるデータ検索 Gfarm ファイルシステム /edu.jhu sdss メタデータ image1 2009-8-6 SWoPP2009

格納データの座標検索 XPathだけでは座標検索ができない バーチャル天文台のデータ検索サービスを利用したプロキシを作成 HTTPリクエスト プロキシでクエリを転送 最初から全てのデータを格納しなくてもよい HTTPリクエスト http://gfs.jp?POS=座標... ① HTTPリクエスト http://sdss.edu?POS=座標... ② データ検索プロキシ  バーチャル天文台 データ検索サービス ユーザ ⑤ データへのパス ③ データURL Gfarmファイルシステム /edu.jhu image1 image1 ④ 転送 sdss image1 2009-8-6 SWoPP2009

プロトタイプ実装 各国のバーチャル天文台からメタデータを収集 画像検索サービスへのプロキシ メタデータ数 : 9319 メタデータ数 : 9319 画像検索サービス数 : 122 画像検索サービスへのプロキシ 簡単なCGIで動作実証 今後、実際にデータ転送を行い、性能評価を行う予定 2009-8-6 SWoPP2009

発表内容 研究背景・目的 Gfarmによる天文eサイエンス基盤の提案 提案基盤上での天文データ解析の初期性能評価 天文データの格納方法 格納データの検索方法 提案基盤上での天文データ解析の初期性能評価 画像処理プログラムの並列実行 2009-8-6 SWoPP2009

初期性能評価 Gfarm上で実際に天文データ処理を行い、 大規模データ解析に向けての第1段階として、簡単な並列実行性能を調べる。 対象データ処理: 天文画像の変換合成 2009-8-6 SWoPP2009

天文画像処理ソフトウェア Montage Montage 測定対象プログラム: mProjectPP 複数の天文画像を1枚の画像に合成するソフトウェア 天球座標・投影法の変換、明るさの補正、画像の合成 処理ごとに分かれたプログラム 測定対象プログラム: mProjectPP Montage の一連の処理のうちの、最初の処理 2009-8-6 SWoPP2009

測定対象: mProjectPP mProjectPP 2MB の画像 32枚の並列処理 入力ファイル 出力ファイル FITS file NAXIS = 2 CRVAL = 212.0 CRPIX = 2000 …. NAXIS = 2 CRVAL = 210.0 CRPIX = 1600 …. 変換前の 画像 2MB 変換結果 mProjectPP 天球面投影法・ピクセルスケールの変換 Text file FITS file 変換後の 投影法、ピクセルスケール のテンプレートファイル (FITS ヘッダ) NAXIS = 2 CRVAL = 210.0 CRPIX = 1600 …. NAXIS = 2 CRVAL = 210.0 CRPIX = 1600 …. 2MB の画像 32枚の並列処理 投影エリア 複数画像の処理は独立 画像の合成など他の処理は対象外 2009-8-6 SWoPP2009

測定環境 InTrigger Gfarm 筑波ノードと広島ノードを利用 メタデータサーバ(MDS):筑波ノード ファイルシステムノード: 筑波・広島ともに8コア搭載 MDS への RTT (Round-Trip Time) 筑波ノード:RTT=0.15ms 広島ノード:RTT=29ms 2009-8-6 SWoPP2009

測定内容 筑波・広島それぞれのクラスタ内での並列処理性能 並列度 による性能 ファイルシステム による性能 ノード数: n = 1, 2, 4, 8 プロセス/ノード: m = 1, 2, 4, 8 並列プロセス数: p = n × m = 1, 2, 4, 8, 16, 32 並列プロセス数 × 逐次プロセス数 = 32 (画像枚数) ファイルシステム による性能 ローカルストレージ、Gfarm、NFS 2009-8-6 SWoPP2009

筑波ノードでの測定 InTrigger 筑波クラスタ LocalとGfarmの場合、ファイルはあらかじめ計算ノードにコピー この転送時間は測定に含まれない プログラムはファイルが配置されたノードで実行 ファイルアクセスは、計算ノード内部のI/O NFS サーバはクラスタ内に1つ Metadata Server InTrigger 筑波クラスタ Compute Nodes … NFS Server FUSE Gfarm File System Local Storage Local File Gfarm File Gfarm File NFS File 2009-8-6 SWoPP2009

mProjectPP実行時間:筑波ノード (1) Gfarmでの実行時間は、 Localアクセスとほぼ同じ 経過時間(秒) (2) 並列度に反比例して 実行時間が減少 プロセスの並列数 2009-8-6 SWoPP2009

広島ノードでの測定 RTT=29ms InTrigger 筑波クラスタ InTrigger 広島クラスタ Metadata Server Compute Nodes … NFS Server FUSE Gfarm File System Local Storage Local File Gfarm File Gfarm File NFS File 2009-8-6 SWoPP2009

mProjectPP実行時間:広島ノード Gfarmでの実行時間は LocalFSやNFSに比べて 約3倍の増加 経過時間(秒) プロセスの並列数 2009-8-6 SWoPP2009

MDSが遠い場合の実行時間の増加 考えられる実行時間増加の原因: MDSアクセス 広島・筑波間の RTT: 29 ms Gfarmは、ファイルオープンなどの時、MDSにアクセスする。 read&write には、ファイルがあるサーバへ直接アクセスするため、MDSアクセスはない。 1回のアクセス時間: RTTの数倍 ネットワーク遅延の増加 → 実行時間の増加 広島・筑波間の RTT: 29 ms mProjectPP 1回の実行時間:  筑波: 1.8 s 広島: 4.6 s 差: 2.8 s ~ 97 RTT MDSアクセスにしては、予想以上の増加 データ解析プログラムに問題はないか? 2009-8-6 SWoPP2009

mProjectPP の中の I/O関数の経過時間 広島ノードからのMDSアクセス 全呼出回数 MDSアクセス回数 全経過時間(ms) 平均経過時間(ms) fopen 14 1,151 82 fseeko 4 420 105 ftello 6 3 89 30 fgets 64 443 111 fread 644 299 75 fwrite 2,968 2 237 118 remove 162 81 合計 3823 33 2,800 平均 84 fopenは14回の呼び出しがあり、 14回ともMDSアクセスが発生 fopen直後1-2回のI/O関数呼出で、MDSアクセスが発生 2009-8-6 SWoPP2009

fopen回数 必要回数より 10 回多い 呼出回数: 14回 必要回数: 4回 (入力ファイル数:2、出力ファイル数:2) 呼出回数: 14回 必要回数: 4回  (入力ファイル数:2、出力ファイル数:2) 必要回数より 10 回多い 同一ファイルを複数回open-closeしている 2009-8-6 SWoPP2009

fopen問題個所(1/2) CFITSIO (FITS入出力ライブラリ) file_is_compressed 関数 圧縮ファイルかどうか調べるために open-closeしている。 この関数が、実際のopenの前に呼ばれる。 fopen 1回分 file_create 関数 ファイルが存在しないことを確認するため、リードオンリーで fopen を実行している。 fopen 2回分 2009-8-6 SWoPP2009

fopen問題個所(2/2) Montage プログラム内 checkHdr 関数 main 関数 FITSヘッダの妥当性チェックのため、入力ファイル(2つ)を open-close している。 fopen 5回分 main 関数 テンプレートファイルを出力画像へコピーするため、 fits_write_key_template 関数を用いており、この関数内でテンプレートファイルをopen-closeしている。 fopen 2回分 2009-8-6 SWoPP2009

問題の傾向についての考察 1つの関数内でopen-close FITSヘッダをその都度ファイルから読む openしたままrewindなどで対応すればよい。 open-closeが関数内で閉じていたほうがわかりやすい? FITSヘッダをその都度ファイルから読む 最初にメモリーに読み込めば、ファイルから読まずに済む。 メモリーが貴重な時代の名残? これまでopen-close にオーバーヘッドがほとんどなかったから、このような設計でも問題なかった。 Gfarmによる広域分散データ処理において性能を上げるためには、fopenを不必要に行わないよう、データ処理プログラムの改良が必要。 2009-8-6 SWoPP2009

まとめ 大規模な天文データ解析を行うための天文eサイエンス基盤について提案 天文データ解析の初期性能評価 Gfarmファイルシステムの適用 バーチャル天文台に基づく天文データの格納 バーチャル天文台データ検索サービスへのプロキシ 天文データ解析の初期性能評価 天文画像処理ソフトウェア Montage について実行時間を測定 Gfarmファイルに対する実行時間 同一クラスタ内にメタデータサーバがある場合は、理想に近い性能 メタデータサーバへのRTTが大きい場合、実行時間が増加 解析プログラムで必要以上にopenを行うという問題が判明 2009-8-6 SWoPP2009

今後の計画 バーチャル天文台からGfarmへのデータ転送性能の評価 天文データ解析ソフトウェアの問題個所の効率化 他の天文データ解析処理の性能評価 実際に大規模天文データ解析を実施し、その性能評価 2009-8-6 SWoPP2009