Grid Datafarm for a HEP application

Slides:



Advertisements
Similar presentations
Windows HPC Server を使ってみる
Advertisements

インターネットの仕組み 例) Web閲覧 インターネット サーバ リクエスト データ 携帯電話 一般家庭 インターネットサービス
Ibaraki Univ. Dept of Electrical & Electronic Eng.
ATLAS実験データ解析に向けた、長距離広帯域ネットワークにおけるデータ転送
Webプロキシサーバにおける 動的資源管理方式の提案と実装
計算機工学III オペレーティングシステム #14 ファイル: より進んだファイルシステム 2006/07/21 津邑 公暁
動画像品質調整機能を組み込んだ プロキシキャッシングシステムの 実装と評価
TCPコネクションの分割 によるスループットの向上
高速ネットワーク技術、スーパーコンピュータ関連の国際会議にて受賞 家庭用PCで超高速Webアクセス環境を実現するUsadaFoxを用い、 遠距離Webアクセス性能を1000倍高速化 東京大学データレゼボワール実験グループ.
ネットワーク技術II 第8.2課 イーサネット・スイッチング
情報ネットワーク 岡村耕二.
COPPER/FINESSE System構築
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
別紙2:利用料金(税別) 今回リリースする機能 利用料金 備考 初期料金 月額上限料金 分課金(概算) ライセンス データベース
神奈川大学大学院工学研究科 電気電子情報工学専攻
ネットワーク構成法 スケール 第6回 11月19日.
TCP (Transmission Control Protocol)
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
各種PC クラスタの性能評価 同志社大学 工学部 廣安 知之 三木 光範 谷村 勇輔.
TCPデータ通信との公平性を考慮した 輻輳適応能力を有する MPEG動画像通信のための品質調整機構
WindowsNTによるLAN構築 ポリテクセンター秋田 情報・通信系.
後藤研の紹介 研究室説明資料 に掲載 日本語.
輪講: 詳解TCP/IP ACE B3 suzuk.
予備親探索機能を有した アプリケーションレベルマルチキャスト
ネットワークとノードの情報を利用したオーバレイネットワークの最適化
スパコンとJLDG HEPの計算環境 HEPnet-J
Status and Plans for the Tier 1 Tokyo (Japan)
プロキシ協調型動画像配信システムの検討 大阪大学 若宮 直紀.
動画像ストリーミングサービスのための プロキシキャッシングシステムの 設計と実装および評価
大規模ネットワークにおける バンド幅測定アルゴリズム
「コンピュータと情報システム」 06章 通信ネットワーク
Copyright Yumiko OHTAKE
Ibaraki Univ. Dept of Electrical & Electronic Eng.
アトラス実験における データ解析用グリッド環境の構築
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
過負荷時の分散ソフトウェアの 性能劣化を改善する スケジューリングの提案
USENIX 2004 A Transport Layer Approach for Improving End-to-End Performance and Robustness Using Redundant Paths 寺岡研究室 斉藤俊介.
分散IDSの実行環境の分離 による安全性の向上
「計算科学による素粒子・原子核・宇宙の融合」
他のプロセスに あたえる影響が少ない 実行時ミラーリングシステム
超高速ネットワークの弱点 光は速い 光は遅い 300km / 1msec (真空中) 180km / 1msec (光ファイバ中)
後藤研の紹介 日本語.
仮想計算機を用いたサーバ統合に おける高速なリブートリカバリ
大規模ネットワークにおける 効率的なバンド幅マップ構築アルゴリズム
演習第6回 情報通信技術論 インターネット工学
ATLAS実験イベントビルダへの 品質保証機能の適用と性能評価
非対称リンクにおける ジャンボフレームの性能評価
後藤研の紹介 日本語.
J-PARC E16実験におけるDAQ-Middleware を用いたDAQソフトウェアの開発
M1 Kenji KANEDA (SIG-PDS)
超高速ネットワークの弱点 光は速い 光は遅い 300km / 1msec (真空中) 180km / 1msec (光ファイバ中)
後藤研の紹介 研究室説明資料 に掲載 日本語.
スーパーコンピュータ「京」 理化学研究所 計算科学研究センター
可視化用粒子データを用いたIn−Situ可視化システムのSIMD最適化
DNSクエリーパターンを用いたOSの推定
VMMのソフトウェア若化を考慮した クラスタ性能の比較
目的:高速QR分解ルーチンのGPUクラスタ実装
後藤研の紹介 研究室説明資料 に掲載 日本語.
後藤研の紹介 その前に 休講のお知らせ 情報学科3年「計算機ネットワーク」 水曜3限(後藤)    9月29日(水) 休講 金曜2限(中島先生) 10月1日(金) 開講 第1回の授業は休講の連絡が徹底しにくい.
レポート課題 レポートの提出は による。 提出期間を厳守する。 締切は2010年1月12日(火)
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
広島大学におけるHEPnet-J 利用状況
大規模ネットワークにおける 効率的なバンド幅マップ構築アルゴリズム
2007 D0活動予定 D0 kazuhisa.
レポート課題1 基本問題:  課題1. あるマシンまでのRTT (Round Trip Time)を測定したところ 128msec(ミリ秒)であった。このマシンに対してウィンドウサイズ64KByteでTCPの通信を行う場合のスループットの予想値を計算せよ。 ヒント1: 授業中に説明したように、スループットの値は、ウィンドウサイズを往復遅延時間で割れば良い。Byteとbitの換算に注意する。計算を簡単にするために1024≒1000として計算して良い(もちろん、この概算を使わなくても良い)。スループットは、ど
7月13日の演習問題・解答例 について ネットワーク長が 18、22、26、28 の場合の
東大素セ 松本浩,田中純一, 上田郁夫,坂本宏,真下哲郎
Dynamic Function Placement for Data-intensive Cluster Computing
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
ソケットの拡張によるJava用分散ミドルウエアの高信頼化
Presentation transcript:

Grid Datafarm for a HEP application SC2002 High-Performance Bandwidth Challenge Grid Datafarm for a HEP application Osamu Tatebe (Grid Technology Research Center, AIST) Satoshi Sekiguchi(AIST), Youhei Morita (KEK), Satoshi Matsuoka (Titech & NII), Kento Aida (Titech), Donald F. (Rick) McMullen (Indiana), Philip Papadopoulos (SDSC) Data Grid ミニワークショップ 国立天文台@三鷹 2002年12月11日

SC2002 high-performance bandwidth challenge demonstrate exciting applications at the maximum possible speed

Overview of Our Challenge Seven clusters in US and Japan comprise a cluster-of-cluster file system: Gfarm file system The FADS/Goofy simulation code based on the Geant4 toolkit simulates the ATLAS detector and generates hits collection (a terabyte of raw data) in the Gfarm file system The Gfarm file system replicates data across the clusters Bandwidth Challenge!!!!

グリッド技術(グリッドデータファーム)を用いた テラバイト(1兆文字)クラスの大規模データ グリッド技術(グリッドデータファーム)を用いた テラバイト(1兆文字)クラスの大規模データ 一ヶ所に保存すると 保存箇所以外からの書き込み・読み出しに時間がかかる 災害時などにデータが失われたり、アクセスできなくなったりする 分けて別々に保存すると 別々の管理単位になり、管理、アクセスが大変 手元にないデータへの読み書きは時間がかかる 災害時などには部分的にデータが失われたり、アクセスできなくなったりする

グリッドデータファームを使うと 複数分散ディスクによりファイルシステムを構成 分散して書き込まれた複数ファイルを一つのファイルとして扱える 部分的な複製ができる 複数の複製により障害に備える データがある場所でそのデータを高速処理する つくば 東京 バルチモア インディアナ サンディエゴ

Target Application at SC2002: FADS/Goofy Monte Carlo Simulation Framework with Geant4 (C++) FADS/Goofy: Framework for ATLAS/Autonomous Detector Simulation / Geant4-based Object-oriented Folly http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/ Modular I/O package selection: Objectivity/DB and/or ROOT I/O on top of Gfarm filesystem with good scalability CPU intensive event simulation with high speed file replication and/or distribution

Network and cluster configuration for SC2002 Bandwidth Challenge OC-12 Tsukuba WAN Indianapolis GigaPoP Indiana Univ. 1 Gbps OC-12 POS AIST Tokyo NOC PNWG SC2002, Baltimore APAN/TransPAC 10 GE Grid Cluster Federation Booth SCinet 10 GE OC-12 ATM (271Mbps) E1200 StarLight Titech GbE SuperSINET NII-ESnet HEP PVC OC-12 ICEPP KEK ESnet NOC SDSC GbE 20 Mbps Japan US SC会場とのデータ転送の理論総バンド幅 2.1 Gbps KEK Titech AIST ICEPP SDSC Indiana U SC2002 Total disk capacity: 18 TB, disk I/O bandwidth: 6 GB/s

実証実験:複製 SC2002 バンド幅チャレンジ 2.3 Gbps! 米 国内網 日米間通信 741Mbps 複数経路を 同時利用 世界初! 産総研 つくば 実証実験:複製 インディアナ大 SC2002 バンド幅チャレンジ 2.3 Gbps! つくばWAN MAFFIN 10Gbps 日米間通信 741Mbps 複数経路を 同時利用 世界初! 1Gbps 622Mbps 622Mbps 大手町 シアトル 米 国内網 SC2002 会場 KEK 271Mbps シカゴ 10Gbps 20Mbps 1Gbps 622Mbps 1Gbps 東工大 サンディエゴ SDSC 東大 バルチモア

ネットワーク、クラスタ構成の特徴 SC2002会場のネットワーク構成 GbE PC 10GE OC192 E1200 12 SCinet GbEで接続された12ノードのPCクラスタをForce10 E1200で10GEでSCinetに接続 LANにおける性能 ネットワークバンド幅は930Mbps ファイル転送性能は75MB/s(=629Mbps) AIST 同等の7ノードのクラスタ。GbEでつくばWAN、Maffinを経て東京XPに接続 Indiana大 FEで接続された15ノードのクラスタ。OC12でIndianapolis GigaPoPに接続 SDSC GbEで接続された8ノードのクラスタ。OC12で外部接続 TransPACの南北ルートのルーティング デフォルトは北ルート SC会場、AISTのそれぞれ3ノードについて南ルートを通るよう東京XP、Maffinで設定 AIST、SC会場間のRTT: 北ルート 199ms、南ルート 222ms 南ルートは271Mbpsにシェーピング PC E1200 GbE SCinet 10GE OC192 12 ノード SC2002会場のネットワーク構成

Lessons from the Challenge 64KB/0.2sec = 2.62Mbps 64KB 200ms 700Mbpsを達成するには280台(ストリーム)必要、これを4台で達成 チャレンジ Lessons 大きな遅延 RTT: 北回り 199ミリ秒、南回り 222ミリ秒 socket buffer size の拡大 複数ストリーム、ネットワークストライピング パケットロスによる window size の限界 High Speed TCP(HSTCP, net100)の利用 Sally Floyd の Internet Draft 輻輳ウィンドウの早期復帰 過大な window size によるパケットロスの増大 小さな socket buffer で複数のストリームを利用 ディスク性能の限界 複数のストリームによる並列ディスクアクセス ストライピング・アクセス 適切なストライプ・サイズの選択 複数ホストへの分割 gfarm – 断片化されたファイル ノード数が少ないため、必要バンド幅を達成するために必要最小限のノードを利用、単体性能の向上 1ノードあたり平均200Mbps! ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。(皆様お手数をおかけしました) ルータごとのパケットロス率、 Abileneカンザスシティ、デンバー間のパケットロス修正 北ルート米国方向で35Mbpsから500Mbps強に大改善! TransPAC南ルート(OC-12 ATM)のセルロス 解決できず。271MbpsにシェープしたPVCを利用 転送可能なレートを超えて送信すると急激に性能低下 送信バッファサイズによる制御 送信間隔による制御 ネットワーク転送のみ:250Mbps程度、ファイル転送:170Mbps程度 シェーピングをはずして、アプリケーションで転送レートを制御しても改善せず HSTCPおよびnet100パッチによる複数TCPストリームのバンド幅不均衡 単一ストリームのバンド幅が過大にならないよう転送レート制御が必要 ネットワーク性能とファイル転送性能の性能差 Incomingとoutgoingストリームの性能は必ずしも輪にならない 片方向だけよりも劣化する場合も APAN/TransPAC における詳細な測定モニタの必要性 1分平均値 → 10秒、1秒、1/10秒平均が必要

IperfによるTransPAC性能評価 北ルート 10-sec average bandwidth 南ルート SC会場から南北両ルートに対し、 北ルート2ノード、南ルート3ノード の計10ノードを利用して 753Mbps(10秒平均)を達成 (理論ピーク性能:622+271=893Mbps) 5-min average bandwidth

IperfによるSC会場とのバンド幅測定(1分平均) TransPAC北 SDSC インディアナ大 TransPAC南 TransPACのバンド幅は測定時の 状況により大幅に変化 米国内Abileneのパケットロス障害による

日米間のグリッド実験 米国4ノード、日本4ノード、ファイル転送で 741 Mbps 達成! (10秒平均) 産経新聞12月1日 日経産業新聞11月22日 日本経済新聞11月21日夕刊 読売新聞11月21日夕刊 米国4ノード、日本4ノード、ファイル転送で 741 Mbps 達成! (10秒平均)

TransPACにおけるファイル転送の設定と結果 Host pair (内訳) streams (内訳) 10秒平均最大 転送時間(秒) 平均 1 (北1) 16 (北16x1) 113.0 152Mbps 2 (北2) 32 (北16x2) 419 Mbps 115.9 297Mbps 3 (北3) 48 (北16x3) 593 Mbps 139.6 369Mbps 4 (北3 南1) 56 (北16x3 + 南8x1) 741 Mbps 150.0 458Mbps 設定パラメータ 北回り 南回り socket buffer size: 610 KB 250 KB 流量制限 1 ストリームあたり: 50 Mbps 28.5 Mbps ストリーム数: 16 streams 8 streams ホスト数: 3 hosts 1 host stripe unit size: 128 KB

SC会場とIndianaおよびSDSCのファイル複製性能

Bandwidth Measurement Result 1-sec average bandwidth 10-sec average bandwidth 0.1-sec average bandwidth We achieved 2.3 Gbps using 12 nodes! (outgoing 1.7 Gbps, incoming 0.6 Gps)

Special thanks to Rick McMullen, John Hicks (Indiana Univ, PRAGMA) Phillip Papadopoulos (SDSC, PRAGMA) Hisashi Eguchi (Maffin) Kazunori Konishi, Yoshinori Kitatsuji, Ayumu Kubota (APAN) Chris Robb (Indiana Univ, Abilene) Force 10 Networks, Inc