グリッド技術を利用した大規模計算機システムの構築

グリッド技術を利用した大規模計算機システムの構築
東大素粒子物理国際研究センター松永浩之、磯部忠昭、小林富雄、坂本宏、真下哲郎、松井長隆、森下可奈子

Worldwide LHC Computing Grid
LHC実験では、データ量がかつてないほど多いので、 CERNだけでデータの保管や処理を行うことが不可能 Raw データの量だけで >3PB/year Worldwide LHC Computing Grid (WLCG) LHCの実験に必要な計算機資源を確保し、Grid middleware の開発・配備を行う WLCG においても、仮想組織（VO: Virtual Organization) ごとに使用・運用方法は少しずつ異なる　（VO は各実験に対応：ATLAS VO など） WLCGサイト間の連携や、サイトでのソフトウェアのインストール方法など

地域解析センター東大素粒子センターに、日本におけるアトラス実験のデータ解析の拠点として、「地域解析センター」を設置
地域解析センターでは、WLCG として使用する資源とそれ以外 (非WLCG) の資源に区別して運用 WLCGでは ATLAS VO のみサポート非WLCG 分は、ATLAS日本グループが独占して使用ただし、WLCG に提供しているストレージ（ディスク）は、非WLCG の計算機からもアクセス可能なように設計 WLCG で使用されている三種類の Grid middleware のうち、ヨーロッパを中心に開発されている gLite を用いて、WLCG のサイト (TOKYO-LCG2) を構築・運用

計算資源昨年から本システム設置計算サーバー： 650 ノード x 4 コアディスクアレイ：１４０台テープライブラリ：８０００本
120 ノードを gLite の Worker Node として使用　(~1000kSI2k) また、一部は gLite “Head Node” として使用ディスクアレイ：１４０台１台に 500GB x 16 HDD、RAID-6 で使用３０台 (~190TB) を WLCG に提供近く６５台 (~400TB) まで追加予定テープライブラリ：８０００本 LTO-3 (400GB/本)

Tape Robot PC Servers Disk Arrays Disk Arrays ~270 m2

WLCG サイト構成 CE (Computing Element) + WN SE (Storage Element)
Torque + Maui の batch system Fair share、Priority (Production、software インストール）（将来 WN 数が増加した場合） LSF への移行も検討 WN は、8GB memory (2GB/core)、~40GB working disk space (10GB/core) SE (Storage Element) DPM (Disk Pool Manager) で構築 CERN の Castor から派生（テープはなし） rfio、name server (MySQL based) データ転送は gridFTP xrootd の動作も可能 rfio などにより、（非LCG 上のノードの）ジョブから直接ファイルをアクセス可能 SRM (Storage Resource Manager) プロトコル対応実験からの機能要求、異なる実装に対する interoperability Information System (BDII、Globus MDS)、LFC File Catalog、Resource Broker、User Interface、Monitoring/Accounting など

SE の構築１台のファイルサーバーに５台のディスクアレイ (~6TB/台) を接続
4Gbps の Fibre-Channel ファイルサーバーでは、Chelsio の 10Gbps の NIC を使用遠くの相手と効率よくデータ転送するため、TCP の Window size 等を調整東大のサイトは、主にフランス・リヨンのサイトとの間でデータを転送 (RTT~280ms) SL3/i386 用パッケージしかないころより、 SL4/x86_64 の OS で（互換モードで）稼動。また、filesystem には XFS を使用 SL4 の TCP の実装 (BIC-TCP) は、SL3 のもの (TCP Reno)より輻輳制御が優れている大きな Filesystem (>2TB) を作成可能。大量のファイル消去は ext3 より XFS のほうが高速。また、XFSは大きなファイルの扱いが得意 gridFTP を用いた multi-stream でのデータ転送による fragmentation の効果が XFS は ext3 より小さいただし、XFS は (RedHat Linux でサポートされていないため)独自に patch を当てたり kernel parameter の調整をしないと高負荷で不安定になる場合がある

利用ソフトウェア Quattor Lemon MRTG, SmokePing
OS インストール (+ アップデート) Lemon Fabric モニター MRTG, SmokePing Network モニター OpenManage (Dell), RAIDWatch (Infortrend) サーバー、RAID 管理自家製 scripts SE でのディスク利用、データ転送状況 CE でのアカウンティングその他、LCG で提供されているモニター、アカウンティング

高可用性・高信頼性東大のサイトは高可用性・高信頼性を実現ハードウェアの選択事前の高負荷でのテストによる不良発見
WLCGサイトにおいて上位２００８年１月には、可用性98%、信頼性９９％ハードウェアの選択 UPS、冗長構成（RAID、電源、Oracle RAC）事前の高負荷でのテストによる不良発見 FB-DIMM の ECC single bit error 電源ユニットの故障 XFSに起因する kernel panic gLite middleware の慎重な update 頻繁に update が release されるが、仕様・設定の変更や bug が含まれることが多い各種モニタリング・ツールの活用

サイトの利用統計月ごとのCPU 使用量ディスク使用量、使用可能量 50TB 200TB CPU、ディスクの使用とも順調に増加
CPU は ATLAS Production の状況で変化ディスクは昨年８月に~190TB追加

まとめと予定 TOKYO-LCG2 の運用は順調今後の予定高可用性、高信頼性を実現使用率も除々に増加
データ転送のための最適化も進展（次のトーク）今後の予定 Oracle RAC の運用 gLite の backend の database として ATLAS Conditions database ATLAS software 等を AFS で提供（非WLCG部分での）Castor の導入

グリッド技術を利用した大規模計算機システムの構築

Similar presentations

Presentation on theme: "グリッド技術を利用した大規模計算機システムの構築"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

グリッド技術を利用した大規模計算機システムの構築

Similar presentations

Presentation on theme: "グリッド技術を利用した大規模計算機システムの構築"— Presentation transcript:

Similar presentations

About project

フィードバック