Presentation is loading. Please wait.

Presentation is loading. Please wait.

CMCスーパーコンピューティング環境 現状と将来

Similar presentations


Presentation on theme: "CMCスーパーコンピューティング環境 現状と将来"— Presentation transcript:

1 CMCスーパーコンピューティング環境 現状と将来
Manabu Higashida 2004/11/10

2 Our

3 Our

4 Our

5 Our

6 Our Activities 非常に高いユーザ利用率を維持 FLOPS値が減少傾向 CMC 6-nodes ILE RCNP 2001年
74.1% 237.4GFLOPS 52.4% 9.6GFLOPS 84.9% 39.1GFLOPS 2002年 78.7% 190.4GFLOPS 62.0% 18.5GFLOPS 92.4% 38.3GFLOPS 2003年 72.7% 150.5GFLOPS 68.8G 15.9GFLOPS 91.6% 32.0GFLOPS 2004年 (11/8まで) 86.8% 156.6GFLOPS 11.9GFLOPS 89.0% 30.8GFLOPS

7 今だから明かせる導入経緯 何がなんでも“Over 1TFLOPS” 8ノード導入に際しての損得勘定 借料期間が4年から6年に
US DoEのASCIプロジェクトと地球シミュレータ計画による“Top500 List”の盛り上がり 8ノード導入に際しての損得勘定 片方のメモリバンクを省く メモリ転送帯域を犠牲 Full-Rate: 1w ld/st for 1-flop  8GB/s for 1GFLOPS Half-Rate: 0.5w ld/st for 1-flop  4GB/s for 1GFLOPS 1.25倍のクロックアップ耐性によるピーク性能増 低消費電力化 設置場所 ILEとRCNPへのノード設置 電気代節約に加えて運営負担金収入増も

8 “TOP500 Supercomputer Sites”
導入当時の2001/06/21 付けプレス・リリースにて “The list now indicates 12 systems exceeding the 1 teraflop/s level using the Linpack benchmark. The number eight system is an NEC SX5 at Osaka University and is the first classical vector system to break the 1 teraflop/s (Tflop/s) barrier.” 2001年6月付けのリストで8位 2004年6月付けのリストで184位

9 17th Edition of TOP500 List of Worlds Fastest Supercomputers (June 21, 2001)
Rank Manu-facturer Computer Rmax Installation Site Coun-try Year Area of Installation # Proc Rpeak Nmax N1/2 1 IBM ASCI White, SP Power3 375 MHz 7226 Lawrence Livermore National Laboratory Livermore USA 2000 Research Energy 8192 12288 518096 179000 2 SP Power3 375 MHz 16 way 2526 NERSC/LBNL Berkeley 2001 Research 2528 3792 371712 102400 3 Intel ASCI Red 2379 Sandia National Labs Albuquerque 1999 9632 3207 362880 75400 4 ASCI Blue-Pacific SST, IBM SP 604e 2144 5808 3868 431344 . 5 Hitachi SR8000/MPP 1709.1 University of Tokyo Tokyo Japan Academic 1152 2074 141000 16000 6 SGI ASCI Blue Mountain 1608 Los Alamos National Laboratory Los Alamos 1998 6144 3072 374400 138000 7 SP Power3 375 MHz 1417 Naval Oceanographic Office (NAVOCEANO) Bay Saint Louis Research Aerospace 1336 2004 374000 8 NEC SX-5/128M8 3.2ns 1192 Osaka University Osaka 128 1280 129536 10240 9 1179 National Centers for Environmental Prediction Camp Spring Research Weather 1104 1656 10

10 SX-5/16Af 透視図 電源装置、冷却装置 CPU 装置 MMU 装置 IXS 接続装置 (ノード間高速接続)
最大演算処理性能: 160 GFLOPS MMU 装置 MMU 台数: 16 台 主記憶容量: 128GB IXS 接続装置 (ノード間高速接続) 障害検出装置、システム制御装置 入出力処理装置 ©2001 NEC

11 MMU 装置部 ハーフレート・モデルにつき メモリは片側バンクのみ 1 2 1 2

12 STREAM ベンチマークによる検証 http://www.cs.virginia.edu/stream/
Triad: a(j) = b(j) + scalar * c(j) 3 words (3×8-bytes) data transfer for 2 floating operations 古典的な Linpack ベンチマーク(DGEFA routine of BLAS1)と同じ x MB/s  x/8×2/3 MFLOPS

13 単体プロセッサの性能比較 SX-4: 16 GB/s  1.3 GFLOPS SX-5Af: 28 GB/s  2.3 GFLOPS
Peak 16 GB/s  1.3 GFLOPS Peak比 100% SX-5Af: 28 GB/s  2.3 GFLOPS Peak 40 GB/s  3.3 GFLOPS Peak比 70% (SX-5A比 58%) (参考) SX-5A: 48 GB/s  4.0 GFLOPS Peak (64 GB/s) 比 75%

14 マルチプロセッサ性能 SX-5/16Af: 340 GB/s  28 GFLOPS Peak 640 GB/s  53 GFLOPS
Peak比 53% (SX-5/16A比 59%) (参考) SX-5/16A: 580 GB/s  49 GFLOPS Peak (1024 GB/s) 比 57%

15 STREAM ベンチマークによる 共有メモリノードのメモリ転送帯域
Univ. 340GB/s Univ. 492GB/s (出典HPCC)

16 2飛びアクセスとバンク競合 2飛びアクセス バンク競合 複素数データの実部のみ(または虚部のみ)の参照
STREAM Triadに見られたスパイク状のドロップ 16並列時にメモリ転送ポートの利用効率が半減するメモリアクセスパターンがある SX-8から改善 バンク競合 SDRAMの機種では顕著に目立つ もちろんハーフバンク機ではさらに目立つ FCRAM (Fast Cycle RAM) の機種では半減

17 バンク競合の実際 学内某所で運用中のSX-6 (仮名sx58) との比較
SX-5Af: 312.5MHz, 160GFLOPS, 128GB SDR-SDRAM, Half-Rate 640GB/s SX-6: 500.0MHz, 64GFLOPS, 64GB DDR-SDRAM, Full-Rate 512GB/s ベクトル命令実行時間中バンク競合が発生している割合 vs. ピーク性能に対する実効演算効率 SX-5Af: 30〜40% vs. 17〜18% SX-6: 6〜7% vs. 15〜20%

18 システム効率向上 ユーザチューニングの励行 システム運用状況の改善ではFLOPS値漸減に歯止めをかけることは難しい
F_PROGINF出力による演算状況の検証 ベクトル化率が高かったり平均ベクトル長が長くてもオペレーションの絶対数が小さければ効率が落ちる とにかくMOPS値を上げるようチューニングされたい 経験則上1CPUにつき最高10,000MOPSは出るはず (SX-5では) バンクコンフリクトは致命的な効率低下をもたらさない システム側では、総サイクル中のベクトル命令が実行されている割合を落とさないよう監視する

19 次期システムへの期待 機種更新 次期重点項目 2年後、2007年1月予定 次いで2007年3月には汎用機更新
More Computational Power Vector + PC Cluster Optimized Storage Management Campus-wide Storage Area Network User Friendly Front-end Service VPN for Easy Exploring Grid-aware

20 現行システムの構成 SX-5/16Af SX-5/16f ×6 ssh/scp ×4 Front-end App. Server
SX Short 8TB - FC/RAID3 16-stripes, 1.6GB/s Generic Home 2TB - mirror and/or 4TB - RAID5 SX 3TB - FC/RAID3 SX SX-5/16f MHz 128GB SX-5/16Af 128GB Memory Front-end for Cross Development by Linux PC for Secure Login for Secure FTP SX 4TB - FC/RAID3 App. Server Quad Itanium/700MHz 4GB Memory ×4 ×6 File Server for NFS sftp/scp ssh/scp


Download ppt "CMCスーパーコンピューティング環境 現状と将来"

Similar presentations


Ads by Google