CMCスーパーコンピューティング環境 現状と将来

Slides:



Advertisements
Similar presentations
YLUG 勉強会 1 All Rights Reserved,Copyright (C) 2000, Takasugi Linux 勉強会資料 鋼鉄のペンギン 高杉 昌督
Advertisements

計算機リテラシーM 第 11 回 計算機・ネットワーク技術 伊藤 高廣
Introduction to New Media Development Association June 2001 このプレゼンテーションでは、出 席者間で討論をし、アクション アイテムを作成する場合があり ます。 PowerPoint を使ってプ レゼンテーションの実行中にア クション アイテムを作成する.
CPU/GPUを協調利用する ソフトウェア開発環境
ATLAS実験データ解析に向けた、長距離広帯域ネットワークにおけるデータ転送
情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
基本情報技術概論(第10回) 埼玉大学 理工学研究科 堀山 貴史
Chapter11-4(前半) 加藤健.
エクサスケール計算と その要素技術としてのメモリアーキテクチャ
榮樂 英樹 LilyVM と仮想化技術 榮樂 英樹
クラウドにおける ネストした仮想化を用いた 安全な帯域外リモート管理
高速ネットワーク技術、スーパーコンピュータ関連の国際会議にて受賞 家庭用PCで超高速Webアクセス環境を実現するUsadaFoxを用い、 遠距離Webアクセス性能を1000倍高速化 東京大学データレゼボワール実験グループ.
超並列計算研究会 PCクラスタにおける ベンチマークと並列ツールの紹介 廣安 知之 三木 光範 大向 一輝 吉田 純一.
計算機システムⅡ 主記憶装置とALU,レジスタの制御
同志社大学 知識工学科 知的システムデザイン研究室 廣安 知之
ネットワーク構成法 スケール 第6回 11月19日.
Solid State Transformer (SST)
コンピュータの主役はCPU(Central Processing Unit)
データベースとストレージ の最新動向 12.MAR.2015.
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
情 報 技 術 基 礎 処理装置の構成と動作 D17kog706pr101 始.
各種PC クラスタの性能評価 同志社大学 工学部 廣安 知之 三木 光範 谷村 勇輔.
スーパーコンの概要 日本物理学会(首都大学) 2007年3月25日 大阪大学核物理研究センター 計算機室  外川浩章.
第5回 CPUの役割と仕組み3 割り込み、パイプライン、並列処理
Telnet, rlogin などの仮想端末 ftp などのファイル転送 rpc, nfs
スパコンとJLDG HEPの計算環境 HEPnet-J
帯域外リモート管理の継続を 実現可能なVMマイグレーション手法
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Status and Plans for the Tier 1 Tokyo (Japan)
基本情報技術概論(第8回) 埼玉大学 理工学研究科 堀山 貴史
計算機入門I ハードウェア(1) 計算機のハードウェア構成 ~計算機のハードウェアとは何か~
組み込み向けCPU 小型デバイスに搭載されるCPU 特徴 携帯電話,デジタルカメラ,PDA,センサデバイスなど 小型 低消費電力 多機能
with Computational Scientists
アクセラレータを用いた 大規模へテロ環境における Linpack
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
格子シミュレーションによる 非自明固定点の探索
“Survey of System Virtualization Techniques” by Robert Rose のまとめ
第6回 メモリの種類と特徴 主記憶装置、ROM、RAM
コンピュータを知る 1E16M009-1 梅津たくみ 1E16M017-8 小沢あきら 1E16M035-0 柴田かいと
前坂 たけし (北大院・理) 其の壱 はじめての BIOS 前坂 たけし (北大院・理)
他のプロセスに あたえる影響が少ない 実行時ミラーリングシステム
#6 性能向上、ブレイクスルー、集中と分散 Yutaka Yasuda.
コンピュータの歴史 〜計算速度の進歩〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
Advanced Computer Architecture
九州大学情報基盤研究開発センター長 青柳 睦
HPC基盤における大量データ転送のためのデータ転送ツールの評価
マルチホーム事例 (大阪市立大学) 学術情報総合センター 大西克実.
超高速基幹LANにおける 情報リテラシー教育支援システム
通信機構合わせた最適化をおこなう並列化ンパイラ
参照の空間局所性を最大化する ボリューム・レンダリング・ アルゴリズム
スーパーコンピュータ「京」 理化学研究所 計算科学研究センター
スーパーコンピュータ講習会 全体構成 ファイアーウオール経由での使用方法 ディスクの構成 バッチキュー 運用、その他.
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
Improvement of bootup time using Power Management - Project Update -
目的:高速QR分解ルーチンのGPUクラスタ実装
スーパーコンピュータ講習会 全体構成 ファイアーウオール経由での使用方法 ディスクの構成 バッチキュー 運用、その他.
ALICE work at CERN Kenta Mizoguchi, Hisayuki Torii, Yusuke Okada
Linux の世界に 触れてみよう! 情報実験 第 3 回 (2005/10/21)
明星大学 情報学科 2012年度前期     情報技術Ⅰ   第1回
コンピュータアーキテクチャ 第 9 回.
広島大学におけるHEPnet-J 利用状況
iSeries Site 人事・給与C/S版のハードウェア・ソフトウェア要件
計算機アーキテクチャ1 (計算機構成論(再)) 第一回 計算機の歴史、基本構成、動作原理
Mondriaan Memory Protection の調査
コンピュータアーキテクチャ 第 9 回.
Dynamic Function Placement for Data-intensive Cluster Computing
明星大学 情報学科 2014年度前期     情報技術Ⅰ   第1回
Topic No. 0 Introduction Tropical Cyclone Ensemble Forecast
Presentation transcript:

CMCスーパーコンピューティング環境 現状と将来 Manabu Higashida manabu@cmc.osaka-u.ac.jp 2004/11/10

Our Activities@2001

Our Activities@2002

Our Activities@2003

Our Activities@2004

Our Activities 非常に高いユーザ利用率を維持 FLOPS値が減少傾向 CMC 6-nodes ILE RCNP 2001年 74.1% 237.4GFLOPS 52.4% 9.6GFLOPS 84.9% 39.1GFLOPS 2002年 78.7% 190.4GFLOPS 62.0% 18.5GFLOPS 92.4% 38.3GFLOPS 2003年 72.7% 150.5GFLOPS 68.8G 15.9GFLOPS 91.6% 32.0GFLOPS 2004年 (11/8まで) 86.8% 156.6GFLOPS 11.9GFLOPS 89.0% 30.8GFLOPS

今だから明かせる導入経緯 何がなんでも“Over 1TFLOPS” 8ノード導入に際しての損得勘定 借料期間が4年から6年に US DoEのASCIプロジェクトと地球シミュレータ計画による“Top500 List”の盛り上がり 8ノード導入に際しての損得勘定 片方のメモリバンクを省く メモリ転送帯域を犠牲 Full-Rate: 1w ld/st for 1-flop  8GB/s for 1GFLOPS Half-Rate: 0.5w ld/st for 1-flop  4GB/s for 1GFLOPS 1.25倍のクロックアップ耐性によるピーク性能増 低消費電力化 設置場所 ILEとRCNPへのノード設置 電気代節約に加えて運営負担金収入増も

“TOP500 Supercomputer Sites” http://www.top500.org/ 導入当時の2001/06/21 付けプレス・リリースにて “The list now indicates 12 systems exceeding the 1 teraflop/s level using the Linpack benchmark. The number eight system is an NEC SX5 at Osaka University and is the first classical vector system to break the 1 teraflop/s (Tflop/s) barrier.” 2001年6月付けのリストで8位 2004年6月付けのリストで184位

17th Edition of TOP500 List of Worlds Fastest Supercomputers (June 21, 2001) Rank Manu-facturer Computer Rmax Installation Site Coun-try Year Area of Installation # Proc Rpeak Nmax N1/2 1 IBM ASCI White, SP Power3 375 MHz 7226 Lawrence Livermore National Laboratory Livermore USA 2000 Research Energy 8192 12288 518096 179000 2 SP Power3 375 MHz 16 way 2526 NERSC/LBNL Berkeley 2001 Research 2528 3792 371712 102400 3 Intel ASCI Red 2379 Sandia National Labs Albuquerque 1999 9632 3207 362880 75400 4 ASCI Blue-Pacific SST, IBM SP 604e 2144 5808 3868 431344 . 5 Hitachi SR8000/MPP 1709.1 University of Tokyo Tokyo Japan Academic 1152 2074 141000 16000 6 SGI ASCI Blue Mountain 1608 Los Alamos National Laboratory Los Alamos 1998 6144 3072 374400 138000 7 SP Power3 375 MHz 1417 Naval Oceanographic Office (NAVOCEANO) Bay Saint Louis Research Aerospace 1336 2004 374000 8 NEC SX-5/128M8 3.2ns 1192 Osaka University Osaka 128 1280 129536 10240 9 1179 National Centers for Environmental Prediction Camp Spring Research Weather 1104 1656 10

SX-5/16Af 透視図 電源装置、冷却装置 CPU 装置 MMU 装置 IXS 接続装置 (ノード間高速接続) 最大演算処理性能: 160 GFLOPS MMU 装置 MMU 台数: 16 台 主記憶容量: 128GB IXS 接続装置 (ノード間高速接続) 障害検出装置、システム制御装置 入出力処理装置 ©2001 NEC

MMU 装置部 ハーフレート・モデルにつき メモリは片側バンクのみ 1 2 1 2

STREAM ベンチマークによる検証 http://www.cs.virginia.edu/stream/ Triad: a(j) = b(j) + scalar * c(j) 3 words (3×8-bytes) data transfer for 2 floating operations 古典的な Linpack ベンチマーク(DGEFA routine of BLAS1)と同じ x MB/s  x/8×2/3 MFLOPS

単体プロセッサの性能比較 SX-4: 16 GB/s  1.3 GFLOPS SX-5Af: 28 GB/s  2.3 GFLOPS Peak 16 GB/s  1.3 GFLOPS Peak比 100% SX-5Af: 28 GB/s  2.3 GFLOPS Peak 40 GB/s  3.3 GFLOPS Peak比 70% (SX-5A比 58%) (参考) SX-5A: 48 GB/s  4.0 GFLOPS Peak (64 GB/s) 比 75%

マルチプロセッサ性能 SX-5/16Af: 340 GB/s  28 GFLOPS Peak 640 GB/s  53 GFLOPS Peak比 53% (SX-5/16A比 59%) (参考) SX-5/16A: 580 GB/s  49 GFLOPS Peak (1024 GB/s) 比 57%

STREAM ベンチマークによる 共有メモリノードのメモリ転送帯域 SX-5@Osaka Univ. 340GB/s SX-7@Tohoku Univ. 492GB/s (出典HPCC)

2飛びアクセスとバンク競合 2飛びアクセス バンク競合 複素数データの実部のみ(または虚部のみ)の参照 STREAM Triadに見られたスパイク状のドロップ 16並列時にメモリ転送ポートの利用効率が半減するメモリアクセスパターンがある SX-8から改善 バンク競合 SDRAMの機種では顕著に目立つ もちろんハーフバンク機ではさらに目立つ FCRAM (Fast Cycle RAM) の機種では半減

バンク競合の実際 学内某所で運用中のSX-6 (仮名sx58) との比較 SX-5Af: 312.5MHz, 160GFLOPS, 128GB SDR-SDRAM, Half-Rate 640GB/s SX-6: 500.0MHz, 64GFLOPS, 64GB DDR-SDRAM, Full-Rate 512GB/s ベクトル命令実行時間中バンク競合が発生している割合 vs. ピーク性能に対する実効演算効率 SX-5Af: 30〜40% vs. 17〜18% SX-6: 6〜7% vs. 15〜20%

システム効率向上 ユーザチューニングの励行 システム運用状況の改善ではFLOPS値漸減に歯止めをかけることは難しい F_PROGINF出力による演算状況の検証 ベクトル化率が高かったり平均ベクトル長が長くてもオペレーションの絶対数が小さければ効率が落ちる とにかくMOPS値を上げるようチューニングされたい 経験則上1CPUにつき最高10,000MOPSは出るはず (SX-5では) バンクコンフリクトは致命的な効率低下をもたらさない システム側では、総サイクル中のベクトル命令が実行されている割合を落とさないよう監視する

次期システムへの期待 機種更新 次期重点項目 2年後、2007年1月予定 次いで2007年3月には汎用機更新 More Computational Power Vector + PC Cluster Optimized Storage Management Campus-wide Storage Area Network User Friendly Front-end Service VPN for Easy Exploring Grid-aware

現行システムの構成 SX-5/16Af SX-5/16f ×6 ssh/scp ×4 Front-end App. Server SX Short 8TB - FC/RAID3 16-stripes, 1.6GB/s Generic Home 2TB - mirror and/or 4TB - RAID5 SX Home@RCNP 3TB - FC/RAID3 SX Home@ILE SX-5/16f 160GF@ 312.5MHz 128GB SX-5/16Af 128GB Memory Front-end for Cross Development by Linux PC for Secure Login for Secure FTP SX Home@CMC 4TB - FC/RAID3 App. Server Quad Itanium/700MHz 4GB Memory ×4 ×6 File Server for NFS sftp/scp ssh/scp