アクセラレータを用いた大規模へテロ環境における Linpack

アクセラレータを用いた大規模へテロ環境における Linpack
遠藤敏夫 (東京工業大学) 松岡聡教授らとの共同研究

高性能計算において注目されるアクセラレータ
HPCシステムで消費電力と演算性能の比は今までも/これからも重要用途をより特化したSIMDアクセラレータに注目 GPU, Cellを含む ClearSpeed X620 NVidia GeForce GTX280 ATI Radeon HD 4870 単精度性能 933GFlops 1200GFlops 倍精度性能 80GFlops 78GFlops 240GFlops 消費電力 25W 230W 160W それぞれピークを表す

ヘテロ型計算機システム「用途特化」型プロセッサのみのHPCシステムは非現実的
そのままでは，OS，Linux，コンパイラ，既存アプリなどが動かない例外: Linuxが動くCellプロセッサヘテロ型計算機システムに注目汎用CPUにより広範囲のソフトウェアの利用典型的にはx86/x86-64 CPUs アクセラレータにより高い電力性能比例: LANL Roadrunner, 東工大TSUBAME

LANL RoadRunner (2008) 世界初のLinpack1ペタを実現したのはヘテロ型スパコン
6120 dual-core Opteronと，12240 Cell (倍精度対応) IBMブレード型ピーク性能1.375PFlops 90%以上はCellによる 2008/6 Top500で世界一，Linpack 1.026PFlops

東工大TSUBAME Grid Cluster (2006)
SunFire X4600 16 Opteron cores x 655nodes Voltaire ISR9288 Infiniband 10Gbps 500GB 48disks 500GB 48disks 500GB 48disks ClearSpeed CSX600 SIMD accelerator x 360 PCI-X boards ピーク演算速度102TFlops = Opteron 49.8TF + ClearSpeed 52.2TF ほぼ１：１ 648 2008/6 Top500で世界24位（67.7TF) 初登場時7位 (38.18TF) メモリ合計 20TB

16 Opteron cores x 655 Compute nodes 1.6PByte storage 288Port 10Gbps InfiniBand SW x 6 Cooling Towers (~20 units)

TSUBAMEユーザと応用約1,400ユーザ広い応用 ClearSpeedの利用東工大教員，院生，学部生一部は他大学，企業
分子動力学物理シミュレーションデータマイニング・・・ TSUBAMEは大きな “Linuxクラスタ”なので，莫大なソフトウェア資産を利用可能 ClearSpeedの利用 Matlab, MathematicaのBLAS置き換え AMBERの一部プログラミング利用はこれからか

+ ヘテロ型システムでの疑問目的: ヘテロ型システムにおける大規模アプリケーションの実行スケーラビリティの検証疑問:
異種のプロセッサを，どうすれば効率的に利用可能？どのように・どれだけタスクを割り当てる？ AMD Opteron 880 4.8GFlops peak / core ClearSpeed X620 accelerator 80GFlops peak +

成果 10,368 Opteron コアと 648 ClearSpeed SIMD アクセラレータを混合利用し，効率的なLinpack実行
+ 432 Xeonコアも利用 67.7TFlopsを実現：ヘテロ型システムとしてはRoadRunnerに次ぐ２位

TSUBAMEのTop500への挑戦の歴史 Top500スーパーコンピュータランキング ’06 春 ’06 秋 ’07春 ’07秋
年２回で発表 Linpack性能によるランキング ’06 春 ’06 秋 ’07春 ’07秋 ’08春速度(TF) 38.18 47.38 48.88 56.43 67.70 順位 7 9 14 16 24 Opteron CS x 360 CS x 648 Xeon

異種プロセッサを持つ TSUBAMEノードの構成
ClearSpeed Accelerator Other nodes 8 dual-core Opteron CPUs (16 cores) 1GB memory InfiniBand 10Gbps x 2 PCI-X 8Gbps 32GB memory SunFire X4600

TSUBAMEネットワーク構成スイッチ二段の木構造上流バンド幅：下流バンド幅＝1:5 MPO(fiber) IB(InfiniBand)
ISR9288 switch IB(InfiniBand) x24 MPO(fiber) x24 ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch 10GB Voltaire InfiniBand 　　　120 nodes storage 120 nodes 120 nodes 120 nodes 120 nodes 55 nodes スイッチ二段の木構造上流バンド幅：下流バンド幅＝1:5

ClearSpeed X620アクセラレータ PCI-X accelerator boards 提供されるソフトウェア:
CSX600 SIMD processor x 2 + 1GB DRAM on board 210MHz x 2FP x 96SIMD x 2 = 80.6GFlops peak Configurable up to 250MHz Power: 25W/board 提供されるソフトウェア: CSXL BLAS ライブラリ <= 本研究で利用 CSFFT ライブラリ Cn プログラミング言語

OpteronとClearSpeedの DGEMM性能
GOTO BLAS on Opteron (1 core) CSXL BLAS 2.50 on ClearSpeed (MxB) x (BxM) の行列演算 B M 1アクセラレータの性能は1Opteronコアの14倍程度 ClearSpeedの性能は，行列サイズに大きく影響される - GOTO BLAS is by Kazushige Goto, U. Texas

ClearSpeed 行列演算ライブラリ BLAS互換の行列積(DGEMM)関数を提供 CPU側で呼び出し，CS側で計算
CUDAライブラリと対照的関数呼び出しのたびにPCI-X通信コストがかかる計算量O(M2B) 通信量O(M2+MB) M, B大きいと有利 PCI-X 入力行列データ計算 DGEMM() 出力行列データ

LinpackとTop500 LinpackはTop500ランキングで用いられる数値計算ベンチマーク
N x N 密行列連立一次方程式を解く TSUBAMEの場合はN=約100万 HPL (High-performance Linpack) by A. Petitet 有名なMPI並列実装ブロック化を用いたLU分解に基づく密行列積(DGEMM)演算が圧倒的に時間を費やす．計O(N3)

Top500ランキングの主要ルール Linpackの計算速度(Flops)を競う Linpack(HPL)の計算速度(概算) 演算数
直接解法であること倍精度で計算すること問題サイズNは自由 Linpack(HPL)の計算速度(概算) 演算数実行時間　　　　　　(2/3)N3 (2/3)N3/C + O(N2)/W + その他計算速度= = C: 全体の密行列積演算性能 W: 通信性能 ⇒　問題サイズは，メモリに収まる最大とするのが有利　　　　速度はCに近づく

A’ A A’ A’ A’ HPLのアルゴリズム L U L U L U A’ L U L U L L U N×N行列AをLU分解
for (k = 0; k < N; k += B) 　パネル分解(Lを計算) 　パネルブロードキャスト　行交換通信・　Uを計算　行列の残り全体を更新 L U N B L U A’ L U A’ L U A’ L U A’ L L U A’ A 行列積の性能でほとんど決まる

HPLのデータ分散複数プロセスが計算に参加し，並列計算行列は，二次元ブロックサイクリック分割により均等にプロセスへ分配
Matrix distribution on 6 (=2x3) processes 複数プロセスが計算に参加し，並列計算行列は，二次元ブロックサイクリック分割により均等にプロセスへ分配 N B

HPLプログラムの流れ速度の差があると、遅い方にひっぱられる問題サイズNを大きくしてもこの影響は減らないパネル分解などパネル分解など
通信通信通信自分の担当について行列積自分の担当について行列積自分の担当について行列積上へ戻る上へ戻る上へ戻る速度の差があると、遅い方にひっぱられる問題サイズNを大きくしてもこの影響は減らない

HPLプログラムのカーネル 80:20の経験則「プログラム実行時間の80%は、20%のコードで費やされる」 HPLではもっと極端
「プログラム実行時間のほとんどは、1つのカーネル関数DGEMMで費やされる」本研究では，各処理を，以下のように振り分けるパネル分解など MPI通信処理行列積(DGEMM)　　　　　CPU+アクセラレータで実行注：システム全体では両者の性能比はほぼ１：１ CPUで実行

ヘテロ型TSUBAMEでの要件均一環境向けに作られたHPLを，以下の条件下で効率的に実行したい
ノード内へテロ性: ノード内に，汎用CPUとアクセラレータが存在ノード間へテロ性: 約半数のノードにだけアクセラレータ搭載(’07春まで) DGEMM性能で約120GFlops : 70GFlops HPLへの変更は少ないことが望ましい

対象とするシステム構成均一環境ノード内へテロ性 + ノード間へテロ性ノード内へテロ性 CPU-Only Half-Acc’d
Fully-Acc’d ノード内へテロ性

基本方針 (1/2) ノード内へテロ性のために，ライブラリ(DGEMM)層で，異種プロセッサの差異を吸収
しかし，プロセス間の性能をバランスさせる必要・・・プロセスとプロセッサ間のマッピングを調節 DGEMMは容易に計算分割可能 DGEMM実行中のマッピングの例 Processes Processors

基本方針 (2/2) ノード間ヘテロ性のために，各ノードのプロセス数を調節ヘテロ性に対応しつつ，各プロセスの負荷を均一に
cf. CHARM++, AMPI from UIUC ヘテロ性に対応しつつ，各プロセスの負荷を均一に

アクセラレータの時分割現在のアクセラレータは，複数プロセスから同時利用できない DGEMMのみを行うサーバプロセスを設置
ClearSpeedを直接操作複数HPLプロセスからDGEMM要求を受付効率化のため，mmapで行列データを共有 HPL プロセス CS Lib DGEMM サーバプロセス

アクセラレータの性質を考慮したチューニングの必要性
SIMDアクセラレータの性能は，さまざまなパラメータにより大きく影響を受けるプロセス粒度プロセスマッピングブロックサイズそれぞれのシステム構成に応じてチューニングが必要

プロセス粒度の性能への影響粗粒度プロセス粒度：1プロセスがいくつのCPUコアに対応するか
粗すぎると，ノード間ヘテロの場合に，バランス調整が困難細かすぎると，オーバヘッド大各プロセスの担当行列が小⇒アクセラレータの性能が下がってしまうパネルなどの共通データの保持・計算など細粒度

ブロックサイズの性能への影響ブロックサイズBが小さすぎると，アクセラレータ性能が大きく低下大きすぎると，パネル分解などのオーバヘッド増加
M

“CPU-only”構成のチューニング CPU上のBLAS性能を引き出すことを最優先
x 648 16 Opteron cores GOTO BLASにとって望ましい，ブロックサイズ240を採用

“Fully-Acc’d”構成のチューニング
フォーカスはプロセス粒度・ブロックサイズは充分に大きく， ClearSpeed BLASが効率的に動作することプロセスが，均等な性能のプロセッサにマッピングされること Clear Speed x 648 16 Opteron cores For PCI-X communication ClearSpeed BLASの特性から，ブロックサイズ864

Tuning on “Half-Acc’d” Case
アクセラレータありノードとなしノードのバランスが重要 Node w/o ClearSpeed x 288 Node with ClearSpeed Clear Speed x 360 For PCI-X ブロックサイズ 864

実行環境 TSUBAMEの648 SunFire X4600ノード
変更HPL + Voltaire MPI + GOTO BLAS + CSXL BLAS ３つのシステム構成: CPU Only: Opteron CPUのみ Half Acc’d: 648のうち360ノードにClearSpeed Fully Acc’d: 全ノードにClearSpeed GOTO BLAS is by Kazushige Goto, TACC, Univ. of Texas at Austin

TSUBAMEのLinpack性能 CPU onlyと比べ， Half Acc’dの場合，+28% Full Acc’dの場合，+66%
さらにXeonクラスタで+77% ＧＣＯＥ「計算世界観の深化と展開」TSUBASAクラスタ CPU Half Fully F+X N time 11.5h 4.5h 3.8h

おわりに SIMDアクセラレータを用いた大規模ヘテロ型システムにおけるスケーラビリティを示した Linpack性能 67.7TFlops
既存実装のHPLへの改造という形でヘテロ性へ対応 GPGPUの広がりにより，ヘテロ型システムはより身近に計算性能に対し，PCI通信性能の不足が今後問題に

アクセラレータを用いた大規模へテロ環境における Linpack

Similar presentations

Presentation on theme: "アクセラレータを用いた大規模へテロ環境における Linpack"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

アクセラレータを用いた 大規模へテロ環境における Linpack

Similar presentations

Presentation on theme: "アクセラレータを用いた 大規模へテロ環境における Linpack"— Presentation transcript:

Similar presentations

About project

フィードバック

アクセラレータを用いた大規模へテロ環境における Linpack

Presentation on theme: "アクセラレータを用いた大規模へテロ環境における Linpack"— Presentation transcript: