計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

Slides:

Advertisements

Similar presentations

1 広島大学理学研究科尾崎裕介石川健一. 1. Graphic Processing Unit (GPU) とは？ 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.

Advertisements

HBSP モデル上での行列積を求めるアルゴリム情報論理工学吉岡健太.

Level-3 BLASに基づく特異値分解アルゴリズムのSMP上での性能

CPUとGPUの性能比較－行列計算およびN体問題を用いて－

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

キャッシュ付ＰＲＡＭ上の並列クィックソートと並列マージソート

CPUについて HN:セシル.

基本情報技術概論（第10回）埼玉大学理工学研究科堀山貴史

Ibaraki Univ. Dept of Electrical & Electronic Eng.

Intel AVX命令を用いた並列FFTの実現と評価

Fill-in LevelつきIC分解による前処理について

A Q R QR分解とは？ → × ◆QR分解 QTQ = I （単位行列） ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目

LZ圧縮回路の設計とハード・ソフト最適分割の検討電子情報デザイン学科高性能計算研究室４回生　中山　和也 2009/2/27.

三重対角化アルゴリズムの性能評価早戸拓也・廣田悠輔.

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

対角マトリックスを用いた３次元剛塑性有限要素法の並列計算対角マトリックスを用いた剛塑性有限要素法

AllReduce アルゴリズムによる QR 分解の精度について

神奈川大学大学院工学研究科電気電子情報工学専攻

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

分散遺伝的アルゴリズムによる各種クラスタのベンチマーク

各種PC クラスタの性能評価同志社大学　工学部廣安　知之三木　光範谷村　勇輔.

PCクラスタ上での連立一次方程式の解の精度保証

首都大学東京都市教養学部数理科学コース関谷博之

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

スパコンとJLDG HEPの計算環境 HEPnet-J

応用数理工学特論　第5回計算理工学専攻　張研究室山本有作.

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

正方行列向け特異値分解の CUDAによる高速化

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

文献名 “Performance Tuning of a CFD Code on the Earth Simulator”

OpenMPハードウェア動作合成システムの検証(Ⅰ)

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

応用数理工学特論　第6回計算理工学専攻　張研究室山本有作.

高速剰余算アルゴリズムとそのハードウェア実装についての研究

応用数理工学特論第9回高速フーリエ変換の高性能化手法

MPIを用いた最適な分散処理情報論理工学研究室角仁志

応用数理工学特論第9回高速フーリエ変換とその並列化

コンピュータを知る１Ｅ１６Ｍ００９－１梅津たくみ１Ｅ１６Ｍ０１７－８小沢あきら１Ｅ１６Ｍ０３５－０柴田かいと

Level-3 BLASに基づく二重対角化アルゴリズムとその性能評価

#6 性能向上、ブレイクスルー、集中と分散 Yutaka Yasuda.

コンピュータの歴史〜計算速度の進歩〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

九州大学情報基盤研究開発センター長青柳睦

導電性高分子材料の電子状態計算に現れる連立一次方程式に対する並列直接解法の高性能化

GPUを用いた疎行列の格納形式による行列ベクトル積の評価

目的：高速QR分解ルーチンのGPUクラスタ実装

コンピュータの仕組み〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀

VMが利用可能なCPU数の変化に対応した並列アプリケーション実行の最適化

岩澤全規理化学研究所計算科学研究機構粒子系シミュレータ研究チーム 2015年7月22日 AICS/FOCUS共催 FDPS講習会

第４回　メモリ管理主記憶（メインメモリ）の管理固定区画方式と可変区画方式空き領域の管理スワッピング.

情報基礎Ⅱ （第１回）月曜４限担当：北川晃.

計算機アーキテクチャ１（計算機構成論（再））第一回計算機の歴史、基本構成、動作原理

高精細計算を実現するAMR法フレームワークの高度化研究背景と研究目的複数GPU間での袖領域の交換と効率化

社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.

メモリ使用量の少ないGCR法の提案東京大学理学部情報科学科工藤誠東京大学情報基盤センター黒田久泰

理工学部情報学科情報論理工学研究室延山周平

第４回 CPUの役割と仕組み２命令の解析と実行、クロック、レジスタ

MPIを用いた並列処理計算情報論理工学研究室金久英之

密行列固有値解法の最近の発展 (I) －　Multiple Relatively Robust Representation アルゴリズム　－ 2004年11月26日名古屋大学　計算理工学専攻山本有作日立製作所の山本有作です。「～」について発表いたします。

情報論理工学研究室第1回：並列とは.

キャッシュマシン向け三重対角化アルゴリズムの性能予測方式

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

MPIを用いた並列処理情報論理工学研究室 06‐1‐037‐0246　杉所　拓也.

分散メモリ型並列計算機上での行列演算の並列化

Ibaraki Univ. Dept of Electrical & Electronic Eng.

2008年 7月17日応用数理工学特論期末発表鈴木綾華,程飛

Presentation transcript:

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」 2007年5月8日計算数理グループ　張研究室山本有作日立製作所の山本有作です。「～」について発表いたします。

計算科学・工学における大規模シミュレーション流体計算電子状態計算構造解析電子状態計算数万～数億の自由度を持つ超多自由度の系解析のために多大な計算機パワーが必要

ハイパフォーマンスコンピューティング（HPC）技術とは大規模な計算を高速かつ高精度に行うための技術 HPC技術の内容高速・高精度な計算アルゴリズム単体プロセッサ向けの性能最適化技術並列化技術ネットワーク・GRID技術

PC向けプロセッサのクロック周波数の向上周波数は10年間で約50倍も向上たとえば AMD Opteronプロセッサ（1.6GHz）の場合，１秒間に最高で32億回の浮動小数点演算を実行可能　　（3200MFLOPSのピーク性能）

それでは，一般的な科学技術計算のプログラムでは，ピーク性能の何％程度を発揮できているか？例：　連立一次方程式を解くためのガウスの消去法 do k=1, n do i=k+1, n a(i,k)=a(i,k)/a(k,k) end do do j=k+1, n a(i,j)=a(i,j)–a(i,k)*a(k,j) n=1000のとき，Opteronでの性能はピークの何％？ 10% 30% 50% 80%

Opteronでの性能測定結果 n=1000 での性能は225MFLOPS（ピークの7%） n が大きくなるにつれ，性能は低下 Performance (MFLOPS) n

ピークよりはるか下の性能しか得られない原因は？最大の要因は，データ転送速度のネック計算を行うには，主メモリに格納されているデータをプロセッサ内の演算器に転送する必要あり。演算器は十分速いが，データを供給する速度が追い付かない。それでは，データ転送速度のネックを解消するにはどうすればよいか？　　まず，プロセッサのアーキテクチャを知る必要がある。

典型的なマイクロプロセッサのメモリ階層演算器に近い記憶装置ほど高速だが，容量は小さい。演算器と主メモリの速度差は，年々大きくなっている。データ転送速度非常に大レジスタ演算器 8～128 ワードデータ転送速度大キャッシュ数100Kバイト～数Mバイトデータ転送速度小ラインサイズ主メモリ数100Mバイト～数Gバイト演算器に近い記憶装置ほど高速だが，容量は小さい。演算器と主メモリの速度差は，年々大きくなっている。

性能最適化の原理データがレジスタ中にあれば，演算器は最高速度で計算が可能　いったんデータをレジスタに持ってきたら，そのデータに対して必要な計算を集中して行うよう，計算の順序を変更する。　（データ参照の局所性を高める。）キャッシュと主メモリについても，同じ方針で最適化を行う。

性能最適化の具体例もっとも単純なアルゴリズムである行列乗算 C=AB に対して最適化を行う。最適化前のプログラム do i=1, n do j=1, n sum=0.0d0 do k=1, n sum=sum+a(i,k)*b(k,j) end do c(i,j)=sum 性能 = 77.7MFLOPS （Opteron 1.6GHz，n=500）ピーク性能の2.4%

レジスタの再利用性を高める最適化（レジスタブロッキング） iのループを２倍展開 →　 162.8MFLOPS i, jの各ループを２倍展開 → 240.8MFLOPS iを４倍，jを２倍展開 → 324.7MFLOPS i, jの各ループを４倍展開 → 495.5MFLOPS

キャッシュの再利用性を高める最適化（キャッシュブロッキング）行列を部分行列（１個がL×L）に分割部分行列単位で乗算を行う。 Lは部分行列３個がキャッシュに格納できるサイズに取る。演算量は同じだが，主メモリへのアクセス回数が約1/Lに減少する。 do I=1, n/L do J=1, n/L CIJ=0 do K=1, n/L CIJ=CIJ + AIKBKJ end do

キャッシュブロッキングの効果 Block size

これまでに説明した最適化手法の限界レジスタブロッキングとキャッシュブロッキングの併用により，行列乗算の性能は800MFLOSまで向上できた。しかし，ピーク性能に対しては，まだ25%に過ぎない。その理由実際のプロセッサでは，キャッシュが２階層になっている。データ転送速度だけでなく，アクセス遅延時間も考慮した最適化が必要，など。性能を最大限に引き出すには，これらの点も考慮した最適化が必要

BLAS （Basic Linear Algebra Subprograms）行列乗算行列とベクトルの積ベクトルの和，内積，など。 ATLAS（Automatically Tuned Linear Algebra Subprograms）自分で自分を最適化するBLAS インストール時に，ループ展開のサイズやキャッシュブロッキングのサイズなどの最適値を自分で探し，設定。

ATLASの性能 n=1000のとき，ピーク性能の95%以上を達成している。

その他の行列乗算の高速化手法 Strassenのアルゴリズム A，B，Cをそれぞれ２×２に分割して乗算を行う。乗算の回数を7/8に削減可能 Strassenのアルゴリズムで現れる小行列の乗算に再帰的にStrassenのアルゴリズムを使うことにより，計算量を更に削減可能

Strassenのアルゴリズム P1 = (A11+A22) (B11+B22) P2 = (A21+A22) B11 P3 = A11 (B12 – B22) P4 = A22 (B21 – B11) P5 = (A11+A12) B22 P6 = (A21 – A11) (B11+B12) P7 = (A12 – A22) (B21+B22) C11 = P1 + P4 – P5 + P7 C12 = P3 + P5 C21 = P2 + P4 C22 = P1 + P3 – P2 + P6

ガウスの消去法を行列乗算を用いて書き直してみる。行列乗算の応用行列乗算は，高度な最適化が可能であり，性能も高い。他のアルゴリズムも行列乗算を用いて計算を行うように書き直すことができれば，BLAS や ATLAS を用いて高速化が可能ガウスの消去法を行列乗算を用いて書き直してみる。

行列乗算を用いたガウスの消去法の性能 n=1000のとき，ピークの65%以上の性能を達成

並列計算機の種類と特徴共有メモリ型並列計算機分散メモリ型並列計算機 SMPクラスタ情報連携基盤センターの並列計算機はじめに，研究の背景として，有限要素法とスパースソルバの必要性についてご説明します。

スーパーコンピュータの性能動向性能年 2010 2000 1990 1980 1970 1960 1PFLOPS スカラー機 ASCI-5 性能ベクトル機 ASCI-4 地球ｼﾐｭﾚｰﾀベクトル並列機 SR8000 並列機 VPP500 T3E-900 1TFLOPS CM-5 SR2201 nCUBE2 S3800 X-MP 1GFLOPS CRAY-1 S-810 スカラー／ベクトル機 → 並列機 CDC6600 (10 times faster / 20 years) 4 1MFLOPS IBM360/95 年 2010 2000 1990 1980 1970 1960

並列計算機の登場並列計算機の普及の背景並列計算機の特長並列計算機の問題点プロセッサの動作周波数向上の飽和専用スーパーコンピュータの設計コストの増加並列計算機の特長プロセッサ数を増やすことでピーク性能を無制限に向上可能分散メモリ型並列機では，プロセッサ数に比例した大きなメモリ空間が利用可能汎用のプロセッサを使うことで設計コストを大幅に削減可能並列計算機の問題点多数のプロセッサを効率良く働かせるには，良い並列化アルゴリズムが必要

並列処理による高速化複数のプロセッサで処理を分担することにより，プログラムの実行時間を短縮プログラムの中で並列化対象部分の占める割合が大きいほど，高速化の効果が大きい１プロセッサ並列計算機

さまざまな並列計算機共有メモリ型並列計算機（SMP） SMPクラスタ分散メモリ型並列計算機地球シミュレータ Itaniumサーバ Power Mac G5 分散メモリ型並列計算機日立 SR11000 並列計算機の主流は，両者を融合させた形のSMPクラスタへ。日立 SR2201 PCクラスタ Power Mac G5 クラスタ

チップレベルでの並列処理最近では，ゲーム機の専用プロセッサが非常に高性能化 Xbox360用プロセッサ：汎用PCの６倍の性能 PlayStation3用プロセッサ（Cell）：　汎用PCの20倍の性能これらを数値計算に活用できれば，非常に低コストで超高速の計算が可能 Cell ﾌﾟﾛｾｯｻ写真 Cell ﾌﾟﾛｾｯｻﾌﾞﾛｯｸ図（9個のCPUを内蔵） PlayStation3

共有メモリ型並列計算機構成特徴プログラミング言語複数のプロセッサ（PU）がバスを通してメモリを共有　　通してメモリを共有 PUはそれぞれキャッシュを持つ。特徴メモリ空間が単一のためプログラミングが容易 PUの数が多すぎると，アクセス競合により性能が低下　 →　４～８台程度の並列が多い。プログラミング言語 OpenMP （FORTRAN/C/C++ ＋指示文）を使用キャッシュ PU0 PU1 PU2 PU3 バスメモリ

分散メモリ型並列計算機構成特徴プログラミング言語各々がメモリを持つ複数のPUをネットワークで接続 PUはそれぞれキャッシュを持つ。　　ネットワークで接続 PUはそれぞれキャッシュを持つ。特徴数千～数万PU規模の並列が可能 PU間へのデータ分散を意識したプログラミングが必要プログラミング言語 FORTRAN/C/C++ ＋ MPI を使用キャッシュ PU0 PU1 PU2 PU3 メモリネットワーク

SMPクラスタ構成特徴プログラミング複数の共有メモリ型並列計算機（SMP）をネットワークで接続各ノードの性能を高くできるため，比較的少ないノード数で高性能を達成できる。プログラミングは，ノード内部の計算では共有メモリ型並列機として，ノードをまたがる計算では分散メモリ型並列機として行う。プログラミング MPI と OpenMP とを組み合わせて使用 PU0 PU1 PU2 PU3 メモリ PU0 PU1 PU2 PU3 メモリ PU0 PU1 PU2 PU3 メモリネットワーク

情報連携基盤センターの並列計算機富士通 PrimePower HPC2500 （SMPクラスタ）講義での利用 8GFLOPS／プロセッサ 64プロセッサ／ノード全24ノード全体で12TBの主記憶講義での利用 ID: w49021a ～ w49040a Password: mpi2006 PU0 PU1 PU2 PU3 メモリネットワーク

並列アルゴリズムの例 (1) 数値積分によるπの計算計算の並列化 π =∫0 1 4/(1+x2) dxの積分区間をn等分し，中点則により計算。計算の並列化 n個の長方形を４個のプロセッサに割り当て，担当する長方形の面積の計算と部分和の計算を各プロセッサが行う。各プロセッサからの寄与を合計する処理はプロセッサ０が行う。 4/(1+x2) x 1 プロセッサ0 プロセッサ1 プロセッサ2 プロセッサ3

並列アルゴリズムの例 (2) ２次元領域の温度変化の計算計算の並列化プロセッサ0 プロセッサ1 各格子点での温度変化を，隣接する４個の格子点との温度差から計算。計算の並列化格子を４個の領域に分割し，各領域に属する格子点での温度変化をその領域の担当プロセッサが計算。プロセッサ2 プロセッサ3

分散メモリ型並列計算機での並列化分散メモリプロセッサ間通信プロセッサ0 プロセッサ1 通信各プロセッサは固有のメモリ空間を持ち，自分の担当する部分データを格納する。共有メモリ方式に比べハードが作りやすく，超並列機に向く。プロセッサ間通信他プロセッサの持つデータを参照するには，通信が必要。通信プロセッサ2 プロセッサ3

分散メモリ型並列計算機での並列化（続き）プロセッサ0 プロセッサ1 プログラム例通信 PROGRAM HEAT REAL*8 A(4,4) ◆ 初期設定 DO ITER=1, 100 DO I=1, 4 DO J=1, 4 ◆ 必要なら隣接プロセッサ　　　　　　　　よりAの値を受け取る ◆ A(I,J)の値を更新 END DO ◆ 結果の出力 STOP END プロセッサ2 プロセッサ3

並列化効率の向上並列実行時間＝演算時間＋通信時間＋待ち時間並列化効率＝１プロセッサでの実行時間 pプロセッサでの実行時間 × p プロセッサ０プロセッサ１プロセッサ２プロセッサ３時間：　演算時間：　通信時間：　待ち時間