目的:高速QR分解ルーチンのGPUクラスタ実装

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

CPU/GPUを協調利用する ソフトウェア開発環境
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
クラスタの構成技術と クラスタによる並列処理
※ 対称密行列の固有値分解は特異値分解と共通点が多い
Intel AVX命令を用いた並列FFTの実現と評価
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
LZ圧縮回路の設計とハード・ソフト 最適分割の検討 電子情報デザイン学科 高性能計算研究室 4回生 中山 和也 2009/2/27.
全体ミーティング (4/25) 村田雅之.
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
対角マトリックスを用いた3次元剛塑性有限要素法の並列計算 対角マトリックスを用いた剛塑性有限要素法
AllReduce アルゴリズムによる QR 分解の精度について
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
各種PC クラスタの性能評価 同志社大学 工学部 廣安 知之 三木 光範 谷村 勇輔.
多数の遊休PC上での 分散ゲーム木探索 導入 ゲーム木探索 ⇒遊休PCを利用して高速化 例)コンピュータ将棋における次手の計算
PCクラスタ上での 連立一次方程式の解の精度保証
半正定値計画問題に対する 行列補完理論の高速実装
理学部情報科学科 金田研究室 指導教官 金田 康正 工藤 誠
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
メッシュネットワークに関する研究 ーチャネル割り当ての一手法ー
正方行列向け特異値分解の CUDAによる高速化
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
京都大学大学院医学研究科 画像応用治療学・放射線腫瘍学 石原 佳知
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
ステンシル計算を対象とした 大規模GPUクラスタ向け 自動並列化フレームワーク
大阪市立大学 学術情報総合センター 大西克実
過負荷時の分散ソフトウェアの 性能劣化を改善する スケジューリングの提案
応用数理工学特論 第6回 計算理工学専攻 張研究室 山本有作.
MPIを用いた最適な分散処理 情報論理工学研究室 角 仁志
Deep Learningを用いたタンパク質のコンタクト残基予測
Level-3 BLASに基づく二重対角化 アルゴリズムとその性能評価
AMR法フレームワークの様々なアーキテクチャへ向けた発展 研究背景と研究目的 Xeon Phi対応に向けた拡張
MPIとOpenMPを用いた Nクイーン問題の並列化
VMのメモリ暗号化による クラウド管理者への情報漏洩の防止
VM専用仮想メモリとの連携による VMマイグレーションの高速化
リモートホストの異常を検知するための GPUとの直接通信機構
HLとEHLモデルでの圧力分布と軸受の変形分布
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
九州大学情報基盤研究開発センター長 青柳 睦
仮想メモリを用いた VMマイグレーションの高速化
アンテナ最適化技術と電波伝搬シミュレーション技術の高速化と高精度化
通信機構合わせた最適化をおこなう並列化ンパイラ
進化的計算手法の並列計算機への実装 三木 光範
AdaPrec (提案手法) の初回の通信精度選択
航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化
スーパーコンピュータ「京」 理化学研究所 計算科学研究センター
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
GW space-timeコードの大規模な有機-金属界面への適用に向けた高効率化
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
InTriggerクラスタ環境の構築 i-explosion 支援班 クラスタ環境の概要 研究に使える「共有資源」を提供
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
第4回 メモリ管理 主記憶(メインメモリ)の管理 固定区画方式と可変区画方式 空き領域の管理 スワッピング.
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
全体ミーティング (5/23) 村田雅之.
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
「マイグレーションを支援する分散集合オブジェクト」
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
メモリ使用量の少ないGCR法の提案 東京大学理学部情報科学科 工藤 誠 東京大学情報基盤センター 黒田 久泰
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
分散メモリ型並列計算機上での行列演算の並列化
背景 粒子法(SPH・MPSなど)は大規模流体シミュレーションなどで幅広く利用.一方で,手法の数学的正当化(数値解析)が不十分
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
情報システム基盤学基礎1 コンピュータアーキテクチャ編
Presentation transcript:

目的:高速QR分解ルーチンのGPUクラスタ実装 EX17306 (東京大学情報基盤センター推薦課題) 高柳 雅俊 (山梨大学 総合研究部) ハイブリッドクラスタシステムにおける通信削減QR分解実装 目的:高速QR分解ルーチンのGPUクラスタ実装 CPU-GPU混在環境向け実装 GPUクラスタ ブロックアルゴリズム → パネル分解+後続行列更新 パネル分解:逐次性が強く、memory-bound → CPU 後続行列更新:並列性高く、compute intensive → GPU 行列データをGPU (device) メモリ上に保存 非常に高速な実装が得られている (MAGMA) GPUを搭載したクラスタシステムの登場 → 今後の主流 GPUは電力性能比が高い しかし、GPUクラスタ用の数値線形代数ライブラリは得られていない ScaLAPACK ← マルチコアCPUクラスタ向け GPUメモリはホストメモリと比べ小さい→大規模な行列に対応できない GPU間は高速な通信路が用意されているが、ノード間の通信が遅い パネル分解 後続行列更新 ・・・ November 2016 The Green500 Green 500 Rank MFLOPS Total Power Computer Site 1 9462.1 349.5 NVIDIA DGX-1, Xeon E5-2698v4 20C 2.2GHz, Infiniband EDR, NVIDIA Tesla P100 NVIDIA Corporation 2 7453.5 1312 Cray XC50, Xeon E5-2690v3 12C 2.6GHz, Aries interconnect , NVIDIA Tesla P100 Swiss National Supercomputing Centre (CSCS) 3 6673.8 150.0 ZettaScaler-1.6, Xeon E5-2618Lv3 8C 2.3GHz, Infiniband FDR, PEZY-SCnp Advanced Center for Computing and Communication, RIKEN 4 6051.3 15371 Sunway MPP, Sunway SW26010 260C 1.45GHz, Sunway National Supercomputing Center in Wuxi 5 5806.3 77 PRIMERGY CX1640 M1, Intel Xeon Phi 7210 64C 1.3GHz, Intel Omni-Path Fujitsu Technology Solutions GmbH これまでの研究成果 タイルアルゴリズムの導入 GPUクラスタシステム実装 行列を小行列 (タイル)に分割、タイルごとにタスクを実行 ホストメモリ上に行列データを保持  → 大規模行列に対応 GPUメモリ使用量削減 OpenMP 4.0 task構文depend節による動的スケジューリング実装 再帰的QR分解 CPU・GPUで最適なタイルサイズが異なる CPU:タイルサイズ小 ⇔ GPU:タイルサイズ大 タイルをさらに小行列に分割し、それぞれに最適化 通信削減QR分解 縦方向のタスクは逐次処理のためボトルネック タイルをドメインに分割しQR分解を1Step実行 その後、上三角部分を組み合わせ一番に集約させる GPU向け実装 分解タスク→CPU、更新タスク→GPU Step 0 Step 1 Step 2 Step 3 再帰的QR分解 Step 0 domain 0 domain 1 Step 0 CPU GPU 通信削減QR分解 これまでの研究成果つづき 今後の研究計画 速度測定結果 GPUクラスタ向けの実装 TSUBAME 2.5で性能測定 1ノードあたりの行列サイズ40960x40960 Weak Scalingを測定 測定結果 5ノードまでは良くスケールしている ノード数が増加すると効率が落ちる →9ノードでは理論性能の約60% 性能低下の原因調査 プログラムのトレース取得 CPUタスクが少ないことが原因の1つ 行列データ分散 現在:1-Dサイクリックデータ分散(縦方向,横方向) 今後:2-Dサイクリックデータ分散 (ScaLAPACK方式) Look-aheadによるCPUタスクの割り当て増加 CPU GPU TSUBAME 2.5での速度測定