Jh180012-NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
Chapter11-4(前半) 加藤健.
Intel AVX命令を用いた並列FFTの実現と評価
Fill-in LevelつきIC分解による 前処理について
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
全体ミーティング (4/25) 村田雅之.
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
AllReduce アルゴリズムによる QR 分解の精度について
神奈川大学大学院工学研究科 電気電子情報工学専攻
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
多数の遊休PC上での 分散ゲーム木探索 導入 ゲーム木探索 ⇒遊休PCを利用して高速化 例)コンピュータ将棋における次手の計算
PCクラスタ上での 連立一次方程式の解の精度保証
半正定値計画問題に対する 行列補完理論の高速実装
理学部情報科学科 金田研究室 指導教官 金田 康正 工藤 誠
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
応用数理工学特論 第5回 計算理工学専攻 張研究室 山本有作.
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
正方行列向け特異値分解の CUDAによる高速化
サーバ負荷分散におけるOpenFlowを用いた省電力法
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
応用数理工学特論 第6回 計算理工学専攻 張研究室 山本有作.
高速剰余算アルゴリズムとそのハードウェア実装についての研究
Level-3 BLASに基づく二重対角化 アルゴリズムとその性能評価
スペクトル法の一部の基礎の初歩への はじめの一歩
リモートホストの異常を検知するための GPUとの直接通信機構
HLとEHLモデルでの圧力分布と軸受の変形分布
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
仮想メモリを用いた VMマイグレーションの高速化
導電性高分子材料の電子状態計算に現れる連立一次方程式に対する 並列直接解法の高性能化
航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
GW space-timeコードの大規模な有機-金属界面への適用に向けた高効率化
目的:高速QR分解ルーチンのGPUクラスタ実装
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
プラズモニック構造付シリコン光検出器のHPC援用設計に関する研究
8方向補間ブロックマッチングの実装 福永研究室 数理科学コース 学部4年 能城 真幸.
「マイグレーションを支援する分散集合オブジェクト」
原子核物理学 第7講 殻模型.
研究背景と目的 解析結果・グラフ 解析手法 今後の展望 太陽光模擬の高精度化 熱中症リスク評価シミュレータの開発と応用
メモリ使用量の少ないGCR法の提案 東京大学理学部情報科学科 工藤 誠 東京大学情報基盤センター 黒田 久泰
BSPモデルを用いた 並列計算の有用性の検証
■ 背景 ■ 目的と作業内容 分子動力学法とフェーズフィールド法の融合による 粒成長の高精度解析法の構築 jh NAH
東京都心1m解像度10km四方気流計算の可視化
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
密行列固有値解法の最近の発展 (I) - Multiple Relatively Robust Representation アルゴリズム - 2004年11月26日 名古屋大学 計算理工学専攻 山本有作 日立製作所の山本有作です。 「~」について発表いたします。
Mathematicaによる固有値計算の高速化 Eigenvalue calculation speed by Mathematica
キャッシュマシン向け三重対角化 アルゴリズムの性能予測方式
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
分散メモリ型並列計算機上での行列演算の並列化
背景 粒子法(SPH・MPSなど)は大規模流体シミュレーションなどで幅広く利用.一方で,手法の数学的正当化(数値解析)が不十分
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
大規模粒子法による大型クルーズ船の浸水解析
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
Presentation transcript:

jh180012-NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法の導入が近年盛んに行なわれている。また、密行列のみならず、疎行列の直接解法におけるSchur補元の圧縮に用いることもできるため、流体、構造、電磁界解析において前処理法として用いる研究も盛んに行なわれている。しかし、これらの階層的低ランク近似法は比較的新しい手法であるため、高性能な並列実装は少なく、GPUなどへの実装も未成熟である。これらの階層的低ランク近似法に内在する並列度は高く、高性能な分散メモリ・GPU実装に大きな期待が寄せられている。 Lattice H行列によるLU分解のパフォーマンスモデル  下の表にLattice H行列の主要な関数の呼ばれる回数と計算コスト、その積から求められる全体の計算コストを示す。ただし、nは行列の大きさ、lはブロックの大きさを表す。Hがついている関数は階層的なブロックに関するものであり、low-rankと記されている関数は低ランクなブロックに関するものを表す。BLRの密行列になっている部分をH行列に置き換えることでこれらは簡単に導くことができる。 目的  本研究では,エクサスケールを視野に入れた階層的低ランク近似法の分散メモリ・GPU上での高性能な実装を行うことを目的とする。このとき重要になるのが比較的小さな密行列の高速な処理である。 Tennessee大学のDongarraグループではまさにこのような小さな密行列のバッチ処理をGPU上で高速に行うライブラリを開発しており、JHPCNの国際共同研究として行うことでこの技術をいち早く導入できる。  昨年度はマルチGPU化とスケーラビリティの向上を目指すとともに、block MAGMAを用いた単体GPU性能の更なる向上を図ったが,今年度はマルチGPU上で行列分解を行う際の負荷分散アルゴリズムやbatch MAGMAを用いる際の階層的データのストリーム化について開発を行う。 Lattice H行列によるLU分解の演算性能とメモリ消費量  右図にBLRによる LU分解(BLU)、H-ma trixによるLU分解(H LU)、lattice H-matri xによるLU分解(LLU) の演算性能とメモリ 消費量を示す。BLU に比べてHLUやLLU は演算性能やメモリ 消費量の漸近挙動 が大きく低減されて いることが分かる。  右下図にBLUとLLUを用いた 場合の並列化効率を計算時 間の観点から図示する。また ScaLAPACKの計算時間を直接 図示することで相対的な性能 を確認できる[1]。 H-matrix, HSS, BLRの違い 右図に様々な低ランク 近似法の違いを図示す る。(a)にあるH-matrixや H2-matrixなどの手法は (b)のHSSやHODLRとは 異なり、非対角ブロック をより細かく分割するの が特徴である。(c)のBLR は階層的でない低ランク 近似法であり、(d)はBLR とH-matrixのハイブリッド である。(d)のlattice H- matrixはハイブリッド化 により、BLRのもつ並列度とH-matrixのもつO(Nlog2N)の計算コストの両方を有する。下の表には許容条件と基底のネストの両方の観点から手法を分類したものとそれぞれを実装したオープンソースコードの名称を示す。 今後の展望 FMMによる低ランク近似を用いることでACAでは扱えなかった行列を圧縮できるようにする 小さい行列をバッチ処理することに特化した「block MAGMA」を用いてGPU実装を高速化 境界要素法による電磁界解析にGPU実装されたHACApKを用いることで実アプリケーションにおける性能を検証 参考文献 [1] I. Yamazaki, A. Abdelfattah, A. Ida, S. Ohshima, S. Tomov, R. Yokota, J. Dongarra, ``Analyzing Performance of BiCGStab with Hierarchical Matrix on GPU clusters,” 32nd IEEE International Parallel & Distributed Processing Symposium, IPDPS2018, Vancouer, Canada, 21-25 May (2018).