Jh170057-NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

Level-3 BLASに基づく特異値分解 アルゴリズムのSMP上での性能
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
クラスタの構成技術と クラスタによる並列処理
Chapter11-4(前半) 加藤健.
Fill-in LevelつきIC分解による 前処理について
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
全体ミーティング (4/25) 村田雅之.
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
AllReduce アルゴリズムによる QR 分解の精度について
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
各種PC クラスタの性能評価 同志社大学 工学部 廣安 知之 三木 光範 谷村 勇輔.
多数の遊休PC上での 分散ゲーム木探索 導入 ゲーム木探索 ⇒遊休PCを利用して高速化 例)コンピュータ将棋における次手の計算
PCクラスタ上での 連立一次方程式の解の精度保証
理学部情報科学科 金田研究室 指導教官 金田 康正 工藤 誠
応用数理工学特論 第5回 計算理工学専攻 張研究室 山本有作.
正方行列向け特異値分解の CUDAによる高速化
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
京都大学大学院医学研究科 画像応用治療学・放射線腫瘍学 石原 佳知
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
高速CFDコードを用いた次世代空力応用研究プラットフォーム構築に 向けた実証研究
現実の有限密度QCDの定性的な振る舞いに
領域分割手法について 2008年2月26日 中島研吾.
応用数理工学特論 第6回 計算理工学専攻 張研究室 山本有作.
Level-3 BLASに基づく二重対角化 アルゴリズムとその性能評価
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
シミュレーション事例 界面不安定性を考慮した長期CO2挙動解析の例(地下水中のCO2溶解量)4)
AMR法フレームワークの様々なアーキテクチャへ向けた発展 研究背景と研究目的 Xeon Phi対応に向けた拡張
近況: Phoenixモデル上の データ並列プログラム
リモートホストの異常を検知するための GPUとの直接通信機構
HLとEHLモデルでの圧力分布と軸受の変形分布
アンテナ最適化技術と電波伝搬シミュレーション技術の高速化と高精度化
通信機構合わせた最適化をおこなう並列化ンパイラ
実行時情報を用いて通信を最適化するPCクラスタ上の並列化コンパイラ
導電性高分子材料の電子状態計算に現れる連立一次方程式に対する 並列直接解法の高性能化
航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
GW space-timeコードの大規模な有機-金属界面への適用に向けた高効率化
目的:高速QR分解ルーチンのGPUクラスタ実装
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
岩澤全規 理化学研究所 計算科学研究機構 粒子系シミュレータ研究チーム 2015年7月22日 AICS/FOCUS共催 FDPS講習会
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
プラズモニック構造付シリコン光検出器のHPC援用設計に関する研究
堆積炭塵爆発に対する大規模連成数値解析 研究背景 研究目的 計算対象および初期条件 燃焼波の様子(二次元解析) 今後の予定
「マイグレーションを支援する分散集合オブジェクト」
時間連続性を考慮した 動画からの人物の姿勢推定
研究背景と目的 解析結果・グラフ 解析手法 今後の展望 太陽光模擬の高精度化 熱中症リスク評価シミュレータの開発と応用
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
メモリ使用量の少ないGCR法の提案 東京大学理学部情報科学科 工藤 誠 東京大学情報基盤センター 黒田 久泰
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
BSPモデルを用いた 並列計算の有用性の検証
■ 背景 ■ 目的と作業内容 分子動力学法とフェーズフィールド法の融合による 粒成長の高精度解析法の構築 jh NAH
東京都心1m解像度10km四方気流計算の可視化
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
密行列固有値解法の最近の発展 (I) - Multiple Relatively Robust Representation アルゴリズム - 2004年11月26日 名古屋大学 計算理工学専攻 山本有作 日立製作所の山本有作です。 「~」について発表いたします。
格子ボルツマン法によるリアルタイム物質拡散シミュレーション手法の開発
キャッシュマシン向け三重対角化 アルゴリズムの性能予測方式
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
分散メモリ型並列計算機上での行列演算の並列化
背景 粒子法(SPH・MPSなど)は大規模流体シミュレーションなどで幅広く利用.一方で,手法の数学的正当化(数値解析)が不十分
エアリード楽器および音響機器における大規模音響流体解析
大規模粒子法による大型クルーズ船の浸水解析
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
Presentation transcript:

jh170057-NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法の導入が近年盛んに行なわれている。また、密行列のみならず、疎行列の直接解法におけるSchur補元の圧縮に用いることもできるため、流体、構造、電磁界解析において前処理法として用いる研究も盛んに行なわれている。しかし、これらの階層的低ランク近似法は比較的新しい手法であるため、高性能な並列実装は少なく、GPUなどへの実装も未成熟である。これらの階層的低ランク近似法に内在する並列度は高く、高性能な分散メモリ・GPU実装に大きな期待が寄せられている。 H行列のマルチGPU実装  H行列のOpenMP・MPIハイブリッド実装であるHACApKをGPU化するにあたり、共同研究者の山崎らのグループが開発しているMAGMAを用いた。HACApKはもともとMPIに対応していたためマルチGPU化は容易に行うことができた。  下図にTSUBAME2.5で複数GPUを用いて行った境界要素法の反復解法におけるHACApKの計算時間の内訳を示す。Compは演算、CopyはCUDAMemcpy、CommはMPI通信、Otherはその他にかかった時間を表す。 目的  本研究では,エクサスケールを視野に入れた階層的低ランク近似法の分散メモリ・GPU上での高性能な実装を行うことを目的とする。このとき重要になるのが比較的小さな密行列の高速な処理である。 Tennessee大学のDongarraグループではまさにこのような小さな密行列のバッチ処理をGPU上で高速に行うライブラリを開発しており、JHPCNの国際共同研究として行うことでこの技術をいち早く導入できる。  昨年度はGPU化とLU分解への拡張を行ったが、今年度はマルチGPU化とスケーラビリティの向上を目指すとともに、block MAGMAを用いた単体GPU性能の更なる向上を図る。また、FMMを低ランク近似に用いることにより[1]、従来のACAでは扱えなかった行列も高速に圧縮できる手法を開発する。 H行列のLU分解  H行列のLU分解を行う際に、階層構造から生じるデータの依存関係がアルゴリズムの並列性に悪影響を与える。そこで、本研究では下図のH行列構造からBLR構造へと行列のブロック構造を変換し、LU分解の際のデータの依存関係をより並列なものへと変えた。       H行列構造        Block Low-Rank(BLR)構造 H行列のOpenMP+MPIハイブリッド実装 -- HACApK  密行列                    Adaptive Cross Approximation  HACApKはH行列による階層化とAdaptive Cross Approximati-on (ACA)による低ランク近似を用いるOpenMPとMPIのハイブリッド実装である。 H行列の領域分割       HACApKの強スケーリング   HACApKは各ブロックのランクを予想し動的負荷分散を行う機構を導入することによってMPIスケーラビリティの向上を図ることができた[2]。また、ノード内並列に関してもOpenMPの動的タスクスケジューリングにより負荷分散を実現している。 今後の展望 FMMによる低ランク近似を用いることでACAでは扱えなかった行列を圧縮できるようにする 小さい行列をバッチ処理することに特化した「block MAGMA」を用いてGPU実装を高速化 境界要素法による電磁界解析にGPU実装されたHACApKを用いることで実アプリケーションにおける性能を検証 参考文献 [1] Rio Yokota, Journal of the JSCES, Vol. 21, No. 4, pp. 3498–3501, 2016. [2] Akihiro Ida, Takeshi Iwashita, 2 others, Journal of the JSCES, Vol. 21, No. 4, pp. 22-25, 2016.