高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

1 プリミティブ Web サービスの 入出力データに関する一考察 2005 年 3 月 21 日 松江工業高等専門学校 情報工学科 奈良先端科学技術大学院大学 情報科学研究科 越田高志 電子情報通信学会 2005年総合 大会.
シーケンス図の生成のための実行履歴圧縮手法
NFCを利用した登山者間DTNの構築 Building DTN for Climbers by using NFC
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
神奈川大学大学院工学研究科 電気電子情報工学専攻
条件式 (Conditional Expressions)
変数のスコープの設計判断能力 を育成するプログラミング教育
Yuri Y. Boykov Marie-Pierre Jolly
アスペクト指向プログラミングを用いたIDSオフロード
入出力データ型に透過な Webサービス動的実行システム 松江工業高等専門学校 情報工学科 越田高志 情報処理学会第68回全国大会
二分探索木によるサーチ.
研究背景 研究目的 手法 研究計画 分散型プラズマアクチュエータと物体形状の統合最適設計による 仮想空力形状の実現 jh NAH
7-3.高度な木 (平衡木) AVL木 平衡2分木。回転操作に基づくバランス回復機構により平衡を保つ。 B木
高速CFDコードを用いた次世代空力応用研究プラットフォーム構築に 向けた実証研究
圧力発展格子ボルツマン法による大規模気液二相流GPUコードの開発 ならびに多孔体浸潤液滴シミュレーション
現実の有限密度QCDの定性的な振る舞いに
ステンシル計算を対象とした 大規模GPUクラスタ向け 自動並列化フレームワーク
解適合格子法によるプラズマ粒子(AMR-PIC)シミュレーション
第4章 組合せ論理回路 (4) Quine McCluskeyの方法.
AMR法フレームワークの様々なアーキテクチャへ向けた発展 研究背景と研究目的 Xeon Phi対応に向けた拡張
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
精密工学科プログラミング基礎 第10回資料 (12/18実施)
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
岩村雅一 知能情報工学演習I 第8回(C言語第2回) 岩村雅一
実行時情報に基づく OSカーネルのコンフィグ最小化
仮想メモリを用いた VMマイグレーションの高速化
HPC基盤における大量データ転送のためのデータ転送ツールの評価
第14章 モデルの結合 修士2年 山川佳洋.
アルゴリズムとデータ構造 補足資料4-1 「メモリと配列」
アンテナ最適化技術と電波伝搬シミュレーション技術の高速化と高精度化
研究課題名 研究背景・目的 有機エレクトロニクス材料物質の基礎電子物性の理解 2. 理論 3. 計算方法、プログラムの現状
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
Internet広域分散協調サーチロボット の研究開発
航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化
ポリゴンメッシュ (2) - 変形と簡略化- 東京大学 精密工学専攻 大竹豊 資料および授業の情報は :
先進的計算基盤システムシンポジウム SACSIS2007併設企画 マルチコアプログラミングコンテスト 「Cellスピードチャレンジ2007」
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
ファジィ制約充足問題への 連続領域の導入 Introducing continuous domains to
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
可視化用粒子データを用いたIn−Situ可視化システムのSIMD最適化
CGと形状モデリング 授業資料 1,2限: 大竹豊(東京大学) 3,4限: 俵 丈展(理化学研究所)
GW space-timeコードの大規模な有機-金属界面への適用に向けた高効率化
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
適応的近傍を持つ シミュレーテッドアニーリングの性能
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
岩澤全規 理化学研究所 計算科学研究機構 粒子系シミュレータ研究チーム 2015年7月22日 AICS/FOCUS共催 FDPS講習会
精密工学科プログラミング基礎Ⅱ 第5回資料 今回の授業で習得してほしいこと: 構造体 (教科書 91 ページ)
第5回 メモリ管理(2) オーバレイ方式 論理アドレスとプログラムの再配置 静的再配置と動的再配置 仮想記憶とメモリ階層 セグメンテーション
研究背景・目的 研究組織 実施内容 適用手法 提案研究により期待されること
補講:アルゴリズムと漸近的評価.
第4回 メモリ管理 主記憶(メインメモリ)の管理 固定区画方式と可変区画方式 空き領域の管理 スワッピング.
ポインタとポインタを用いた関数定義.
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
「マイグレーションを支援する分散集合オブジェクト」
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
■ 背景 ■ 目的と作業内容 分子動力学法とフェーズフィールド法の融合による 粒成長の高精度解析法の構築 jh NAH
東京都心1m解像度10km四方気流計算の可視化
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
格子ボルツマン法によるリアルタイム物質拡散シミュレーション手法の開発
オブジェクト指向言語論 第二回 知能情報学部 新田直也.
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
岩村雅一 知能情報工学演習I 第8回(C言語第2回) 岩村雅一
PROGRAMMING IN HASKELL
プログラミング演習I 2003年6月11日(第9回) 木村巌.
背景 粒子法(SPH・MPSなど)は大規模流体シミュレーションなどで幅広く利用.一方で,手法の数学的正当化(数値解析)が不十分
大規模粒子法による大型クルーズ船の浸水解析
情報処理Ⅱ 第8回:2003年12月9日(火).
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
プログラミング 2 静的変数.
Presentation transcript:

1 3 2 4 高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化 jh180061-NAH 下川辺 隆史 (東京大学) 高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 1 2.4 ステンシル関数の記述と実行 メモリレイアウトをフラットな構造とすることで、c++11ラムダ式で定義された直交格子用のステンシル計算関数を、一度に全格子ブロックに適用できる  近年、ステンシル計算を用いた格子に基づいたシミュレーションでは、大規模なGPU計算が可能となり、広大な計算領域の場所によって求められる精度が異なる問題に有効な手法が要求されてきている。GPU計算では、GPUが得意なステンシル計算を活用しながら、高精度が必要な領域を局所的に高精細にできる適合細分化格子法(Adaptive mesh refinement; AMR法)が有効である。 // User-written stencil function auto diffusion3d = [=] __host__ __device__ (const MArrayIndex &idx, int level, float ce, float cw, float cn, float cs, float ct, float cb, float cc, const FLOAT *f, float *fn) { fn[idx.ix()] = + cc*f[idx.ix()] + ce*f[idx.ix(1,0,0)] + cw*f[idx.ix(-1,0,0)] + cn*f[idx.ix(0,1,0)] + cs*f[idx.ix(0,-1,0)] + ct*f[idx.ix(0,0,1)] + cb*f[idx.ix(0,0,-1)]; }}; (i, j, k)  本研究では、開発中のGPU向けの高生産・高性能AMRフレームワークを高度化する。前年度までに、複数GPUに対応したAMRフレームワークを構築した。しかしながら、計算負荷の分散や通信の最適化に高度化の余地がある。そこで本年度は、GPUスパコン上で実行時間を最小化するためのフレームワークの高度化を進める。最終的に、高度化したフレームワークで東京大学のReedbush-Hおよび東京工業大学のTSUBAME3.0のGPUスパコン上で局所的に高精細にできるAMRアプリケーションの開発技術の確立を目指す。 (i, j, k-1) フラットなメモリレイアウトにより複数の格子ブロックを同時に計算できる Range3D inside; // 3D rectangular range where stencil functions are applied. Engine_t engine; engine.run(amrcon, inside, LevelGreaterEqual(1), diffusion3d, idx(f.range()), level(), ce,cw,cn,cs,ct,cb,cc, ptr(f), ptr(fn)); 複数GPU間での袖領域の交換と効率化 3  本年度は、開発したフレームワークを現在取り組んでいる流体中を流れながら成長する金属凝固計算に適用し、その高精細計算を実現することを目指す。 複数GPU計算では、GPU間の格子ブロックの袖領域の交換による性能低下が大きい。時間ブロッキング手法を適用し性能向上を実現する。 3.1 複数GPU間での袖領域の交換 開発中のGPU向けAMRフレームワークの圧縮性流体計算への適用例。緑のブロックは同一数の格子点を持つ。 AMR法フレームワーク 2 AMR法フレームワークの概要を述べる。平成26、27年度課題で開発したGPU/CPUで高性能を実現するステンシル計算フレームワークを基盤とする。前年度までに、複数GPUに対応したAMRフレームワークを構築した。 2.1 フレームワークの対象 ステンシル計算を行うため、隣接GPUから隣接する格子ブロックを転送する 未使用の格子ブロックから、隣接GPUから転送された格子ブロックを保持する「ゴースト格子ブロック」を確保し、そこへ転送する 袖領域の交換では、格子ブロックに含まれる全データが転送される 直交格子をベースとしたブロック型のAMR 各格子点上で定義される物理変数(配列)の時間変化を計算 物理変数の時間ステップ更新は陽的でステンシル計算で行う 3.2 時間ブロッキング手法による通信の効率化 2.2 フレームワークの設計 Migration, TB Migration, No TB フレームワークはC++/CUDA/MPIで構築、複数GPU計算対応 ユーザは基本的にステンシル計算についてのみ記述 AMRでは様々な解像度のブロックが存在するが、ユーザはあたかも単一解像度への計算として記述できる         これを実現するため各ブロックは袖領域の格子を持つ AMRデータは木構造で管理するが、これを意識しないプログラミング 任意の数の物理変数(配列)を扱える 2.3 AMR法のデータ構造 構造格子を再帰的に細分化し、木構造で表す 物理空間ではリーフノードに格子ブロックを配置 メモリ空間では複数の格子ブロックを単一配列内に配置 リーフノードとメモリ上の格子ブロックは整数値(Id)で対応付け 格子ブロックに含まれる全データを転送することによる性能低下を抑えるため、複数タイムステップの通信をまとめて行い、通信なしで複数のタイムステップを進められる時間ブロッキング手法を導入する 時間ブロッキング手法を導入したことで計算時間が約36%となっている まとめと今後の研究計画 4 物理空間  前年度までに構築を進めた複数GPU向けAMR法フレームワークの高度化を進める。特に計算負荷の分散や通信の最適化により、GPUスパコン上で実行時間が最小化となるよう最適化を進める。また、流体中を流れ成長する金属凝固計算へAMR法フレームワークを適用し、高解像度計算を実現する。最終的に、高度化したフレームワークでGPUスパコン上で局所的に高精細にできるAMRアプリケーションの開発技術の確立を目指す。 メモリ空間