航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマン ス測定用のツール 使い方: exe ファイルのパスと作業ディレクトリ指定して実 行するだけ 注意点 : GPU のコード実行後にプログラム終了前に,
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Computational Fluid Dynamics(CFD) 岡永 博夫
FPGA 株式会社アプライド・マーケティング 大越 章司
到着時刻と燃料消費量を同時に最適化する船速・航路計画
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
Intel AVX命令を用いた並列FFTの実現と評価
2000年 3月 10日 日本電信電話株式会社 三菱電機株式会社
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
高性能コンピューティング論2 第12回 アクセラレータ
AllReduce アルゴリズムによる QR 分解の精度について
神奈川大学大学院工学研究科 電気電子情報工学専攻
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
スパコンとJLDG HEPの計算環境 HEPnet-J
熱流動解析のための格子ボルツマン法による超大規模高速GPUコードの開発と複雑固相界面乱流熱伝達の大規模数値解析
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
正方行列向け特異値分解の CUDAによる高速化
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
研究背景・目的 研究組織 実施内容 適用手法 提案研究により期待されること
高速CFDコードを用いた次世代空力応用研究プラットフォーム構築に 向けた実証研究
圧力発展格子ボルツマン法による大規模気液二相流GPUコードの開発 ならびに多孔体浸潤液滴シミュレーション
オペレーティングシステムJ/K (実時間処理システム)
MPIによるwavからmp3圧縮の検証 情報論理工学研究室 04‐1‐47‐200 木村 惇一.
応用数理工学特論 第6回 計算理工学専攻 張研究室 山本有作.
MPIを用いた最適な分散処理 情報論理工学研究室 角 仁志
シミュレーション事例 界面不安定性を考慮した長期CO2挙動解析の例(地下水中のCO2溶解量)4)
AMR法フレームワークの様々なアーキテクチャへ向けた発展 研究背景と研究目的 Xeon Phi対応に向けた拡張
リモートホストの異常を検知するための GPUとの直接通信機構
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
ARMとIoT 株式会社アプライド・マーケティング 大越 章司
アンテナ最適化技術と電波伝搬シミュレーション技術の高速化と高精度化
「コアの数なんて どうでもいい」 五島 正裕(東大).
通信機構合わせた最適化をおこなう並列化ンパイラ
FPGA 株式会社アプライド・マーケティング 大越 章司
導電性高分子材料の電子状態計算に現れる連立一次方程式に対する 並列直接解法の高性能化
MEMSセンサを用いたINS/GPS複合航法システム
AdaPrec (提案手法) の初回の通信精度選択
可視化用粒子データを用いたIn−Situ可視化システムのSIMD最適化
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
Intel SGXを用いた仮想マシンの 安全な監視機構
目的:高速QR分解ルーチンのGPUクラスタ実装
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
ARM、IoT、AI 株式会社アプライド・マーケティング 大越 章司
Ibaraki Univ. Dept of Electrical & Electronic Eng.
研究背景・目的 研究組織 実施内容 適用手法 提案研究により期待されること
超小型航空機における 位置および姿勢の同定
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
プラズモニック構造付シリコン光検出器のHPC援用設計に関する研究
ETPB: Extraction of Context from Pedestrians' Behavior
複雑流動場における物質移行過程の解明を目指した大規模数値計算 :実験計測データとの比較による数値モデルの構築
オオワシ着陸時のドラッグシュート開傘による減速イメージ
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
FPGA 株式会社アプライド・マーケティング 大越 章司
BSPモデルを用いた 並列計算の有用性の検証
理工学部情報学科 情報論理工学研究室 延山 周平
■ 背景 ■ 目的と作業内容 分子動力学法とフェーズフィールド法の融合による 粒成長の高精度解析法の構築 jh NAH
東京都心1m解像度10km四方気流計算の可視化
格子ボルツマン法によるリアルタイム物質拡散シミュレーション手法の開発
長方行列向け特異値分解の 浮動小数点コプロセッサによる 高速化
背景 粒子法(SPH・MPSなど)は大規模流体シミュレーションなどで幅広く利用.一方で,手法の数学的正当化(数値解析)が不十分
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
中間質量ブラックホールの理解に向けた星の衝突・破壊に関する研究
Presentation transcript:

航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化 jh170032-NAH 星野 哲也 (東京大学) 航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化 計算対象 検証対象とする圧縮機C55-2多段翼列解析は、環境適応型小型航空機用エンジン研究開発( エコエンジンプロジェクト )で設計された翼列であり、実験データも豊富である。実践的な航空エンジン翼列解析例題として利用できる。 IGV 1R 1S 動翼 回転方向 静翼 6段圧縮機の全段翼列解析の例 本課題での対象:1.5段翼列解析 Japanese Environmentally Compatible Engine (ECO-engine)* 圧縮機C55-2多段翼列からInlet Guide Vane(IGV)、1段動翼(1R)、1段静翼(1S)の1.5段翼列を解析目標とする。 チップクリアランス 離散化 ① ② ③ ④ ⑤ ⑥ ⑦ パッチブロック IGV 1R 1S チップクリアランス部分の格子をチップ側から見た図 解析格子は、Multi Block Grid Generator(MBGG)によって生成された翼列格子用のマルチブロック格子(MBGG格子)を使用する。MBGG格子は、1翼当り7ブロックで構成されている。 動翼と静翼の段間接続はパッチブロックを作成しミキシングプレーン法を用いている。 動翼格子における翼先端(チップ)と壁面の間に隙間(チップクリアランス)部分は細かいブロックで構成されている 解析格子 格子トポロジ:MBGG 1Rにチップクリアランスあり 格子点数 IGV: 約320万 1R : 約300万 1S : 約330万 解析条件 乱流モデルSA 定常計算 空間3次精度 *エンジン図出典:IHI技報 Vol.47 No.3 P.91-95 計算機 本課題の目標 メニーコアプロセッサを搭載したシステムは近年一般的なものになりつつある。 JHPCNの支援により提供された二つのスーパーコンピュータシステムは、いずれも最新世代のメニーコアプロセッサを搭載している。 本課題では1.5段の翼列解析を対象とするが、将来的には全段翼列解析を目標としている。 Reedbush スーパーコンピュータシステム UPACSのメニーコアプロセッサ向け最適化 UPACS:宇宙航空研究開発機構が開発したCFD解析アプリケーション。本課題で用いるものでは、動翼列解析を可能とする拡張が施されている。 メニーコアプロセッサ:NVIDIA Pascal GPU, Intel Xeon Phi (Knights Landing) 単一のブロックに対する計算をメニーコアプロセッサにより高速化 プロセス間の計算のロードバランシング 解析対象に柔軟に対応するため、ブロックの形状はまちまちである。またパッチブロックと呼ばれる、他のブロックと異なる処理を必要とするブロックが存在 メニーコアプロセッサを考慮した効率の良いプロセス割り当て手法の開発 メニーコアプロセッサを考慮した上での、最適なメッシュの切り方の開発 プロセス間通信の最適化 非同期通信の導入により、計算と通信のオーバーラップを検討 Oakforest-PACS スーパーコンピュータシステム ピーク演算性能:1.9PF ノード数:  汎用計算ノード:420  演算加速ノード:120 プロセッサ:Intel Xeon (Broadwell) + NVIDIA Tesla P100) ピーク演算性能:25PF (国内1位) ノード数:8,208 プロセッサ:Intel Xeon Phi (Knights Landing) 引用:[Intel HPC Developer Conference at SC15] Oakforest-PACSのプロセッサであるKNLは、2コアからなるタイルが34 タイル、合計68演算コアが2Dのメッシュインタコネクトにより接続されている。さらに各コアには2つのAVX512ベクタユニットが備わっている。この68コアにおいてAVX512ユニットを効率よく利用することが高速化の鍵である。またKNLはMCDRAMと呼ばれる高バンド幅メモリを有しており、バンド幅要求の大きいCFDアプリケーションでは有用であると考えられる。 Reedbush-H(演算加速ノード群) の計算ノードは2つのIntel Xeon プロセッサとNVIDIA Pascal GPU からなる。演算性能の大部分をGPUが占めており、GPUの性能を引き出すことが鍵となる。