分散メモリ型並列計算機上での行列演算の並列化

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマン ス測定用のツール 使い方: exe ファイルのパスと作業ディレクトリ指定して実 行するだけ 注意点 : GPU のコード実行後にプログラム終了前に,
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Level-3 BLASに基づく特異値分解 アルゴリズムのSMP上での性能
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
※ 対称密行列の固有値分解は特異値分解と共通点が多い
Chapter11-4(前半) 加藤健.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Intel AVX命令を用いた並列FFTの実現と評価
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
計算機システムⅡ 主記憶装置とALU,レジスタの制御
全体ミーティング (4/25) 村田雅之.
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
AllReduce アルゴリズムによる QR 分解の精度について
地理情報システム論 第3回 コンピュータシステムおける データ表現(1)
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
2. 共有メモリ型並列計算機での特異値分解の高速化
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
各種PC クラスタの性能評価 同志社大学 工学部 廣安 知之 三木 光範 谷村 勇輔.
PCクラスタ上での 連立一次方程式の解の精度保証
Ibaraki Univ. Dept of Electrical & Electronic Eng.
理学部情報科学科 金田研究室 指導教官 金田 康正 工藤 誠
複数CPU間のための共有メモリ 小島 隆史(中央大学大学院理工学研究科 國井研究室)
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
プロキシ協調型動画像配信システムの検討 大阪大学 若宮 直紀.
応用数理工学特論 第5回 計算理工学専攻 張研究室 山本有作.
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
正方行列向け特異値分解の CUDAによる高速化
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
現実の有限密度QCDの定性的な振る舞いに
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
応用数理工学特論 第6回 計算理工学専攻 張研究室 山本有作.
MPIを用いた最適な分散処理 情報論理工学研究室 角 仁志
独立大学法人・電気通信大学 大学院情報システム学研究科 情報ネットワーク学専攻・並列処理学講座
MPIとOpenMPを用いた Nクイーン問題の並列化
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
コンピュータの基本構成について 1E16M001-1 秋田梨紗 1E16M010-2 梅山桃香 1E16M013-3 大津智紗子
トーリックイデアルの グレブナ基底を求める アルゴリズム – F4およびF5 –
導電性高分子材料の電子状態計算に現れる連立一次方程式に対する 並列直接解法の高性能化
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
目的:高速QR分解ルーチンのGPUクラスタ実装
情報論理工学 研究室 研究テーマ 並列アルゴリズム.
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
第5回 メモリ管理(2) オーバレイ方式 論理アドレスとプログラムの再配置 静的再配置と動的再配置 仮想記憶とメモリ階層 セグメンテーション
マイグレーションを支援する分散集合オブジェクト
地理情報システム論(総)/ 国民経済計算論(商)
第4回 メモリ管理 主記憶(メインメモリ)の管理 固定区画方式と可変区画方式 空き領域の管理 スワッピング.
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
「マイグレーションを支援する分散集合オブジェクト」
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
BSPモデルを用いた 並列計算の有用性の検証
理工学部情報学科 情報論理工学研究室 延山 周平
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
密行列固有値解法の最近の発展 (I) - Multiple Relatively Robust Representation アルゴリズム - 2004年11月26日 名古屋大学 計算理工学専攻 山本有作 日立製作所の山本有作です。 「~」について発表いたします。
情報論理工学 研究室 第1回:並列とは.
キャッシュマシン向け三重対角化 アルゴリズムの性能予測方式
密行列固有値解法の最近の発展(II) ー マルチシフトQR法 ー
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
アーキテクチャパラメータを利用した並列GCの性能予測
全体ミーティング (9/12) 村田 雅之.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
Presentation transcript:

分散メモリ型並列計算機上での行列演算の並列化 秋田晃治 岩本健吾

概要 HPC2500上でMPIによって並列化した行列演算を実行 結果の比較 まとめ 基本的な分割による演算 Foxのアルゴリズム キャッシュ・アクセスにおける問題と解決 Foxのアルゴリズム 結果の比較 まとめ

基本的な分割による演算 × = PU0 PU3 PU0 PU3 PU0 PU1 PU2 PU3 A0 A1 B0 B1 B2 B3 C0 (図は講義資料から拝借)

キャッシュ・アクセスにおける問題 ・必要な要素をL2からロード ・必要な要素がL1に存在しない ・列の要素は連続でない 場合、L2からロード ・次の要素をロードするときに  再びL1キャッシュ・ミス ・必要な要素がL1に存在しない  場合、L2からロード ・HPC2500は64B(要素×16)を L2キャッシュ・ヒット時にロード ・行の要素は連続 ・次の計算に必要な  要素も同時にロード アクセス・レイテンシが 性能向上の妨げに

キャッシュ・アクセスにおける問題の解決 × = × = 基本的な計算法 PU0 PU3 PU0 PU3 PU0 PU1 PU2 PU3 A0 PU1 A1 × B0 B1 B2 B3 = C0 C1 C2 C3 PU2 A2 PU3 A3 改良型計算法 PU0 A0 B0 C0 PU1 A1 B1 C1 × = PU2 A2 B2 C2 PU3 A3 B3 C3

行列演算の比較 使用する演算法 比較の方法 基本的な分割による演算法 L1キャッシュ・ミスを減らした演算法 Foxのアルゴリズムを使用した演算法 比較の方法 正方行列数を変化 CPU数を変化

計算時間の結果(CPU固定) CPU=4の場合(N:正方行列のサイズ) N= 1000 2000 3000 4000 5000 基本 0.631 5.731 39.979 102.527 273.702 キャッシュ改 0.560 7.300 25.663 61.890 126.017 Fox 0.177 1.052 3.319 7.688 14.923 (計算時間の単位は[sec])

計算時間の結果(CPU固定)

計算時間の結果(サイズ固定) N=3600の場合 CPU=4 CPU=9 CPU=16 基本 54.960[sec] 30.706[sec] 0.85Gflops 1.52Gflops 4.65Gflops キャッシュ改 50.672[sec] 24.556[sec] 8.037[sec] 0.92Gflops 1.90Gflops 5.80Gflops Fox 6.044[sec] 2.680[sec] 1.651[sec] 7.72Gflops 17.40Gflops 28.26Gflops

まとめ キャッシュ・アクセスを意識して、行列をキャッシュに配置することで高速化が可能 Foxのアルゴリズムではそれ以上の速度が得られる