理学部情報科学科金田研究室指導教官金田康正工藤誠

Slides:

Advertisements

Similar presentations

1 広島大学理学研究科尾崎裕介石川健一. 1. Graphic Processing Unit (GPU) とは？ 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.

Advertisements

大規模な三角 Toeplitz 線形方程式の高速解法とその応用 ○ 安村修一（法政大学 4 年）李磊（法政大学）日本応用数理学会「行列・固有値の解法とその応用」研究部会第６回研究会.

素数判定の効率性について東邦大学理学部情報科学科卒業研究発表会指導教員白柳潔提出者後藤雄大.

MPIを用いたグラフの並列計算情報論理工学研究室藤本　涼一.

到着時刻と燃料消費量を同時に最適化する船速・航路計画

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

Fill-in LevelつきIC分解による前処理について

一般化Bi-CGSTAB(s, L) (=一般化IDR(s, L))

A Q R QR分解とは？ → × ◆QR分解 QTQ = I （単位行列） ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目

情報・知能工学系山本一公プログラミング演習Ⅱ 第4回配列（２）情報・知能工学系山本一公

ラベル付き区間グラフを列挙するBDDとその応用

Problem J Tile Puzzle 原案：野田担当：平野，吉田，泉，松本.

三重対角化アルゴリズムの性能評価早戸拓也・廣田悠輔.

ラウンドトリップタイムを指標とした無線LAN のためのアクセスポイント選択手法

全体ミーティング (4/25) 村田雅之.

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

整数計画法を用いたスリザーリンクの解法杉村由花 (東京大学)

Extremal Combinatorics 14.1 ~ 14.2

多数の疑似システムを用いたシステム同定の統計力学三好誠司岡田真人神戸高専東大，理研

AllReduce アルゴリズムによる QR 分解の精度について

多数の遊休PC上での分散ゲーム木探索導入ゲーム木探索 ⇒遊休PCを利用して高速化例）コンピュータ将棋における次手の計算

整数計画法を用いたペグソリティアの解法 ver. 2.1

IT入門B2 ー連立一次方程式ー.

周期境界条件下に配置されたブラックホールの変形

PCクラスタ上での連立一次方程式の解の精度保証

日本大学文理学部情報システム解析学科谷研究室益田真太郎

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

最短路問題のための LMS(Levelwise Mesh Sparsification)

応用数理工学特論　第5回計算理工学専攻　張研究室山本有作.

３次元剛体運動の理論とシミュレーション技法

計算アルゴリズム計算理工学専攻　張研究室山本有作.

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

文献名 “Performance Tuning of a CFD Code on the Earth Simulator”

サポートベクターマシンによるパターン認識

過負荷時の分散ソフトウェアの性能劣化を改善するスケジューリングの提案

MPIによるwavからmp3圧縮の検証情報論理工学研究室 04‐1‐47‐200　木村　惇一.

MPIを用いた最適な分散処理情報論理工学研究室角仁志

Level-3 BLASに基づく二重対角化アルゴリズムとその性能評価

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

制約条件付問題より生じる線形方程式反復解法の理論的な諸問題について

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

「R入門」　　5.7　行列に対する諸機能　 10月23日　(木) 発表者　大城亜里沙.

逐次伝達法による散乱波の解析Ｇ05ＭＭ050 本多哲也.

主成分分析 Principal Component Analysis PCA

導電性高分子材料の電子状態計算に現れる連立一次方程式に対する並列直接解法の高性能化

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

パターン認識特論担当：和田俊和部屋 A513 主成分分析

GPUを用いた疎行列の格納形式による行列ベクトル積の評価

７．一次元ダクトの消音制御系における低コスト化

目的：高速QR分解ルーチンのGPUクラスタ実装

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

Conventional and characteristic-curve FE schemes for convection-diffusion problems HN ナヴィエ・ストークス方程式のための特性曲線有限要素スキームという題で九州大学の野津が発表します． Nov. 8, 2009.

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

設計情報の再利用を目的とした UML図の自動推薦ツール

ガウス分布におけるベーテ近似の理論解析東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似

メモリ使用量の少ないGCR法の提案東京大学理学部情報科学科工藤誠東京大学情報基盤センター黒田久泰

理工学部情報学科情報論理工学研究室延山周平

シミュレーション物理4 運動方程式の方法.

MPIを用いた並列処理計算情報論理工学研究室金久英之

密行列固有値解法の最近の発展 (I) －　Multiple Relatively Robust Representation アルゴリズム　－ 2004年11月26日名古屋大学　計算理工学専攻山本有作日立製作所の山本有作です。「～」について発表いたします。

目次はじめに収束性理論解析数値実験まとめ特異値計算のための dqds 法シフトによる収束の加速

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

MPIを用いた並列処理情報論理工学研究室 06‐1‐037‐0246　杉所　拓也.

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

分散メモリ型並列計算機上での行列演算の並列化

Q q 情報セキュリティ第７回：２００５年５月２７日（金） q q.

ベイジアンネットワークとクラスタリング手法を用いたWeb障害検知システムの開発

2008年 7月17日応用数理工学特論期末発表鈴木綾華,程飛

Presentation transcript:

理学部情報科学科金田研究室指導教官金田康正工藤誠メモリ使用量の少ないGCR法の提案理学部情報科学科金田研究室指導教官金田康正工藤誠

GCR法の特徴広範囲の非対称問題が解ける並列性が高い GMRESR法[Vorst,91]の一部として使われている連立一次方程式の反復解法(Krylov部分空間法)の一つ [Eisenstat, 83] SYMMLQ GMERR Bi-CG QMR CGS Bi-CGSTAB GMRES MINRES GCR CG Method The minimum error approach petrov-Galerkin approach The minimum residual approach Ritz-Galerkin approach Approach Krylov部分空間法の分類広範囲の非対称問題が解ける並列性が高い GMRESR法[Vorst,91]の一部として使われている

GCR法の問題点計算量が大きい（O(k 2N)の計算が３回）メモリ使用量が大きい（GMRESの約２倍）計算量大！メモリ使用量大！

過去の研究計算量を減らすefficient GCR(eGCR)法が考案された[Yang,95] しかし、依然としてメモリ使用量が大きいという問題は解決されていない！！

提案する２つのアルゴリズム Memory efficient GCR(meGCR)法 Unrolled GCR(uGCR)法

Efficient GCR法 Originalの GCR法ベクトルuは、過去の分まで覚えておく各反復で解ｘをループの外に出した pの計算が無くなったベクトルuは、過去の分まで覚えておく ^

メモリ使用量は既存のアルゴリズムの約半分！ Memory efficient GCR法覚えておくベクトルはApのみでよいメモリ使用量は既存のアルゴリズムの約半分！計算量はeGCR法と同程度ベクトルuを使用しない ^

Air0はdominantな固有ベクトルの Unrolled GCR法ループ内で使われている値は、すべてAir0を使って表すことができるループの前で、Air0を計算しておくループ内の計算で必要な(Air0, Ajr0)も計算しておく Air0はdominantな固有ベクトルの方向を向いてくるので、精度の低下が予想される密行列積（BLAS3）の演算となり、効率的ループ内はスカラー計算のみとなるメモリ使用量は meGCRと同じ

計算量の比較 * 1リスタート周期の計算量 dmv dp smv prec bin kmv 2kn 2n 3(k-1) 2k 2k-1 k 計算要素 dmv dp daxpy smv prec bin kmv Dmm 計算量 2kn 2n * GCR 3(k-1) 2k 2k-1 k eGCR 1 meGCR k+1 2 uGCR 4k 注 *は、問題や前処理の方法によって変わってくる k = リスタート周期(数十～数百) n = 問題サイズ (数万～数百万)

メモリ使用量の比較 2k+3 2 k+3 k+2 5 Vector of length n Buffer of size k 2 GCR eGCR 2 meGCR k+3 uGCR k+2 5 既存の手法の約半分！ k = リスタート周期(数十～数百) n = 問題サイズ (数万～数百万)

実験環境計算機: HITACHI SR2201 通信ライブラリ：MPI (Message Passing Interface) （東京大学情報基盤センター） CPU: 300MFlops × 1024PE Main memory: 256MB/PE Communication: 300MB/s 通信ライブラリ：MPI (Message Passing Interface)

Problems Problem 1 Problem 2 Problem3 Toeplitz行列楕円型偏微分方程式の境界値問題（２次元）楕円型偏微分方程式の境界値問題（３次元）

meGCR法の実験結果(逐次) 実行時間（秒）リスタート周期32 問題 Problem 1 Problem 2 Problem 3 サイズ実行時間（秒）リスタート周期32 問題 Problem 1 Problem 2 Problem 3 サイズ 400,000 160,000 64,000 前処理無し GCR 22.8 4860 37.8 eGCR 18.3 3440 27.7 meGCR 17.9 3450 28.7 前処理有り (B-ILU(0)) 21.2 938 21.9 19.8 812 19.9 20.1 825

meGCR法の実験結果（並列、前処理なし） Problem 1 ( n=4,000,000 ) Problem 2 ( n=160,000 ) Problem 3 ( n=512,000 ) リスタート周期はすべて３２

meGCR法の実験結果（並列、B-ILU(0)前処理） Problem 1 ( n=4,000,000 ) Problem 2 ( n=160,000 ) Problem 3 ( n=512,000 ) リスタート周期はすべて３２

uGCR法の実験結果リスタート周期 8 前処理無し B-ILU(0)前処理 Iteration Time Problem 1 GCR 46 リスタート周期 8 前処理無し B-ILU(0)前処理 Iteration Time Problem 1 (n=400,000) GCR 46 18.5 17 20.3 eGCR 15.4 18.2 meGCR 19.5 uGCR 55 13.5 25 26.7 Problem 3 (n=64,000) 1096 64.8 150 30.6 53.6 29.6 55.7 31.7 1053 43.0 30.1

まとめと考察 GCR法の２つのアルゴリズムを提案した Memory efficient GCR法 Unrolled GCR法より大きな問題が解けるリスタート周期を大きく取れるので、収束の悪い問題が解ける GCR法の２つのアルゴリズムを提案した Memory efficient GCR法計算量は、既存の方法とほぼ同じメモリ使用量は、既存の方法の約半分 Unrolled GCR法計算量、メモリ使用量とも既存の方法より少ない収束性に問題がなく、実用的！精度の問題があるので、今後の研究が必要