研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.

Slides:



Advertisements
Similar presentations
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Advertisements

大規模な三角 Toeplitz 線形方 程式の高速解法とその応用 ○ 安村 修一(法政大学 4 年) 李 磊(法政大学) 日本応用数理学会「行列・固有値の解法とその応用」研究部会 第6回研究会.
Level-3 BLASに基づく特異値分解 アルゴリズムのSMP上での性能
MPIを用いたグラフの並列計算 情報論理工学研究室 藤本 涼一.
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
※ 対称密行列の固有値分解は特異値分解と共通点が多い
Chapter11-4(前半) 加藤健.
Intel AVX命令を用いた並列FFTの実現と評価
Fill-in LevelつきIC分解による 前処理について
一般化Bi-CGSTAB(s, L) (=一般化IDR(s, L))
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
全体ミーティング (4/25) 村田雅之.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
局所探索に基づく 原子炉燃料装荷パターンの最適化
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
対角マトリックスを用いた3次元剛塑性有限要素法の並列計算 対角マトリックスを用いた剛塑性有限要素法
AllReduce アルゴリズムによる QR 分解の精度について
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
PCクラスタ上での 連立一次方程式の解の精度保証
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
理学部情報科学科 金田研究室 指導教官 金田 康正 工藤 誠
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
応用数理工学特論 第5回 計算理工学専攻 張研究室 山本有作.
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
正方行列向け特異値分解の CUDAによる高速化
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
非対称行列向けマルチシフトQR法の 性能予測方式
応用数理工学特論 第6回 計算理工学専攻 張研究室 山本有作.
Level-3 BLASに基づく二重対角化 アルゴリズムとその性能評価
1. MC/UCT アルゴリズムの 並列化に伴う挙動の変化 2. 探索木共有型並列と マスタスレーブ型並列 ― プラットフォームとの関係 ―
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
HPC基盤における大量データ転送のためのデータ転送ツールの評価
通信機構合わせた最適化をおこなう並列化ンパイラ
進化的計算手法の並列計算機への実装 三木 光範
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
GW space-timeコードの大規模な有機-金属界面への適用に向けた高効率化
目的:高速QR分解ルーチンのGPUクラスタ実装
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
情報論理工学 研究室 研究テーマ 並列アルゴリズム.
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
坂井 修一 東京大学 大学院 情報理工学系研究科 電子情報学専攻 東京大学 工学部 電気工学科
秘匿リストマッチングプロトコルとその応用
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
メモリ使用量の少ないGCR法の提案 東京大学理学部情報科学科 工藤 誠 東京大学情報基盤センター 黒田 久泰
BSPモデルを用いた 並列計算の有用性の検証
理工学部情報学科 情報論理工学研究室 延山 周平
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
実験計画法 Design of Experiments (DoE)
密行列固有値解法の最近の発展 (I) - Multiple Relatively Robust Representation アルゴリズム - 2004年11月26日 名古屋大学 計算理工学専攻 山本有作 日立製作所の山本有作です。 「~」について発表いたします。
2資産に依存するオプションの 高速・高精度価格計算手法
Mathematicaによる固有値計算の高速化 Eigenvalue calculation speed by Mathematica
キャッシュマシン向け三重対角化 アルゴリズムの性能予測方式
密行列固有値解法の最近の発展(II) ー マルチシフトQR法 ー
BSPモデルを用いた 最小スパニング木 情報論理工学研究室 02-1-47-134 小林洋亮.
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
分散メモリ型並列計算機上での行列演算の並列化
背景 粒子法(SPH・MPSなど)は大規模流体シミュレーションなどで幅広く利用.一方で,手法の数学的正当化(数値解析)が不十分
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
Presentation transcript:

研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻

目次 はじめに 固有値問題の数値解法 QR 法の並列化 性能差理論解析 数値実験 まとめ シングルシフト QR 法 マルチシフト法 遅延シフト法 提案法 性能差理論解析 数値実験 まとめ

はじめに 本研究で扱う問題 標準固有値問題 計算機を用いた固有値計算 - 行列を扱いやすい形に相似変換 - 固有値は不変 三重対角化 対角化  本研究で扱う問題 標準固有値問題  計算機を用いた固有値計算 - 行列を扱いやすい形に相似変換 - 固有値は不変 三重対角化 対角化 実対称行列 三重対角行列 対角行列 対角成分に固有値

シングルシフト QR 法 シングルシフト QR 法 (2) シフトの更新 ・・・ 相似変換 固有値 非対角成分

シフトの更新 収束を速めるには? 更新された新しいシフトを用いる Wilkinson シフト 右下 2 × 2 の小行列の固有値 シフト = 右下対角成分に近い値 ・・・ シフト シフト シフト = 固有値 固有値の近似度増加 収束を速めるには? 更新された新しいシフトを用いる

QR 法の並列化  マルチシフト法  遅延シフト法  提案法

QR 法の並列化 シングルシフト QR 法の演算順序 マルチシフト法(並列化可能) 左上から右下まで 逐次的に実行 (並列化困難) 複数のシフト マルチシフト法(並列化可能) プロセッサ 2 例: 2 シフト プロセッサ 1 m m 右下 m × m 小行列の固有値 → m 個のシフト シフト 1 : 計算開始 シフト 2 : 計算開始

マルチシフト法の問題点 (プロセッサの待ち時間) 計算過程 PU 1 PU 2 Time 待ち時間 ① ② ③ ④ △ CPU 使用効率 (並列化不向き) 同期箇所 ① ② ③ ④

並列処理の効率化 マルチシフト法 (Z.BAI and J.DEMMEL 1989) 待ち時間 PU 1 PU 2 △ CPU 使用効率 (並列化不向き) Time ( Step i-1 ) ( Step i ) 古いシフト 遅延シフト法 (R. A. Van De Geijn 1993) PU 1 PU 2 ・・・・ ・・・・ ○ CPU 使用効率 △ 収束性低下 ・・・・ Time ( Step i-2 ) ( Step i-1 ) ( Step i )

収束性の改善 遅延シフト法 (R. A. Van De Geijn 1993) 提案法 克服 PU 1 PU 2 ・・・・ ・・・・ ○ CPU 使用効率 △ 収束性低下 ・・・・ Time ( Step i-2 ) ( Step i-1 ) ( Step i ) シフト更新回数増大 (新しいシフト) 提案法 PU 1 PU 2 ・・・・ ( Step i-1 ) ・・・・ ( Step i ) ○ CPU 使用効率 ○(?) 収束性改善 ・・・・ Time ( Step i-2 ) 克服 △ シフト計算量増大

性能差理論解析

解析準備 実行時間のモデル化 マルチシフト法 遅延シフト法,提案法 行列サイズ,シフト数(= プロセッサ数) 計算機環境固有のパラメータ 平均反復回数(実測値) マルチシフト法 遅延シフト法,提案法 予備的な実験   相対誤差 = |予測時間 – 実測時間| / (実測時間)×100 4 種類の計算機環境,8 種類の問題で比較 モデル時間は実測時間とほぼ一致(相対誤差 10 % 程度)

性能差 = (従来法の実行時間) / (提案法の実行時間) 解析結果 性能差 = (従来法の実行時間) / (提案法の実行時間) マルチシフト法と比較 プロセッサ数増加に伴い,性能差増大 (提案法はより高速に成り得る) 遅延シフト法と比較 性能差は収束性にのみ依存 (計算機環境に依存しない) 名古屋大学 情報連携基盤センター (n = 200000) 性能差 プロセッサ数

数値実験

数値実験 評価項目 - 実験環境 - 名古屋大学情報連携基盤センター - C 言語 + OpenMP(共有メモリ型並列計算機に実装)  評価項目 -  実験環境 - 名古屋大学情報連携基盤センター 並列計算機 Fujitsu PRIMEPOWER HPC2500 (SPARC64V 2.0GHz ,Memory 512 GB) - C 言語 + OpenMP(共有メモリ型並列計算機に実装) - 収束判定条件 三重対角行列 マシンイプシロン

テスト問題 従来法と同程度 提案法が優勢 性能差 1 = (マルチシフト法の実行時間) / (提案法の実行時間) 性能差 2 = (遅延シフト法の実行時間) / (提案法の実行時間) 提案法が優勢 従来法と同程度

実験結果 ( RANDOM ) 従来法と同程度 1.05 倍 1 割減 提案法について 高速化率 : 遅延シフト法と同程度 反復回数 : 遅延シフト法と同程度 マルチシフト法 遅延シフト法 提案法

実験結果 ( PARSEC/CO ) 従来法と同程度 1.04 倍 1 割減 提案法について 高速化率 : 遅延シフト法と同程度 反復回数 : 遅延シフト法と同程度 マルチシフト法 遅延シフト法 提案法

実験結果 ( SINH-UPPER ) 提案法が優勢 1.24 倍 2 割減 提案法について 高速化率 : 遅延シフト法の 1.2 倍 反復回数 : 遅延シフト法の 2 割減 マルチシフト法 遅延シフト法 提案法

実験結果 ( TRIDIAG(-1,2,-1) ) 提案法が優勢 1.66 倍 3 割減 提案法について 高速化率 : 遅延シフト法の 1.7 倍 反復回数 : 遅延シフト法の 3 割減 マルチシフト法 遅延シフト法 提案法

まとめ 本研究では QR 法の並列化を行った. 従来法に対して  従来法に対して マルチシフト法に比べて,多くのプロセッサを用いるほど,提案法はより高速となった.(並列処理の効率化) 遅延シフト法に比べて,提案法は良い収束性を示した. そのため,遅延シフト法の性能を上回った. 提案法は並列計算機向けの 有力な固有値解法となる可能性がある. 今後の課題  収束性の理論解析  分散型への実装