非対称行列向けマルチシフトQR法の性能予測方式

Slides:

Advertisements

Similar presentations

授業展開＃１２コンピュータの扱いにくい問題. 扱いにくい問題  処理時間がかかる。  メモリを大量に必要とする。  プログラムの優劣、アルゴリズムの優劣を比較するためには、標準的なコンピュータで比較する必要がある。  処理時間を計るのに、コンピュータのモデルとして、チューリングマシンを考え、

Advertisements

HBSP モデル上での行列積を求めるアルゴリム情報論理工学吉岡健太.

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

Level-3 BLASに基づく特異値分解アルゴリズムのSMP上での性能

データ解析

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

※ 対称密行列の固有値分解は特異値分解と共通点が多い

Intel AVX命令を用いた並列FFTの実現と評価

Fill-in LevelつきIC分解による前処理について

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上

一般化Bi-CGSTAB(s, L) (=一般化IDR(s, L))

A Q R QR分解とは？ → × ◆QR分解 QTQ = I （単位行列） ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目

近似アルゴリズム第１０章終了時刻最小化スケジューリング

三重対角化アルゴリズムの性能評価早戸拓也・廣田悠輔.

第11回整列～シェルソート，クイックソート～

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-

AllReduce アルゴリズムによる QR 分解の精度について

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

２. 共有メモリ型並列計算機での特異値分解の高速化

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

PCクラスタ上での連立一次方程式の解の精度保証

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

理学部情報科学科金田研究室指導教官金田康正工藤誠

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

応用数理工学特論　第5回計算理工学専攻　張研究室山本有作.

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

第11回整列～シェルソート，クイックソート～

正方行列向け特異値分解の CUDAによる高速化

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

スペクトル・時系列データの前処理方法～平滑化 (スムージング) と微分～

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

文献名 “Performance Tuning of a CFD Code on the Earth Simulator”

応用数理工学特論　第6回計算理工学専攻　張研究室山本有作.

高速剰余算アルゴリズムとそのハードウェア実装についての研究

Level-3 BLASに基づく二重対角化アルゴリズムとその性能評価

東京海洋大産学官連携研究員/技術コンサルタント高須知二 Tomoji TAKASU

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

第14章　モデルの結合修士２年山川佳洋.

「R入門」　　5.7　行列に対する諸機能　 10月23日　(木) 発表者　大城亜里沙.

トーリックイデアルのグレブナ基底を求めるアルゴリズム – F4およびF5 –

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

Data Clustering: A Review

パターン認識特論担当：和田俊和部屋 A513 主成分分析

部分的最小二乗回帰 Partial Least Squares Regression PLS

背景課題目的手法作業期待成果有限体積法による汎用CFDにおける流体構造連成解析ソルバーの計算効率の検証

第4章識別部の設計 4－5 識別部の最適化発表日：2003年5月16日発表者：時田陽一

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

Data Clustering: A Review

Data Clustering: A Review

高精細計算を実現するAMR法フレームワークの高度化研究背景と研究目的複数GPU間での袖領域の交換と効率化

原子核物理学第７講　殻模型.

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似

メモリ使用量の少ないGCR法の提案東京大学理学部情報科学科工藤誠東京大学情報基盤センター黒田久泰

制約付き非負行列因子分解を用いた音声特徴抽出の検討

MPIを用いた並列処理計算情報論理工学研究室金久英之

実験計画法 Design of Experiments (DoE)

Locally-Weighted Partial Least Squares LWPLS 局所PLS

密行列固有値解法の最近の発展 (I) －　Multiple Relatively Robust Representation アルゴリズム　－ 2004年11月26日名古屋大学　計算理工学専攻山本有作日立製作所の山本有作です。「～」について発表いたします。

キャッシュマシン向け三重対角化アルゴリズムの性能予測方式

長方行列向け特異値分解の浮動小数点コプロセッサによる高速化

密行列固有値解法の最近の発展（II）ーマルチシフトQR法ー

目次はじめに収束性理論解析数値実験まとめ特異値計算のための dqds 法シフトによる収束の加速

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

分散メモリ型並列計算機上での行列演算の並列化

2008年 7月17日応用数理工学特論期末発表鈴木綾華,程飛

Presentation transcript:

非対称行列向けマルチシフトQR法の性能予測方式名古屋大学　計算理工学専攻山本有作 2006年6月12日 HPC研究会日立製作所の山本有作です。「～」について発表いたします。

目次１. はじめに２. マルチシフトQR法３. 本研究の目的４. 性能予測手法５. 実験結果６. 関連研究１.　はじめに２.　マルチシフトQR法３.　本研究の目的４.　性能予測手法５.　実験結果６.　関連研究７.　まとめと今後の課題本発表では，はじめに，研究の背景を述べてから，スパースソルバの概要，並列化手法，そして本研究で工夫した点の一つであるRISCプロセッサ向けの最適化についてご説明します。最後に，並列計算機SR2201上での性能評価とまとめを述べます。

１. はじめに本研究で対象とする問題応用分野標準固有値問題 Ax = lx A ： n×n 非対称密行列 MHD 化学工学量子化学１.　はじめに本研究で対象とする問題標準固有値問題　Ax = lx A ： n×n 非対称密行列応用分野 MHD 化学工学量子化学流体力学 Cf. Bai and Demmel: A test matrix collection for non-Hermitian eigenvalue problems. ここでは特に，Aが実対称またはエルミートの密行列の場合を考える。

非対称行列の固有値計算の流れ密行列 A 計算内容計算手法 QTAQ = H (Q: 直交行列) ハウスホルダー法固有値の計算 QR法ヘッセンベルグ化ヘッセンベルグ行列 H 固有値の計算高い信頼性 QR法分割統治法 A の固有値 {li } 固有ベクトルの計算 Hui =li ui 密行列Aをまず三重対角行列Tに相似変換してからTの固有値・固有ベクトルを求めるのが最も一般的な計算法。三重対角化には，後に述べるハウスホルダー法を使う場合がほとんど。三重対角行列の固有値・固有ベクトルの計算には，色々なアルゴリズムがある。 Hの固有ﾍﾞｸﾄﾙ {ui } 逆変換 vi = Q ui 逆変換 Aの固有ベクトル {vi }

各部分の実行時間全固有値を求める場合の演算量ヘッセンベルグ化： (10/3) n3 QR法： 10n3 （経験値） Execution time (min) Origin2000 1PU （R12000，400MHz）上での実行時間 K. Braman et al: “The Multishift QR Algorithm I” より抜粋 Hessenberg 化の時間は推定値

QR法の特徴と高性能計算 QR法の特徴高性能計算の条件計算の逐次性（bulge-chasing 型演算）計算の並列性低いデータ再利用性高いデータ再利用性　　（キャッシュの有効利用）オリジナルのQR法のままでは高性能化が困難高性能計算の条件を満たす新しいアルゴリズムが必要マルチシフトQR法

ダブルシフトQR法原理陰的ダブルシフトQR法 Ak の右下の 2×2 行列の固有値 s1，s2 をシフトとして用い，QR法の2ステップを一度に実行 (Ak – s1 I)(Ak – s2 I) = Qk Rk Ak+2 = Qk–1Ak Qk 陰的ダブルシフトQR法 (Ak – s2I)(Ak – s1I) の第1列を e1の定数倍にするハウスホルダー変換H0 を求める Ak’ = H0tAk H0 　（バルジ導入）直交行列による相似変換を繰り返すことにより， Ak’ を再びヘッセンベルグ行列に変形する（バルジ追跡）これにより得られる行列を Ak+2 とする Ak H0 AkH0 バルジ Ak+2

陰的ダブルシフトQR法の演算パターンバルジ追跡における演算演算の特徴 3×3のハウスホルダー変換を左右からかけることにより，bulge を1つ右下に動かす演算の特徴並列粒度は O(n) 並列アルゴリズム：　R. Suda et al.（1999），G. Henry et al. (2002) QR法の1ステップで，各行列要素は3回のみ更新　　データ再利用性が低く，キャッシュの有効利用が困難左から Hl を乗算右から Hl を乗算 0にしたい要素更新される要素

２. マルチシフトQR法原理（Bai & Demmel, 1989）シフト数増加の効果 Ak の右下の m×m 行列の固有値 s1，s2 , … , sm をシフトとして用い，QR法の m ステップを一度に実行 (Ak – smI) ・・・ (Ak – s2I)(Ak – s1I) = Qk Rk Ak+m = Qk–1Ak Qk シフト数増加の効果並列粒度は O(m) 倍に増加行列の各要素に対する更新回数も O(m) 倍に増加データ再利用性の向上により，キャッシュの有効利用が可能　　（WY representation を用いた BLAS3化）

マルチシフトQR法におけるバルジ追跡方式１：大きなバルジ1個を追跡（Bai & Demmel, 1989）シフト s1, s2, …, sm を含む (m+1)×(m+1) のバルジを導入 (m+1)×(m+1) のハウスホルダー変換を用いてこれを追跡方式２：小さなバルジ複数個を追跡（Braman et al., 2003）シフトを2つずつ組にし， 3×3 の小さなバルジ m/2 個を導入ダブルシフトQR法と同様にして，これらを追跡バルジ同士は3行離れていれば，干渉なしに計算が可能密に詰めることで，データ参照の局所性を向上得られる行列は，無限精度演算では方式１と同じ m = 6 の場合

K. Braman et al.: “The Multishift QR Algorithm I” (2002) より引用方式１と方式２の収束性比較シフトの数と総演算量との関係 DHSEQR：方式１（LAPACK） TTQR：方式２ K. Braman et al.: “The Multishift QR Algorithm I” (2002) より引用有限精度演算では，方式２が有利（Cf. Watkins による理論的解析）以下では方式２について考える

レベル3 BLAS の利用更新処理の分割 r の決め方 m/2 個のバルジをそれぞれ r 行追跡する際，まず対角ブロックのみを更新　まず対角ブロックのみを更新非対角ブロックは，更新に使ったハウスホルダー変換を1個の行列に蓄積し，後でまとめて更新　　非対角ブロックの更新でレベル3 BLAS が使用可能 r の決め方演算量の点から，r ～ 3m とするのが最適このとき，演算量は方式１の約2倍　　（非ゼロ構造を利用した場合）バルジ（3×3）最初に更新まとめてBLAS3で更新蓄積されたハウスホルダー変換の非ゼロ構造

３. 本研究の目的シフト数 m の最適化 r （1回のバルジ追跡行数）の最適化 m，r に対する自動チューニングの必要性３.　本研究の目的シフト数 m の最適化 m を大きくすると，BLAS3 部分の性能は向上しかし，シフトの計算量は増加（O(m3)）最適な m の値は計算機と問題サイズに依存 r （1回のバルジ追跡行数）の最適化演算量最小化のためには r ～ 3m が最適 BLAS3 の実行時間は必ずしも演算量に比例しないため，実行時間の最適値はこれとは異なる　　　　m，r に対する自動チューニングの必要性 n m の最適値 1000～1999 60 2000～2499 116 2500～3999 150 4000～ 180 実験的に求めた m の最適値（Origin2000上，Braman et al. より引用）本発表では，性能予測モデルに基づくシフト数 m の自動最適化について報告する

４. 性能予測手法階層的な性能モデリング（Cuenca et al., 2004）反復回数の推定４.　性能予測手法階層的な性能モデリング（Cuenca et al., 2004）マルチシフトQR法のアルゴリズムは，レベル3 BLAS，シフト計算のためのQR法など，数種類の基本演算ルーチンから構成される各ルーチンの性能を精度良くモデル化できれば，その積み上げによりアルゴリズム全体の性能も精度良くモデル化できるはず反復回数の推定 QR法は反復法のため，実行時間予測には反復回数の推定が必要固有値１個当たり，平均4反復で収束すると仮定

マルチシフトQR法を構成する基本演算ルーチン 8種の基本演算ルーチン HQR：　シフト計算のためのQR法 BCHASE1：　m/2個のバルジの導入 BCHASE2：　対角ブロック内でのバルジ追跡 BCHASE3：　バルジの追い出し DGEMM(‘N’, ‘N’)：　非対角行ブロックの更新 DGEMM(‘N’, ‘T’)：　非対角列ブロックの更新 COPY1：　コピー (1) COPY2：　コピー (2) バルジ（3×3）最初に更新まとめてBLAS3で更新

基本演算ルーチンの性能モデリング DGEMM（’N’,’N’）の場合 fDGEMM_NNの構成方法機能：　C := aC + bAB の計算　（A: m×k， B: k×n， C: m×n）実行時間の予測関数：　fDGEMM_NN(m, n, k) fDGEMM_NNの構成方法 m, n, k の全範囲で f を１つの多項式で近似すると，誤差が大きい n の代表的な値に対し，f を m, k の多項式により近似多項式としては， m, k の双一次式を用いる係数 a00n ，a01n ，a10n ，a11n は実測データから最小二乗法で決定代表値以外の n に対する値は，一次補間により計算 fDGEMM_NN (m, n, k) = fDGEMM_NNn (m, k) 　　　　　　　　　　　 = (a11n m + a10n) k + (a01n m + a00n)

基本ルーチンの性能モデリング（続き） DGEMM（’N’,’T’） BCHASE2，COPY1，COPY2 ‘N’,’N’の場合と同様にして実行時間の予測関数を構成 BCHASE2，COPY1，COPY2 サイズを決めるパラメータは m, r の2つ r の代表的な値に対し，実行時間を m の多項式として近似 BCHASE1，BCHASE3，HQR サイズを決めるパラメータは m のみ実行時間を m の多項式（3次式）として近似

マルチシフトQR法全体の性能モデリング基本的な考え方本方式のメリット基本演算の各ルーチンと同じ引数を持ち，演算を行う代わりに実行時間の予測値のみを計算して返すルーチンを作成マルチシフトQR法中の基本演算ルーチンをこれらのルーチンで置き換えることにより，帯行列化の実行時間を予測するプログラムを作成本方式のメリット複雑な解析的モデルの構築が不要予測に必要な時間は O(N2/m2) 計算プログラム予測プログラム DO K=1, N/L CALL HQR(m,L,...) CALL BCHASE1(m,n,...) CALL BCHASE2(m,n,k,...) CALL DGEMM(m,n,k,...) CALL BCHASE3(m, k,...) END DO DO K=1, N/L T1=T1+HQR_TIME(m,L,...) T1=T1+BCHASE1_TIME(m,n,...) T1=T1+BCHASE2_TIME(m,n,k,...) T1=T1+DGEMM_TIME(m,n,k,...) T1=T1+BCHASE3_TIME(m, k,...) END DO

５. 実験結果評価環境評価例題 Power PC G5（2.0GHz） 2way，IBM XL Fortran，GOTO BLAS ５.　実験結果評価環境 Power PC G5（2.0GHz） 2way，IBM XL Fortran，GOTO BLAS Opteron（1.6GHz） 4way，g77，GOTO BLAS 評価例題 N=1000 ～ 8000 の行列の固有値計算 m = 30，60，90，120 の４通りのシフト数入力行列は， [0,1] の乱数行列をハウスホルダー法でヘッセンベルグ化して使用

PowerPC G5上での予測結果（1CPU） m を変えたときの相対実行時間（最小値を1に規格化）モデルは m を変えたときの相対実行時間の変化を定性的に再現　　　→　シフト数の自動最適化に使える可能性ありただし，絶対時間では20～40%の誤差相対実行時間相対実行時間予測結果実測結果

PowerPC G5上での予測結果（1CPU，続き） m を変えたときの相対実行時間（実測時間の最小値を1に規格化）予測時間は，N が小さいとき過大評価，大きいとき過小評価相対実行時間相対実行時間予測結果実測結果

PowerPC G5上での予測結果（2CPU） m を変えたときの相対実行時間（最小値を1に規格化）モデルは m を変えたときの相対実行時間の変化を定性的に再現絶対時間の誤差は1CPUの場合と同程度相対実行時間相対実行時間予測結果実測結果

Opteron 上での予測結果（4CPU） m を変えたときの相対実行時間（最小値を1に規格化）絶対時間の誤差は PowerPC G5 の場合と同程度相対実行時間相対実行時間予測結果実測結果

検討すべき課題誤差の原因の究明 N による誤差の系統的な変化その他の系統誤差基本演算ルーチンごとの誤差の調査など，より詳細な解析が必要平均反復回数の違いが影響している可能性あり基本演算ルーチンのモデルの誤差その他の系統誤差基本演算ルーチンごとの誤差の調査など，より詳細な解析が必要

６. 関連研究三重対角化プログラムの自動チューニング（Katagiri et al., 2000）６.　関連研究三重対角化プログラムの自動チューニング（Katagiri et al., 2000）分散メモリ向けの三重対角化プログラムにおいて，ループ展開の段数，通信関数の種類などのパラメータを自動的に最適化する方式パラメータを変化させてプログラム全体を何回も実行することにより最適値を求めるため，最適化に時間がかかるという問題点がある階層的な性能モデリング（Cuenca et al., 2004，Dackland et al., 1996）線形計算プログラムの自然な階層構造を利用して，下位のルーチン（BLASなど）の性能モデルをまず構築し，それを用いて順次上位のルーチンの性能モデルを構築していく方式本研究のモデルもこの考え方に基づくただし，従来の適用例は，LU分解やQR分解などの基本的分解，およびヤコビ法などの単純なアルゴリズムに限られている

７. まとめと今後の課題まとめ今後の課題マルチシフトQR法に対し，階層的なモデリング手法を用いて実行時間を予測するモデルを開発した７.　まとめと今後の課題まとめマルチシフトQR法に対し，階層的なモデリング手法を用いて実行時間を予測するモデルを開発した 1000元から8000元の行列による評価では，モデルはシフト数を変えたときの相対実行時間の変化を定性的に再現できたしかし，絶対時間では誤差が大きく，原因の究明が必要今後の課題誤差の原因解明とモデルの精密化基本演算ルーチンの性能モデリングの自動化自動チューニング型ライブラリへの展開

共有メモリ向けの並列化手法 Level-3 BLAS 内部での並列化より効率的な並列化非対角ブロックの更新において，次の対角ブロックの更新に必要な部分のみを先に更新　　並列化困難な対角ブロックの更新を，非対角ブロックの更新と並列に実行可能次の対角ブロックの更新で必要 Bulge（3×3）最初に更新まとめてBLAS3で更新