密行列固有値解法の最近の発展 (I) －　Multiple Relatively Robust Representation アルゴリズム　－ 2004年11月26日名古屋大学　計算理工学専攻山本有作日立製作所の山本有作です。「～」について発表いたします。

Slides:

Advertisements

Similar presentations

大規模な三角 Toeplitz 線形方程式の高速解法とその応用 ○ 安村修一（法政大学 4 年）李磊（法政大学）日本応用数理学会「行列・固有値の解法とその応用」研究部会第６回研究会.

Advertisements

Level-3 BLASに基づく特異値分解アルゴリズムのSMP上での性能

到着時刻と燃料消費量を同時に最適化する船速・航路計画

データ解析

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

※ 対称密行列の固有値分解は特異値分解と共通点が多い

Fill-in LevelつきIC分解による前処理について

A Q R QR分解とは？ → × ◆QR分解 QTQ = I （単位行列） ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目

近似アルゴリズム第１０章終了時刻最小化スケジューリング

三重対角化アルゴリズムの性能評価早戸拓也・廣田悠輔.

確率･統計Ⅰ 第11回 i.i.d.の和と大数の法則ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

4.3　連立１次方程式　　Ax = b 　 (23) と書くことができる。

スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-

AllReduce アルゴリズムによる QR 分解の精度について

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

２. 共有メモリ型並列計算機での特異値分解の高速化

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

PCクラスタ上での連立一次方程式の解の精度保証

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

理学部情報科学科金田研究室指導教官金田康正工藤誠

非線形方程式の近似解 (2分法，はさみうち法，Newton-Raphson法)

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

最短路問題のための LMS(Levelwise Mesh Sparsification)

(ラプラス変換の復習) 教科書には相当する章はない

応用数理工学特論　第5回計算理工学専攻　張研究室山本有作.

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

正方行列向け特異値分解の CUDAによる高速化

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

文献名 “Performance Tuning of a CFD Code on the Earth Simulator”

高次元データの解析－平均ベクトルに関する検定統計量の漸近分布に対する共分散構造の影響－

非対称行列向けマルチシフトQR法の性能予測方式

応用数理工学特論　第6回計算理工学専攻　張研究室山本有作.

Level-3 BLASに基づく二重対角化アルゴリズムとその性能評価

第25章単一始点最短路 3節 Bellman-Fordのアルゴリズム

スペクトル法の一部の基礎の初歩へのはじめの一歩

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

6. ラプラス変換.

知能システム論Ｉ（１３）行列の演算と応用(Matrix) ２００８．７．８.

主成分分析 Principal Component Analysis PCA

導電性高分子材料の電子状態計算に現れる連立一次方程式に対する並列直接解法の高性能化

多変量解析～主成分分析～１．主成分解析とは２．適用例と解析の目的３．解析の流れ４．変数が２個の場合の主成分分析

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

パターン認識特論担当：和田俊和部屋 A513 主成分分析

資料線型変換のイメージ固有値、固有ベクトル平賀譲（２０９研究室）資料

4.　システムの安定性.

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

データ解析静岡大学工学部安藤和敏

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似

メモリ使用量の少ないGCR法の提案東京大学理学部情報科学科工藤誠東京大学情報基盤センター黒田久泰

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

半正定値計画問題（SDP)の工学的応用について

◎小堀智弘，菊池浩明(東海大学大学院) 寺田真敏(日立製作所)

MPIを用いた並列処理計算情報論理工学研究室金久英之

2008年6月5日非線形方程式の近似解 2分法，はさみうち法，Newton-Raphson法)

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

キャッシュマシン向け三重対角化アルゴリズムの性能予測方式

長方行列向け特異値分解の浮動小数点コプロセッサによる高速化

密行列固有値解法の最近の発展（II）ーマルチシフトQR法ー

目次はじめに収束性理論解析数値実験まとめ特異値計算のための dqds 法シフトによる収束の加速

応用数理工学特論線形計算とハイパフォーマンスコンピューティング

分散メモリ型並列計算機上での行列演算の並列化

共振を防ぐように設計を行ったり，振動を早く減衰させる設計を行う際，固有値と固有ベクトルを求めることが重要

東京工業大学情報理工学研究科小島政和第１回横幹連合コンファレンス 2005年11月25,26日 JA 長野県ビル

2008年 7月17日応用数理工学特論期末発表鈴木綾華,程飛

グラフの帯域幅連続多重彩色を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室西川和秀.

Presentation transcript:

密行列固有値解法の最近の発展 (I) －　Multiple Relatively Robust Representation アルゴリズム　－ 2004年11月26日名古屋大学　計算理工学専攻山本有作日立製作所の山本有作です。「～」について発表いたします。

目次１. はじめに２. Multiple Relatively Robust Representation アルゴリズム１.　はじめに２.　Multiple Relatively Robust Representation アルゴリズム３.　対称密行列の固有値計算への適用本発表では，はじめに，研究の背景を述べてから，スパースソルバの概要，並列化手法，そして本研究で工夫した点の一つであるRISCプロセッサ向けの最適化についてご説明します。最後に，並列計算機SR2201上での性能評価とまとめを述べます。

１. はじめに本報告で対象とする問題応用分野標準固有値問題 Au = λu A：実対称またはエルミートの n×n 密行列１.　はじめに本報告で対象とする問題標準固有値問題　Au = λu A：実対称またはエルミートの n×n 密行列全部または一部の固有値・固有ベクトルを求める。応用分野分子計算，統計計算，構造解析などここでは特に，Aが実対称またはエルミートの密行列の場合を考える。

固有値・固有ベクトル計算の流れ Q*AQ = T (Q: 直交行列) ｜T – λi I｜= 0 Tvi =λi vi ui = Qvi 計算内容 Q*AQ = T (Q: 直交行列) 三重対角化三重対角行列 T 二分法｜T – λi I｜= 0 Tの固有値 {λi }，逆反復法 Tvi =λi vi 密行列Aをまず三重対角行列Tに相似変換してからTの固有値・固有ベクトルを求めるのが最も一般的な計算法。三重対角化には，後に述べるハウスホルダー法を使う場合がほとんど。三重対角行列の固有値・固有ベクトルの計算には，色々なアルゴリズムがある。 Tの固有ベクトル{vi } 逆変換 ui = Qvi Aの固有ベクトル {ui }

逆反復法による固有ベクトル計算逆反復法の原理 vi (m) := ( T – λ’i I ) –1 vi (m – 1) λ’i : Tの固有値λi の近似値適当な初期ベクトル vi (0) から出発し，次の反復を行う。 vi に平行な成分が，１反復毎に (λi–λi’) –1 倍に拡大される。 vi (m) := ( T – λ’i I ) –1 vi (m – 1)

逆反復法の長所と短所長所短所一部の固有ベクトルのみの計算が可能固有値が十分に離れている場合，k 本の固有ベクトルを計算するための計算量は O(kn) 短所固有値が密集している場合，固有ベクトルの直交化が必要固有ベクトルを全部直交化する場合，計算量は O(k2n) に増加大規模問題（n > 1000）ではほとんど常にこの状況直交化が必要な場合，並列化が困難（不可能ではないが）　　直交化を行わずに高精度な固有ベクトルを求める方法ができれば，　　計算量と並列性の面で非常に有利

本報告の目的直交化を行わずに三重対角行列の高精度な固有ベクトルを計算する方法である Multiple Relatively Robust Representation アルゴリズム（MR3 アルゴリズム，Dhillon (1997)）について，概要を紹介する。対称密行列の固有値計算に MR3 アルゴリズムを適用する際の課題について考察する。

２. Multiple Relatively Robust Representation アルゴリズム基本的なアイディア固有値の相対ギャップが大きい場合固有値の相対ギャップが小さい場合はじめに，研究の背景として，有限要素法とスパースソルバの必要性についてご説明します。

基本的なアイディア固有ベクトルに関する sin theorem T を対称な三重対角行列，λ’を固有値の近似値，λをλ’にもっとも近い固有値とする。このとき，長さ１の任意のベクトル x に対して次の不等式が成り立つ。　　　　　　　sin|∠(x, v)| 　≦　|| Tx – xλ’|| / gap(λ) ここで，gap(λ) = |μ–λ|，μはλ以外で最もλ’に近い固有値。

基本的なアイディア（続き） sin theorem の利用いま，固有値の近似値λ’と固有ベクトルの近似ベクトル x が次の条件を満たすように求められたとする。このとき，sin theorem よりここで，relgap(λ) = gap(λ) / |λ|。　(*)式の成立を保証できれば，固有値の相対ギャップが大きい場合には直交化なしで自動的に精度の高い（したがって直交性も良い）固有ベクトルが求まる。 || Tx – xλ’||　=　O(ne) |λ’|　　　---　(*) sin|∠(x, v)| 　≦　|| Tx – xλ’|| / gap(λ) 　　　　 =　 O(ne) |λ’| / gap(λ) 　　　　～　O(ne) / relgap(λ)

基本的なアイディア（続き）従来のアルゴリズムの問題点新しいアルゴリズムの概要（相対ギャップが大きい場合）従来の二分法・逆反復法では，次の不等式しか成り立たない。小さい固有値に対しては，相対残差が大きくなる可能性がある。新しいアルゴリズムの概要（相対ギャップが大きい場合） (1) T +μI が正定値となるようにμを選び，T +μI = LDLT と改訂　　　コレスキー分解を行う。 (2) LDLTの固有値の近似値λ’を，相対誤差の意味で高精度に　　　計算する（dqds法などを利用）。 (3) twisted 分解を用いて，λ’に対する固有ベクトルを相対残差　　　が小さくなるよう高精度に計算する。 || Tx – xλ’||　=　O(ne) ||T||

固有値の相対ギャップが大きい場合なぜ分解 T +μI = LDLT が必要か計算した固有値λ’の誤差は，通常，後退誤差解析 + 摂動論により評価する。しかし，三重対角行列 T に対しては，dλが ||dT|| でしか押さえられない。相対誤差の意味で高精度とするには， dλを ||λdT||で押さえたい。後退誤差解析： λ’はあるdT に対して T+dT の厳密な固有値摂動論： T → T+dT のとき，固有値はdλだけずれる。 LDLT の形で表現された行列の固有値問題（すなわち LD1/2 の特異値問題）に対しては，dλを ||λd(LD1/2 )||で押さえることが可能（Kahan, 1967）　→　Relatively Robust Representation

LDLT の固有値の高精度計算特異値分解アルゴリズムの利用二重対角行列に対しては，その特異値を相対誤差の意味で高精度に計算するアルゴリズムが存在二分法の改良（Kahan, 1967） dqdsアルゴリズム（Fernando & Parlett, 1994）これを LD1/2 に適用することにより， LDLT の固有値λを相対誤差の意味で高精度に計算可能

固有ベクトルの高精度計算 Twisted分解逆反復法の良い初期ベクトルを求めるための手法近似固有値λ’に対し，LDLT –λ’I を各 k （1 ≦ k ≦ n）に対して次のように分解（計算にはdqds法を用いる）。このうち，γkが最小になるような k を求め，(LDLT –λ’I )x = γkek を（上式の右辺を用いて）解く。

|| (LDLT –λ’I ) x || / ||x|| ≦ n |λ–λ’ | ・M / (M – 1) 固有ベクトルの高精度計算（続き） Twisted分解（続き）このとき，得られた解ベクトル x は次の式を満たすことが示せる。（Dhillon, 1997）ただし，Mはある正の定数。 λ’が相対誤差の意味で高精度（ |λ–λ’ | = O(e) |λ’| ）ならば，　　|| Tx – xλ’||　=　O(ne) |λ’|　が言える。固有ベクトルの近似値 x は高精度。 || (LDLT –λ’I ) x || / ||x||　≦　n |λ–λ’ | ・M / (M – 1)

固有値の相対ギャップが小さい場合問題点行列のシフトの利用以上のアルゴリズムで言えるのは　 sin|∠(x, v)| ≦ O(ne) / relgap(λ)まで。 relgap(λ)が大きい場合は，固有ベクトルの高精度性が言えない。行列のシフトの利用 T の固有ベクトルと T –νI の固有ベクトルは共通。 ν～λと取れば，relgap(λ)は大きくできる。既約な三重対角行列に重複固有値は存在しない。上記の変形を行った上で，相対ギャップが大きい場合のアルゴリズムを適用。

固有値の相対ギャップが小さい場合（続き）課題１ T –νI は一般に正定値行列ではない。 LDLT分解は可能だが，それが Relatively Robust Representation である（固有値を相対誤差の意味で高精度で決定する）とは一般に言えない。 Dhillon (1997) では，「証明はできないが，数値実験の結果では，ほとんどの場合， R3 を与えるνがλの近くに存在」と主張。課題２異なる固有値に属する固有ベクトルの計算には，複数の R3 が必要（MR3）。これらの間の変形を高精度にできるか？この変形にも dqdsアルゴリズムを使うことを提案。

３. 対称密行列の固有値計算への適用 MR3アルゴリズムの性能 O(kn) の計算量高い並列性分散メモリ型並列計算機上で高い性能３.　対称密行列の固有値計算への適用 MR3アルゴリズムの性能 O(kn) の計算量高い並列性分散メモリ型並列計算機上で高い性能三重対角化と逆変換の時間が相対的に増大 Pentium 4クラスタ（16PU）上での性能（Dhillon, 2004）

三重対角化のための高速アルゴリズム Dongarra のアルゴリズム Bischof / Wu のアルゴリズムハウスホルダー法におけるrank-2更新を多段化 Level-3 BLAS で書けるのは全演算量の1/2のみキャッシュマシンではピークの10～25%の性能通信回数が多い（各ステップで通信） Bischof / Wu のアルゴリズム行列をいったん帯行列に変換し，村田法により三重対角化全演算量のほとんどを level-3 BLAS で実行可能通信回数が少ない（Dongarra のアルゴリズムの 1/L）半帯幅 L A B T 次数 N 約 (4/3)N3 O(N2L) 帯行列化村田法

各アルゴリズムの性能（Opteron, 1.6GHz） L=24, L’=4 L=48 Performance (GFLOPS) L’=32 Matrix size Wu の方法は Dongarra の方法に比べて約２倍の性能を達成 N = 3840 のとき，Wu の方法はピークの50%以上の性能を達成

Bischof / Wu のアルゴリズムでの固有ベクトル計算（従来の逆反復法，直交化が必要ない場合）計算法１三重対角行列に対して逆反復法を行い，得られる固有ベクトルに２段階の逆変換を行う。計算法２三重対角行列の固有値を用いて帯行列に対して逆反復法を行い，１段階の逆変換を行う。 T A B O(kn) {λi } {λi } 2kn2 2kn2 {ui } {wi } {vi } O(kn) T A B O(kn) O(kLn2L2) {λi } {λi } 2kn2 {ui } {wi } L2 ≪ n ならば計算法２のほうが高速

計算法２にMR3アルゴリズムを適用する際の問題点固有値の相対精度の問題 B → T → {λi } という経路で求めた固有値は，相対誤差の意味で B の高精度な固有値になっていない。 T の高精度な固有値には当然なっている。三重対角化アルゴリズム（村田法）の問題ではなく，三重対角行列への変形自体が相対精度を破壊すると思われる。 Twisted 分解による固有ベクトル計算アルゴリズム（の拡張）を適用するための前提が成り立たない。

解決策（案１）計算法１を用いる。（案２） MR3アルゴリズム全体を帯行列に拡張三重対角行列 T の固有値・固有ベクトルをMR3で計算固有ベクトルを２段階に逆変換（2kn2 + 2kn2）（案２） MR3アルゴリズム全体を帯行列に拡張 Twisted 分解，dqds法等を帯行列に対して拡張（可能か？） L2 ≪ n かつ k ～ n ならば，案１より高速になると予想される。帯行列に対して適用することで，dqds 法の収束性を三重対角行列の場合より向上できる可能性　→　更なる高速化