AllReduce アルゴリズムによる QR 分解の精度について

Slides:



Advertisements
Similar presentations
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Advertisements

大規模な三角 Toeplitz 線形方 程式の高速解法とその応用 ○ 安村 修一(法政大学 4 年) 李 磊(法政大学) 日本応用数理学会「行列・固有値の解法とその応用」研究部会 第6回研究会.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
Level-3 BLASに基づく特異値分解 アルゴリズムのSMP上での性能
MPIを用いたグラフの並列計算 情報論理工学研究室 藤本 涼一.
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
※ 対称密行列の固有値分解は特異値分解と共通点が多い
Intel AVX命令を用いた並列FFTの実現と評価
Fill-in LevelつきIC分解による 前処理について
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
全体ミーティング (4/25) 村田雅之.
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
局所探索に基づく 原子炉燃料装荷パターンの最適化
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
理学部情報科学科 金田研究室 指導教官 金田 康正 工藤 誠
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
応用数理工学特論 第5回 計算理工学専攻 張研究室 山本有作.
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
正方行列向け特異値分解の CUDAによる高速化
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
非対称行列向けマルチシフトQR法の 性能予測方式
応用数理工学特論 第6回 計算理工学専攻 張研究室 山本有作.
Level-3 BLASに基づく二重対角化 アルゴリズムとその性能評価
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
リモートホストの異常を検知するための GPUとの直接通信機構
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
仮想メモリを用いた VMマイグレーションの高速化
「R入門」  5.7 行列に対する諸機能  10月23日 (木) 発表者 大城亜里沙.
独立成分分析 (ICA:Independent Component Analysis )
トーリックイデアルの グレブナ基底を求める アルゴリズム – F4およびF5 –
知能システム論I(13) 行列の演算と応用(Matrix) 2008.7.8.
通信機構合わせた最適化をおこなう並列化ンパイラ
導電性高分子材料の電子状態計算に現れる連立一次方程式に対する 並列直接解法の高性能化
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
バイトコードを単位とするJavaスライスシステムの試作
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
目的:高速QR分解ルーチンのGPUクラスタ実装
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
秘匿リストマッチングプロトコルとその応用
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
メモリ使用量の少ないGCR法の提案 東京大学理学部情報科学科 工藤 誠 東京大学情報基盤センター 黒田 久泰
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
BSPモデルを用いた 並列計算の有用性の検証
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
密行列固有値解法の最近の発展 (I) - Multiple Relatively Robust Representation アルゴリズム - 2004年11月26日 名古屋大学 計算理工学専攻 山本有作 日立製作所の山本有作です。 「~」について発表いたします。
キャッシュマシン向け三重対角化 アルゴリズムの性能予測方式
長方行列向け特異値分解の 浮動小数点コプロセッサによる 高速化
密行列固有値解法の最近の発展(II) ー マルチシフトQR法 ー
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
応用数理工学特論 線形計算と ハイパフォーマンスコンピューティング
分散メモリ型並列計算機上での行列演算の並列化
応用数学 計算理工学専攻 張研究室 山本有作.
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
Presentation transcript:

AllReduce アルゴリズムによる QR 分解の精度について 山本有作 森大介 張紹良 名古屋大学 大学院工学研究科 計算理工学専攻 張研究室 行列・固有値の解法とその応用 第6回研究会 2008/11/26

目次 QR分解 QR分解の並列化アルゴリズム 精度に関する数値実験 理論的誤差解析 まとめと今後の課題 従来のハウスホルダー変換 AllReduceアルゴリズム 精度に関する数値実験 理論的誤差解析 まとめと今後の課題

Q A = R QR分解 応用例 行列 A ∈Rm×n を Q ∈Rm×n と R ∈Rn×n に分解する 最小二乗問題 特異値分解の前処理 二重対角化・三重対角化のブロック化アルゴリズム 電子状態計算 m≫n 大規模問題に対する高速かつ高精度な手法が必要

QR分解 グラムシュミットの直交化法 ハウスホルダーQR分解 並列化に向く(古典的グラムシュミット法) 計算が逐次的 得られるQ の直交性が良い

A A A = QR (従来の)ハウスホルダー変換 QT R あるベクトル x を任意のベクトル y に変換する H1 作用 H2 H x A H1 作用 H2 作用 H1 作成 H2 作成 H x y (I: 単位行列) → u を正規化 A R QT ・・・ 各ステップの計算は逐次的なため 並列化(高速化)が困難 A = QR ・・・

並列化時に考えるべき点 tcomm ≪ tsetup 通信回数の少ないアルゴリズムが必要 以下,分散メモリ型の並列計算機を考える プロセッサ間の通信量 通信量が大きいと(計算以外の)コストが増加 通信回数 通信回数が多くても(計算以外の)コストが増加 (通信にかかる全時間) = (データ通信時間)+(立ち上げ時間) tcomm ≪ tsetup 通信回数の少ないアルゴリズムが必要 以下,分散メモリ型の並列計算機を考える

A 合計 2N 回 ハウスホルダー変換の並列化 (2並列) 行列を上下に二分割して 各プロセッサにデータを持たせる。 各ステップ 2回 n 行列を上下に二分割して 各プロセッサにデータを持たせる。 A H (I: 単位行列) → u を正規化 m I. u の生成(||x||2 の計算) 各ステップ 2回 communication II. H = I - 2uuT の作用 update 合計 2N 回 communication

AllReduceアルゴリズム*(Langou 2007) : それぞれ独立に計算可能 A A1 Q1 R1 R1 R2 QR分解はすべて ハウスホルダー変換で行う m/2×n の行列 2回 2n×n の行列 1回 m R A2 Q2 R2 communication m≫n 合計 1 回 A Q1 Q1 O Q このアルゴリズムは再帰的に利用可能 再帰段数が増えるにつれ,計算量は従来のハウスホルダー変換に比べて増加 R R O Q2 Q2 * TSQR(Tall and Skinny QR)アルゴリズムとも呼ばれる

比較 手法 従来の ハウスホルダー変換 AllReduce アルゴリズム 計算量 逐次計算 並列計算 通信回数 2N 1 通信量

計算量と計算時間(逐次計算) 計算量 k は再帰の段数 ハウスホルダー変換 CPU: Xeon 2.80GHz メモリ: 4GB 行列サイズ: 4000×100

本研究の目的 並列性能についてはすでに多くの検証がなされている (Demmel et al. 2008,村上 2008) 精度についてはまだ詳細な報告がない AllReduce アルゴリズムの精度を実験的・理論的に評価する 演算量の増加が精度にどのような影響を及ぼすか?

数値実験概要 精度の指標 実験項目 計算機環境 直交性 || QTQ - I ||F 残差 || A - QR ||F 従来のハウスホルダー変換と 2分割のAllReduceアルゴリズムの精度比較 行列サイズ(m, n)依存性 AllReduceの再帰段数を変えたときの精度比較 計算機環境 CPU Xeon 2.80GHz メモリ 4GB コンパイラ GNU C/C++ Compiler

数値実験1 乱数行列 A ∈Rm×n を Q ∈Rm×n と R∈Rn×n へ分解 従来のハウスホルダー変換 AllReduceアルゴリズム 再帰の段数は1で固定(2分割) 行列サイズ m n I 4000 100~500 II 1000~5000 100 ||A||_F 最大:1290ぐらい 最小:316ぐらい

実験結果I(n依存性,m=4000) Qの直交性 || QTQ - I ||F 残差評価 || A - QR ||F 従来のハウスホルダー変換: 青 AllReduceアルゴリズム: 赤 AllReduce アルゴリズムは,従来法よりむしろ精度が良い

実験結果II(m依存性,n=100) Qの直交性 || QTQ - I ||F 残差評価 || A - QR ||F 従来のハウスホルダー変換: 青 AllReduceアルゴリズム: 赤 AllReduce アルゴリズムは,従来法よりむしろ精度が良い

数値実験2 乱数行列 A ∈Rm×n を Q ∈Rm×n と R∈Rn×n へ分解 行列サイズ: 4000×100 従来のハウスホルダー変換 AllReduceアルゴリズム 再帰の段数は最大5 (32分割) 行列サイズ: 4000×100 ||A||_F 最大:1290ぐらい 最小:316ぐらい

実験結果(再帰段数依存性) Qの直交性 || QTQ - I ||F 残差評価 || A - QR ||F ハウスホルダー変換 ハウスホルダー変換 再帰段数を増やすことで,(この範囲では)精度が向上する

疑問点 AllReduceアルゴリズムでは,演算量が増加したにもか かわらず,精度がむしろ向上しているのはなぜか? +要因: 計算を小さい行列のQR分解に帰着させることで,       内積のベクトル長が減少 ー要因: 2段階のQR分解により,誤差の蓄積が増大 それぞれの影響を定量的に評価するため,理論的解析が必要

理論的誤差解析 目標 AllReduce型QR分解における後退誤差の評価 計算で得られる Q の直交性の評価 : 計算で得られた上三角行列   : 計算で得られた上三角行列   : 分解で使ったハウスホルダー変換を無限精度で蓄積した直交行列        を評価 計算で得られる Q の直交性の評価   :計算で得られた Q 考え方: 計算で得られたRに,計算途中で使ったハウスホルダー変換を無限精度でかけていったら,その結果がどれだけ元の行列に近くなるか。それを計るのがΔA。

AllReduceアルゴリズム(再掲) 解析に便利なように記法を変更 ここではまだ誤差のことは考えない 上付き添字は分解のステージを表す 下付き添字は行列の上半分/下半分を現す ここではまだ誤差のことは考えない n A1 Q1 (1) R1 (1) R1 R2 (1) Q(2) m A R A2 Q2 (1) (1) R2 (1) R(1)

後退誤差解析のための図式 Q(1) Q(1) Q(2) backward error exact exact computed

AllReduceアルゴリズム全体の後退誤差 各ステップでの後退誤差の式 後退誤差の評価 右辺の各項をそれぞれ評価する。 より, . AllReduceアルゴリズム全体での後退誤差

    の評価 (I) 第1ステージの2個のQR分解の後退誤差 これより, により       を定義すると, . .

の評価 (II) ハウスホルダー変換に対する誤差評価(Higham, 1996)より, ただし, ( :マシンイプシロン) これより, .   ただし,                ( :マシンイプシロン) これより, . .

     の評価 同様に,ハウスホルダー変換に対する誤差評価の結果より, 次の式が成り立つ。 (∵ Q(1)は正確な直交行列) (前ページの結果より)

AllReduceアルゴリズム全体の後退誤差      のとき,これは通常のハウスホルダーQR分解の後退 誤差       の半分程度の大きさとなる。   AllReduceアルゴリズムの高精度性に対する一つの説明

計算で得られる Q の直交性の評価 同様に,Q の直交性の誤差は次のように評価できる。      のとき,これは通常のハウスホルダーQR分解におけ る直交性の誤差      の半分程度の大きさとなる。

まとめと今後の課題 まとめ 今後の課題 ハウスホルダーQR分解のためのAllReduceアルゴリズムの精 度を実験的・理論的に評価した 理論的誤差解析により,これを支持する結果を得た 今後の課題 再帰的に適用した場合の理論的誤差解析 並列環境での性能評価 二重対角化・三重対角化アルゴリズムへの組み込みと精度 評価