実行時の情報を用いてプロセッサ間の通信を最適化するコンパイラ

Slides:

Advertisements

Similar presentations

HBSP モデル上での行列積を求めるアルゴリム情報論理工学吉岡健太.

Advertisements

シーケンス図の生成のための実行履歴圧縮手法

MPIを用いたグラフの並列計算情報論理工学研究室藤本　涼一.

第3回並列計算機のアーキテクチャと並列処理の実際

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

The Perl Conference Japan ’98 朝日奈アンテナによるコンテンツ情報の取得と利用

クラスタの構成技術とクラスタによる並列処理

Chapter11-4(前半) 加藤健.

最新ファイルの提供を保証する代理FTPサーバの開発

計算機システムⅡ 主記憶装置とALU，レジスタの制御

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

神奈川大学大学院工学研究科電気電子情報工学専攻

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

①データ構造 ②アルゴリズム ③プログラム言語 ④マークアップ言語

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

変更文の移動を可能にした静的単一代入形式上の部分冗長性除去

アスペクト指向プログラミングを用いたIDSオフロード

Flyingware : バイトコード変換による安全なエージェントの実行

Java ソフトウェア部品検索システム SPARS-J のためのリポジトリ自動更新機能の実現

サーバ負荷分散におけるOpenFlowを用いた省電力法

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

京都大学大学院医学研究科画像応用治療学・放射線腫瘍学石原佳知

プログラム実行履歴を用いたトランザクションファンクション抽出手法

Occam言語によるマルチプリエンプティブシステムの実装と検証

型付きアセンブリ言語を用いた安全なカーネル拡張

OpenMPハードウェア動作合成システムの検証(Ⅰ)

MPIを用いた並列処理～GAによるTSPの解法～

高速剰余算アルゴリズムとそのハードウェア実装についての研究

MPIを用いた最適な分散処理情報論理工学研究室角仁志

細かい粒度でコードの再利用を可能とするメソッド内メソッドとその効率の良い実装方法の提案

並列計算システム特論演習 SCS特別講義平成13年10月15日.

最適化の方法中田育男著コンパイラの構成と最適化朝倉書店, 1999年第１１章.

オブジェクト指向プログラムにおけるエイリアス解析手法の提案と実現

VM専用仮想メモリとの連携による VMマイグレーションの高速化

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

実行時情報に基づく OSカーネルのコンフィグ最小化

仮想メモリを用いた VMマイグレーションの高速化

レジスタの割付け中田育男著コンパイラの構成と最適化朝倉書店, 1999年第１２章５節.

通信機構合わせた最適化をおこなう並列化ンパイラ

プログラミング基礎ａ第１回ハードウェアとソフトウェアプログラミング総論～プログラミング言語とは～

動的データ依存関係解析を用いた Javaプログラムスライス手法

実行時情報を用いて通信を最適化するPCクラスタ上の並列化コンパイラ

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

バイトコードを単位とするJavaスライスシステムの試作

VMが利用可能なCPU数の変化に対応した並列アプリケーション実行の最適化

岩澤全規理化学研究所計算科学研究機構粒子系シミュレータ研究チーム 2015年7月22日 AICS/FOCUS共催 FDPS講習会

JAVAバイトコードにおけるデータ依存解析手法の提案と実装

第5回メモリ管理（２）オーバレイ方式論理アドレスとプログラムの再配置静的再配置と動的再配置仮想記憶とメモリ階層セグメンテーション

坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電気工学科

Ibaraki Univ. Dept of Electrical & Electronic Eng.

「マイグレーションを支援する分散集合オブジェクト」

マイグレーションを支援する分散集合オブジェクト

実行時の情報を用いて通信を最適化するコンパイラ

同期処理のモジュール化を可能にするアスペクト指向言語

ガイダンス電子計算機電気工学科　山本昌志 1E

「マイグレーションを支援する分散集合オブジェクト」

アルゴリズムとデータ構造1 2009年6月15日

理工学部情報学科情報論理工学研究室延山周平

MPIを用いた並列処理計算情報論理工学研究室金久英之

アルゴリズム入門 (Ver /10/07) ・フローチャートとプログラムの基本構造・リスト・合計の計算

エイリアス関係を考慮した Javaプログラム用静的スライシングツール

プログラムの一時停止時に将来の実行情報を提供するデバッガ

IPmigrate：複数ホストに分割されたVMのマイグレーション手法

アルゴリズムとデータ構造 2010年6月17日

BSPモデルを用いた最小スパニング木情報論理工学研究室０２－１－４７－１３４小林洋亮.

MPIを用いた並列処理情報論理工学研究室 06‐1‐037‐0246　杉所　拓也.

オブジェクト指向言語におけるセキュリティ解析アルゴリズムの提案と実現

並列処理プロセッサへの実数演算機構の開発

オブジェクト指向言語論第六回知能情報学部新田直也.

Presentation transcript:

実行時の情報を用いてプロセッサ間の通信を最適化するコンパイラ工学研究科電子・情報工学専攻 995643 横田大輔間が大事考える時間を！！！与える緩急むしろ一瞬とまれ（笑い待ち）

目次計算物理の高速化とその困難さ本研究が目指すコンパイラ従来の高速化手法本研究で実装したコンパイラ実験・結果まとめしゃべり＋小まとめ＋次のお話少ない言葉のスライド（切れ目）

計算物理の高速化とその困難さ

計算物理のシミュレーションはなぜ高速化が必要か実行時間が長い数日～数週間維持費が高価日立SR2201:月500万円／月 116円/分≒日本⇔カナダの国際電話計算物理の高速化とその困難さ

高速化を妨げる原因プログラマ計算機の専門家でない最適化をしない記述が容易な通信パッケージが使われる記述が容易な言語が使われるハードウェア一般的な定石記述が容易な通信パッケージが使われる MPI, PVM 記述が容易な言語が使われる HPF 計算物理の高速化とその困難さ

MPI, PVM, HPF 単純なインターフェース習得や記述が容易可搬性がよいハードウェア独自の特徴を生かしにくいハードウェアの特徴を隠蔽している可搬性／容易な習得／容易な記述計算物理の高速化とその困難さ

本研究が目指すコンパイラ

本研究の目標実行時の情報を用いた最適化コンパイラ通信を最適化する簡単な言語で記述可能従来手法ではオーバーヘッドがあった。これを回避パラメータの参照実行時の書き換えコード生成時に実行時の情報を利用通信を最適化する並列計算のボトルネック分散メモリ簡単な言語で記述可能ユーザが計算機の専門家ではない本研究が目指すコンパイラ

実行時の情報をコンパイル時に利用実行時の情報でコードを最適化本研究が目指すコンパイラ INNER,OUTERの具体例プロファイラでたとえ話本研究が目指すコンパイラ

本研究が対象にするプログラム典型的な計算物理のプログラムの構造核になる計算を莫大な回数繰り返す核になる計算が行う通信は変らない同じ処理くり返しでシミュレーション時間を表現プログラムのイメージを！！具体例？空間分割:INNER 時分割：OUTER OUTERループ INNERループ最適化のための解析をするべき個所が決まってる本研究が目指すコンパイラ

シミュレーションプログラムの例空間でのエネルギーの変化 O U T E R ループ現在の情報を元に 1 ( s e c ) 後を求めるために 1 ( n s e c ) 後の状態を 1, , , 回繰り返し計算する I N N E R ループ 3 次の配列変数の値を更新するための 3 重ループ D O I = 1 , . . . D O J = 1 , . . . D O K = 1 , . . . 本研究が目指すコンパイラ

従来の高速化手法

これまでに行われてきた並列計算の高速化ソフトウェアの最適化ハードウェアの開発静的な解析実行時の情報を利用目的の計算に特化典型的な処理で効果を発揮する機能の追加従来の高速化手法

実行時の情報で最適化ランタイムで調整コードを生成サポートツール最適なパラメータを実行時に探す実行時の情報でコードを再生成／書き換え従来の高速化手法

在来の手法で何ができないか除去できないオーバーヘッドが存在実行時情報を用いた場合に発生ランタイムでパラメータの調整実行時書き換えパラメータの参照パラメータの設定実行時書き換え自分自身を観測コードの書き換え従来の高速化手法

実行時の情報による最適化本研究通信通信以外ランタイムで動作を調整コンパイラで動作が調整されたコードを生成プロファイラ J. Wu95 C. Ding99 M. Voss99 P. Diniz97 R. Das93 S. Fink96 K.Tomako94 G. Viswanathan97 S.Sharma94 S.Leung93 N.Mitchell99 窪田99 M.Philipssen98 従来の高速化手法

ランタイムで調整ループのtiling, serializing [Voss99] 同期の最適化 [Diniz97] メッセージの融合 [Wu95] マイグレーション、通信の隠蔽 [Viswanthan96] マイグレーション、キャッシュ [Das93][Ding99] 従来の高速化手法

コードを生成オブジェクトを再配置[Philipssen98] Java 通信を減らす型と要素の数で発生する通信量を推測型が静的に決まらない可能性がある従来の高速化手法

サポートツールループのmining, unrolling (TEA)[佐藤98] データの分割、スケジューリング、キャッシュ[Ponnusamy93] データとループの繰り返しの最適なマッピング(間接参照の不規則ループ)[Hwang95] ループのmining, unrolling (ATLAS) [Whaley01] 従来の高速化手法

ハードウェアの開発(専用機) 目的の計算に特化 QCDPAX[筑波大] GRAPE[東大] 素粒子物理: QCD ( Quantum Chromodynamics ) に特化 GRAPE[東大] 天文: n 体問題を解くことに特化従来の高速化手法

ハードウェアの開発(汎用機) 典型的な処理で効果を発揮する機能の追加 CP-PACS / Pilot-3のRDMA(Remote DMA) ブロックストライド通信 TCW(Transfer Control Word)の再利用片側通信日立SR8000のRDMA+FMPL [建部01]インターフェース TCWの再利用従来の高速化手法

ブロックストライド通信 ※ 多次元の配列の端を転送する場合に多発従来の高速化手法

TCWの再利用通信の設定時間を減らす設定 do I=1,… end do do I=1,… end do 設定送信送信通常の通信従来の高速化手法

片側通信明示的な受信命令が必要ない受信側のメモリに直接書き込み受信命令は同期用メモリコピーによるオーバーヘッドが少ないプログラマは余計な到着確認を減らすことが可能受信側のメモリに直接書き込みメモリコピーによるオーバーヘッドが少ない従来の高速化手法

本研究で実装したコンパイラ

私が実装した並列化コンパイラ通信を最適化最適化されたコードを生成容易なプログラミング実行時の情報を用いる RDMA (CP-PACS/Pilot-3) 最適化されたコードを生成容易なプログラミング Fortran77+HPF (High Performance Fortran) いくつかのHPF命令+独自の命令をひとつ実行時の情報を用いるソースの性質を利用インスペクタ-エグゼキュータを利用ここから自分実装したコンパイラ

インスペクタ-エグゼキュータ実行時の情報を用いた並列化手法ループがターゲット実行時にパラメータを調整先にプログラムの一部を実行して通信が必要になる個所を把握(インスペクタ) 把握された情報を元に通信を行いながら実際に目的の計算を実行(エグゼキュータ) インスペクタエグゼキュータ普通図本方式の流れ簡略版図実装したコンパイラ

インスペクタエグゼキュータとその利用インスペクタエグゼキュータ方式本方式インスペクタ解析専用ルーチンログ計算専用生成計算専用利用エグゼキュータ本方式 INNER,OUTERの具体例プロファイラでたとえ話実装したコンパイラ

本方式がコンパイル時に実行時情報を得る手法 OUTERループを一度だけ回って解析独自の命令でプログラマが指示核になる計算が行う通信は変らないプログラマが保証通信が必要になるデータのアドレス、時間、ソースコード上の位置を記録分散配置される配列変数のアクセスを監視ループの制御変数の値を記録実装したコンパイラ

実装した二つのコンパイラコンパイル時にソースプログラムの一部を実行 1台のPCでコンパイル (IPSJ2001) 目的の計算のプロセッサ1台分を実行する他のプロセッサも同じ動作をすると仮定手軽 PCクラスタでコンパイル (IASTED2002) 目的の計算の全プロセッサ分を実行並列計算機のプロセッサと1対1に対応汎用性重視実装したコンパイラ

解析方法(本方式の流れ:1台のPC版) ソースプログラムソースの一部を実行 SPMDプログラム予備コンパイル予備実行テーブル解析コード生成ソースの一部を実行 SPMDプログラム実装したコンパイラ

解析方法(本方式の流れ:PCクラスタ版) ソースプログラムコード融合予備コンパイル予備実行テーブル解析コード生成〃〃〃データの交換 SPMDプログラム実装したコンパイラ

行った最適化通信量の削減(PCクラスタ版のみ) 通信回数の削減定数の畳み込み TCWの再利用通信が少なくなるようにループを分割 INDEPENDENTと実行時情報を利用通信回数の削減通信回数が少なくなるようにブロックストライドを利用定数の畳み込み実行時の情報を定数として利用 TCWの再利用実装したコンパイラ

INDEPENDENT(HPF) プログラマがコンパイラに与えるヒント(HPF) ループの実行が計算結果に影響を与えない並列化の目印実装したコンパイラ

通信量の削減(1/4) データの分割ループの各反復を最適なプロセッサへ分配プログラマが指定(HPFディレクティブ) 受け持つと通信量(バイト)が最小になるプロセッサが受け持つ(実行時の情報) 不連続可能 PE1 PE2 PE3 … ループどのプロセッサがこの繰り返しを受け持てば一番通信が少なくて済むだろうか？実装したコンパイラ

通信量の削減(2/4) 繰り返しの若い順にプロセッサに分配する通信量が一番小さくなるプロセッサに配る一つ前の繰り返しを処理するプロセッサに配る受け持ちの繰り返しの量が少ないプロセッサに配る条件を満たす中で最小のIDをもつプロセッサに配る実装したコンパイラ

通信量の削減(3/4) INDEPENDENTループが多重な場合分配して最も通信量の合計が少なくなる分け方ができたループを並列処理する DO1 DO2 ■ END DO 並列DO1 DO2 ■ END DO DO1 並列DO2 ■ END DO 通信が少ないコードを採用実装したコンパイラ

通信量の削減(4/4) 実装したコンパイラ

通信回数の削減(1/3) 同時に送ることが可能なデータを探す(融合) ブロックストライドで表現する(切出し) ハードウェアの制限を考慮しない 1で求めた同時に送ることが可能なデータの集合を、ハードウェアの制限に合わせる複数のブロックストライドが必要になるパターンマッチング

通信回数の削減(2/3) (融合) INDEPENDENT (HPF)を利用する INDEPENDENTの範囲で通信を動かす同時に実行できる通信を融合実装したコンパイラ

通信回数の削減(3/3) (切出し) 実装したコンパイラ

定数の畳み込み(1/2) 必要になる通信を直接コードに書き込む大量の通信命令が生成される可能性がある実行時の情報によって得られた通信ループ制御変数でまとめる制御変数と定数で表現された一次式実装したコンパイラ

定数の畳み込み(2/2) ループのインデックスが小さい側に連続する二つの通信を探す。この二つの通信のパラメータを表す式を求める。さらに連続する通信があれば、パラメータがこの式に乗ることを確かめる。 2を繰り返す。実装したコンパイラ

TCWの再利用 TCWを再利用できるときは再利用する通信のパラメータが定数設定 do I=1,… end do do I=1,… 送信送信通常の通信 TCW再利用型通信実装したコンパイラ

SPMDへ融合(クラスタのみ) 複数のプログラムを１本に融合しなければならない命令単位で融合コード生成はクラスタノード単純にIF文+PIDで接続しないコードサイズの爆発防止実装したコンパイラ

SPMDへ融合(2/4) 命令単位で融合可能命令単位で融合不可能 X=X+9 X=X+1+PID*8 IF(PID.EQ.0)THEN CALL F(P) PID=1 IF(PID.EQ.0)THEN ELSE END IF 実装したコンパイラ

SPMDへ融合(3/4) ソースプログラムの行番号をマーカーに使う並列化の際に追加された行は空のマーカーをつける複数のコードを頭からマッチングしていく同じ行番号がそろえば融合を試みる同じ行番号がそろわない、または空のマーカーが含まれる場合はIF文で結合、ずらして試行錯誤実装したコンパイラ

SPMDへ融合(4/4) PID 1 X+4 X+8 Φ1(PID) Φ2(PID) 結合用の関数φnで結合 1 Φ1(PID) Φ2(PID) 結合用の関数φnで結合 (X+4)*φ1(PID)+(X+8)*φ2(PID) このような四則演算式を求める(整式, ガウスの消去法) 式簡単化器 X+4+PID*4 実装したコンパイラ

実験・結果

実験ベンチマーク実行環境コンパイル環境 Genesis distributed memory benchmarks pde1(N=7) Nas parallel benchmarks FT-a BT-a ヒントが少ないHPF 実行環境 Pilot3上の1～16ノードコンパイル環境 PCクラスタ : PIII733Mhz, 512Mbytes, 100Base, Linux RedHat7.1 1～16ノード, バックエンドに日立製最適化Fortran90コンパイラ実シミュレーションは×(通らないYO～) 実験・結果

MPI,PVMとの比較(pde1) 183秒 212秒スピードアップ 249秒 402秒 ORE(P) ORE(S) MPI PVM 2 4 6 8 10 12 14 16 18 20 1 プロセッサ数スピードアップ ORE(P) ORE(S) MPI PVM Linear 183秒 212秒 249秒 86%,73%,キャッシュはL1-16k,L2-512k,pde1の核配列は2^21double*2=30Mただし、3次元なので 2^7*2^7*8で隣接=131kこれが8PEだとキャッシュによく乗るどこが一番いいたいの？どれをいいたいの？このグラフの結果、考察ページ人間の手でがりがりにそんなに悪くない 402秒実験・結果

ブロックストライドの効果(pde1) 249秒 303秒 18 16 14 12 線形スピードアップ 10 全最適化 8 ブロックのみ 6 2 4 6 8 10 12 14 16 18 1 プロセッサ数スピードアップ線形全最適化ブロックのみ 249秒 303秒実験・結果

TCWの再利用の効果(pde1) 247秒 249秒 18 16 14 12 スピードアップ線形 10 全最適化 8 TCW再利用なし 6 2 4 6 8 10 12 14 16 18 1 プロセッサ数スピードアップ線形全最適化 TCW再利用なし 247秒 249秒 0~3% 実験・結果

コード最適化の効果(pde1) 212秒 249秒 262秒 18 16 14 12 スピードアップ全最適化(クラスタ) 10 8 全最適化(1PC) 8 コード最適化なし 6 線形 4 2 1 2 4 8 16 実験・結果プロセッサ数

日立製コンパイラとの比較(pde1) スピードアッププロセッサ数 212秒 249秒 137,100秒 18 16 14 12 本方式(クラスタ) スピードアップ 10 本方式(1PC) 1100,9400 静的に商用でがんばってもうまくいかない。従来が×→（商用のものでも×） OpenMP(ユーザがもっと指示を出すから：要知識) ディレクティブを入れないと、静的には不十分 8 日立 6 線形 4 2 137,100秒 1 2 実験・結果 4 8 16 プロセッサ数

日立製コンパイラとの比較(FT-a) 本方式日立線形 20 15 スピードアップ 10 5 1 2 4 8 16 プロセッサ数 46秒 4,898秒 1 2 4 8 16 プロセッサ数実験・結果

日立製コンパイラとの比較(BT-a) 5 10 15 20 1 2 4 8 16 プロセッサ数スピードアップ本方式日立線形 22円也 5 10 15 20 1 2 4 8 16 プロセッサ数スピードアップ本方式日立線形 1,430秒 1,370,000秒 22円也 2万692円也実験・結果

コンパイル時間(pde1:1台のPC) (秒) バックエンド処理時間本コンパイラプロセッサ数 50 100 150 200 250 2 50 100 150 200 250 2 4 8 16 実験・結果

コンパイル時間(pde1:PCクラスタ) 50 100 150 200 250 2 4 8 16 プロセッサ数処理時間(秒) バックエンド 50 100 150 200 250 2 4 8 16 プロセッサ数処理時間(秒) バックエンド逐次処理並列処理通信時間実験・結果

コンパイル時間(FT-a:PCクラスタ) 50 100 150 200 250 300 350 2 4 8 16 プロセッサ数処理時間(秒) バックエンド逐次処理並列処理通信時間実験・結果

コンパイル時間(BT-a:PCクラスタ) 5000 10000 15000 20000 25000 30000 35000 40000 2 4 8 16 プロセッサ数処理時間(秒) バックエンド逐次処理並列処理通信時間実験・結果

コンパイラの並列性(PCクラスタ) 10 20 30 40 50 60 70 80 90 100 2 4 8 16 プロセッサ数 10 20 30 40 50 60 70 80 90 100 2 4 8 16 プロセッサ数並列性 (%) FT-a BT-a pde1 実験・結果

pde1 39 26 FT 33 7 BT 1035 189 解析が必要な箇所分散処理される配列のアクセス数実行時情報で解決したもの実験・結果

まとめ

まとめ(1/3) 計算物理が対象のコンパイラを提案、開発通信の最適化容易な記述性 CP-PACS/Pilot-3のRDMAが対象インスペクタエグゼキュータ似の解析コンパイル時に実行時の情報を利用した容易な記述性 Fortran77とごくわずかなHPFヒント CP-PACS/Pilot-3のRDMAが対象二種類のコンパイラ 1台のPC PCクラスタまとめ

まとめ(2/3) シミュレーションプログラムのうち、実行時間の支配的な部分を最適化した MPIを用いて人の手で最適化されたプログラムに比べて(pde1)…の処理速度 1台のPC版:86% PCクラスタ版:73% コンパイル時間を含めて実行速度の向上を得るにはOuterループの十分な反復回数が必要 Pde1(1台のPC版): 1000→1100 Pde1(PCクラスタ版): 1000→9400 まとめ

まとめ(3/3) TCWを再利用する効果は小さくpde1で0～3%であった。 BTはコンパイル時間が爆発したインスペクタの解析結果が膨大になってしまった。実行時の情報を使えば、自動並列化が可能なのでは？まとめ

以降削除済み

インスペクタ-エグゼキュータ(削除!!!!) エグゼキュータインスペクタ ( a ) 元のプログラム ( b ) インスペクタ - どんな通信が必要なの？テーブルエグゼキュータ ( a ) 元のプログラム ( b ) インスペクタ - エグゼキュータ方式で　　並列化されたプログラム

RDMAの機能の使われ方ブロックストライド TCWの再利用片側通信のりしろの転送反復解法、経時変化ポアソン方程式の解法、他 TCWの再利用反復解法、経時変化片側通信同じプロセッサに複数のデータを送信到着確認が少なくて済む従来の高速化手法

通信回数の削減(3/4) (融合) INDEPENDENT 通常のループ ( a ) 記録たアクセス情報 [ 1 ] アドレス x から x からバイト 2 5 8 4 6 c 3 : b 融合されたリモートアクセス * , INDEPENDENT 通常のループ実装したコンパイラ