全体ミーティング (4/25) 村田雅之.

Slides:

Advertisements

Similar presentations

MPIを用いたグラフの並列計算情報論理工学研究室藤本　涼一.

Advertisements

CPUとGPUの性能比較－行列計算およびN体問題を用いて－

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

Chapter11-4(前半) 加藤健.

Intel AVX命令を用いた並列FFTの実現と評価

ラベル付き区間グラフを列挙するBDDとその応用

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

AllReduce アルゴリズムによる QR 分解の精度について

時空間データからのオブジェクトベース知識発見

仮想マシンの並列処理性能に対するCPU割り当ての影響の評価

全体ミーティング (6/13) 村田雅之.

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

ファイルシステムキャッシュを考慮した仮想マシン監視機構

侵入検知システム（IDS）停止 IDS サーバへの不正アクセスが増加している

2007/1/18 山下諒蔵佐藤春旗前田俊行大山恵弘佐藤秀明住井英二郎

データ構造とアルゴリズム分割統治～マージソート～.

第７章　データベース管理システム７．１データベース管理システムの概要７．２データベースの格納方式７．３問合せ処理.

ネストした仮想化を用いた VMの安全な帯域外リモート管理

階層的境界ボリュームを用いた陰関数曲面の高速なレイトレーシング法

　データベースによる並列処理情報論理工学研究室　三宅健太.

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

メモリ管理 4.3, 4.4 章さだ.

アスペクト指向プログラミングを用いたIDSオフロード

正方行列向け特異値分解の CUDAによる高速化

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

型付きアセンブリ言語を用いた安全なカーネル拡張

MPIを用いた最適な分散処理情報論理工学研究室角仁志

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

MPIとOpenMPを用いた Nクイーン問題の並列化

梅澤威志隣の芝は茶色いか梅澤威志

オブジェクト指向プログラムにおけるエイリアス解析手法の提案と実現

VM専用仮想メモリとの連携による VMマイグレーションの高速化

リモートホストの異常を検知するための GPUとの直接通信機構

仮想メモリを用いた VMマイグレーションの高速化

複数ホストに分割されたメモリを用いる仮想マシンの監視機構

コンパイラ 2012年11月15日

アルゴリズムとデータ構造補足資料4-1 「メモリと配列」

クラウドにおけるIntel SGXを用いた VMの安全な監視機構

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

GPGPUによる飽和高価値アイテム集合マイニング

階層的境界ボリュームを用いた陰関数曲面の高速なレイトレーシング法

アスペクト指向言語のための独立性の高いパッケージシステム

GPUを用いた疎行列の格納形式による行列ベクトル積の評価

Intel SGXを用いた仮想マシンの安全な監視機構

複数ホストにまたがって動作する仮想マシンの障害対策

VMが利用可能なCPU数の変化に対応した並列アプリケーション実行の最適化

オブジェクト指向言語論第六回知能情報学部新田直也.

秘匿リストマッチングプロトコルとその応用

全体ミーティング (5/23) 村田雅之.

同期処理のモジュール化を可能にするアスペクト指向言語

「マイグレーションを支援する分散集合オブジェクト」

MPIを用いた並列処理計算情報論理工学研究室金久英之

全体ミーティング (12/15) 村田雅之.

SMP/マルチコアに対応した型付きアセンブリ言語

エイリアス関係を考慮した Javaプログラム用静的スライシングツール

プログラムの一時停止時に将来の実行情報を提供するデバッガ

オブジェクト指向言語論第二回知能情報学部新田直也.

IPmigrate：複数ホストに分割されたVMのマイグレーション手法

複数ホストにまたがるVMの高速かつ柔軟な部分マイグレーション

BSPモデルを用いた最小スパニング木情報論理工学研究室０２－１－４７－１３４小林洋亮.

参考：大きい要素の処理.

複数ホストにまたがるVMのメモリ使用状況に着目した高速化

回帰テストにおける実行系列の差分の効率的な検出手法

MPIを用いた並列処理情報論理工学研究室 06‐1‐037‐0246　杉所　拓也.

分散メモリ型並列計算機上での行列演算の並列化

全体ミーティング (9/12) 村田　雅之.

局所性を考慮した共有メモリ並列計算機上の並列BIBOPアロケータ

強制パススルー機構を用いた VMの安全な帯域外リモート管理

オブジェクト指向言語論第六回知能情報学部新田直也.

Presentation transcript:

全体ミーティング (4/25) 村田雅之

今日の内容修士研究の進捗について

テーマ Deterministic Parallel Copying Garbage Collection 結果の決定性が保証された並列コピーGC

動機 GCを並列化したい高速化が期待できる並列化すると特有の問題がある結果が実行ごとに変わることがある実行順序が不定である

並列プログラムの検証に関する研究 Deterministic Parallel Java (DPJ) これを用いる Bocchino Jr. et al., OOPSLA 2009 型検査でメモリ領域へのアクセスを把握する実行結果の決定性を検証するこれを用いる

本研究のアプローチ並列GCのアルゴリズムの決定性をDPJの型システムを応用して検証する並列GCの正しさを検証するための第一歩結果の決定性が保証されれば逐次実行環境での正しさを検証するだけで済む

まずやろうとしたこと単純な並列GCのアルゴリズムを実装してみる

本研究でのヒープのモデル化単純な整数の配列として表現する 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 配列のインデックスがアドレスを表す 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 よみやすく

単純な並列GCアルゴリズムヒープを分割してそれぞれの領域について並列にコピーGCを実行しそれを統合する

単純な並列GCアルゴリズム 1. 分割フェイズヒープを複数の区間に分割区間内にあるrootから到達可能なデータをコピーする区間外へのポインタが現れたら一時停止

分割フェイズの例 region From 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 region To 1 2 3 4 5 6 7

分割フェイズの例 region From0 region From1 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 region To0 region To1 1 2 3 4 5 6 7

分割フェイズの例 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 ? ? 1 2 3 4 5 6 7

分割フェイズの例 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 1 ? 5 ? 1 2 3 4 5 6 7

分割フェイズの例 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 1 ? 5 4 1 2 3 4 5 6 7

分割フェイズの例 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 範囲外へのポインタは後回しにする 1 ? 5 4 1 2 3 4 5 6 7

単純な並列GCのアルゴリズム 2. 統合フェイズ隣り合う領域をひとつの領域として扱うその範囲内でコピーを続ける

統合フェイズの例 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 1 ? 5 4 1 2 3 4 5 6 7

統合フェイズの例 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 1 2 ? 5 4 1 2 3 4 5 6 7

統合フェイズの例 1 2 3 4 5 6 7 1 4 4 1 3 7 4 5 1 2 3 1 5 4 1 2 3 4 5 6 7

単純なアルゴリズムを実装まずはこのアルゴリズムを実装した(つもりだった) 実は2分割の場合しか考えられていなかった 4分割以上すると不都合なことが起こる

見落としていた例 1 2 3 4 5 6 7 1 4 4 2 12 7 4 2 ・・・

見落としていた例 1 2 3 4 5 6 7 1 4 4 2 12 7 4 2 ・・・ 1 ? 5 ? ・・・ 1 2 3 4 5 6 7

見落としていた例さらに範囲外へのポインタ 1 2 3 4 5 6 7 1 4 4 2 12 7 4 2 ・・・ 1 2 ? 5 ? ・・・ 1 2 3 4 5 6 7

見落としていた例 1 2 3 4 5 6 7 1 4 4 2 12 7 4 2 ・・・ 1 2 ? 2 5 3 ・・・ 1 2 3 4 5 6 7 データは前からつめていく方針

見落としていた例 1 2 3 4 5 6 7 1 4 4 2 12 7 4 2 ・・・ 1 2 ? 2 5 3 ・・・ 1 2 3 4 5 6 7 終わっていないのに無視されてしまうここから前は終わったことにしていた

修正の方針統合する過程では複数個の処理されていないポインタが存在まだコピーされていないデータのインデックスを入れるキューを用意してそれを利用するなど

性能について未完成ではあるが実行時間を計測してみた CPU : Intel Core i7 2.2GHz (4コア) メモリ : 4GB おおまかには評価できそう？正確な実装ではさらに計算量が増えそう CPU : Intel Core i7 2.2GHz (4コア) メモリ : 4GB OS : Mac OS X 10.6.7 Java 1.6.0_24

分割サイズを変えてみる長さ65536の配列について実行配列を分割する最小サイズを変えてみる 5回実行したときの最速値を計測ランダムにポインタを設定配列を分割する最小サイズを変えてみる 5回実行したときの最速値を計測

結果横軸は分割のサイズ縦軸は実行時間(μs) 128から落ち着いている

逐次アルゴリズムとの比較分割・並列化によるコストが大きい予想はしていたが実行時間(μs) 128まで分割 6265 逐次アルゴリズム 215

ワーカースレッドの数を変える 1から4で変えてみた DPJのオプション長さ65536の配列分割サイズは128

結果 1スレッドの場合と比較した速さ 4スレッドで約1.3倍逐次部分が多いため？

次にすること単純なアルゴリズムの実装の修正性能向上を考えるアルゴリズムの工夫既存アルゴリズムを参考にするなど