全体ミーティング (9/12) 村田　雅之.

全体ミーティング (9/12) 村田　雅之

今日の内容修士論文について先日の発表と基本的には同じになります
Deterministic Parallel Copying Garbage Collection 先日の発表と基本的には同じになります

並列プログラムの非決定性スレッドの実行順序により結果が非決定的になることバグの原因になるデバッグが困難である

非決定性の例 Thread 1 Thread2 Thread 1 Thread2 x = 3 x = 3 x=x*2; x=x+1;

非決定性の例非決定的 Thread 1 Thread2 Thread 1 Thread2 x = 3 x = 3 x=x*2;

ガベージコレクション (GC) 不要なメモリ領域を再利用するアルゴリズム GCの実行はユーザプログラムの性能に影響を与えるので高速化したい
並列化すれば高速化が期待できる

並列GCの難しさ実装が難しい GCの正しさの検証は複雑並列化すると検証はもっと難しくなる必要なデータがすべてコピーされるか、等
前述の非決定性が絡む Citation

本研究の目標並列GCの決定性を保証する GCの実装の正しさの証明を難しくする一因となる非決定性を排除できる

本研究で提案する手法並列GCのアルゴリズムを考える決定性を検証できる型システムを適用する

DPJ (Deterministic Parallel Java)
Type and Effect System for Deterministic Parallel Java Bocchino Jr. らが提案 (2009) 型システムを用いて静的に決定性を検証実装が公開されている

DPJの型システムの特徴 Region Effect ヒープ領域を分割する一つのスレッドからしかアクセスしないようにする

Region ヒープを分割しデータを配置するひとつのregionに複数のスレッドが同時にアクセスしないよう型システムで保証する y x
図では変数xをregion Aに変数yをregion Bに配置ひとつのregionに複数のスレッドが同時にアクセスしないよう型システムで保証する決定性を保証できるヒープ region A region B x y

配列の分割配列を分割してそれぞれを別のregionに配置することができる region A

配列の分割配列を分割してそれぞれを別のregionに配置することができる region A0 region A1

Effect プログラム中の文の regionへのアクセスを表す型情報例 y x y = x + 1; region A region B
Aを読む、Bに書く y = x + 1; x y region A region B

型検査による決定性の検証各スレッドのeffectが異なるregionへのものになっていることを型検査で確かめる
各スレッドが違うデータにアクセスしていれば実行順序は結果に影響しない

検証の例配列に書き込みを行う配列はregion Aに配置されている 2つの区間に分けて並列処理 region A 並列実行{
write(i,j); write(k,l); } 配列二つの文を並列実行する

Regionを分割しなかったときともに「Aに書く」というeffectを持つ型検査によりエラーとなる同じregionに並列にアクセスする
決定性は保証されない region A 並列実行{ write(i,j); write(k,l); } Aに書く Aに書く

Regionを分割したとき並列実行されるスレッドが別のregionへのeffectを持つ型検査を通る決定性が保証される
region A0 region A1 並列実行{ write(i,j); write(k,l); } A0に書く A1に書く

本研究で行ったこと並列コピーGCのアルゴリズムを考えた逐次のコピーGCのアルゴリズムを拡張する DPJの型検査によって決定性を検証した

コピーGC ヒープを二つにわけて埋まってきたら必要なものだけコピーすることでGCを行うプログラムは普段は一方を使用
必要なもの = rootから到達可能なもの From To

並列コピーGCのアルゴリズム copy(from,to){ if(from,toが十分短ければ){ 逐次コピーGCを行う }else{
並列実行{ // 再帰呼び出し copy(fromの前半, toの前半); copy(fromの後半, toの後半); } 返ってきた結果を統合終了後にデフラグ

並列コピーGCのアルゴリズム STEP 1 大きなヒープの分割 2つを並列実行する copy(from,to){
if(from,toが十分短ければ){ 逐次コピーGCを行う }else{ from,toを分割並列実行{ // 再帰呼び出し copy(fromの前半, toの前半); copy(fromの後半, toの後半); } 返ってきた結果を統合終了後にデフラグ STEP 1 大きなヒープの分割 2つを並列実行する

並列コピーGCのアルゴリズム STEP 2 各区間についてコピーGCをする copy(from,to){
if(from,toが十分短ければ){ 逐次コピーGCを行う }else{ from,toを分割並列実行{ // 再帰呼び出し copy(fromの前半, toの前半); copy(fromの後半, toの後半); } 返ってきた結果を統合終了後にデフラグ STEP 2 各区間についてコピーGCをする

並列コピーGCのアルゴリズム STEP 3 分割した結果をひとつにまとめる copy(from,to){
if(from,toが十分短ければ){ 逐次コピーGCを行う }else{ from,toを分割並列実行{ // 再帰呼び出し copy(fromの前半, toの前半); copy(fromの後半, toの後半); } 返ってきた結果を統合終了後にデフラグ STEP 3 分割した結果をひとつにまとめる

並列コピーGCのアルゴリズム STEP 4 データを移動させて隙間を減らす copy(from,to){
if(from,toが十分短ければ){ 逐次コピーGCを行う }else{ from,toを分割並列実行{ // 再帰呼び出し copy(fromの前半, toの前半); copy(fromの後半, toの後半); } 返ってきた結果を統合終了後にデフラグ STEP 4 データを移動させて隙間を減らす

4つのステップヒープを分割する分割したヒープそれぞれで並列にコピーGC 分割した結果をまとめるデータの移動

STEP 1: ヒープの分割大きなヒープをあるサイズ以下になるまで並列かつ再帰的に分割十分小さくなったら逐次コピーGCを行う
分割したヒープをそれぞれ別のregionに配置することで決定的な並列実行ができる十分小さくなったら逐次コピーGCを行う

STEP 2: 逐次コピーGC 基本的には逐次アルゴリズムと同様ただし分割されたregionの外へのポインタは後回しにする

例: STEP 1 ヒープの分割ヒープを2分割するケース From To

例: STEP 1 ヒープの分割 From, Toをそれぞれ2分割し別のregionとする From0 From1 To0 To1

例: STEP 2 逐次コピーGC 2つに分けたregionで並列にコピーGCを行う From0 From1 To0 To1

例: STEP 2 逐次コピーGC ただし、regionの外へのポインタがあればそれを記憶して後で追跡する From0 From1 To0

STEP 3: 分割したregionの統合後回しにしていた、regionの外へのポインタを再び追跡する

例: STEP3 分割したregionの統合統合前の状態 From0 From1 To0 To1

例: STEP3 分割したregionの統合 Regionが統合される From To

例: STEP3 分割したregionの統合後回しにしていたポインタから新たに到達可能になるデータをコピー From To

例: STEP3 分割したregionの統合ここでは新しいデータは前から詰めていく空き領域をリストで管理している From To

例: STEP3 分割したregionの統合これで必要なデータのコピーが終わる From To

まだ不満なことヒープを分割するのでデータが連続して配置されない From To 隙間が空いている

STEP 4: デフラグを行うデータを移動して間を詰める本研究では単純な方法をとる末尾に大きく連続した空き領域ができる
後ろの断片から順にできるだけ前に移動

デフラグをするメリット単純なメモリ管理ができるデータをうしろに配置していくだけ逐次のコピーGCで可能だったこと

例: STEP4 デフラグこのような状態のヒープがあるときを考える

例: STEP4 デフラグ一番うしろから動かそうとする末尾の空き領域を大きくしたいので

例: STEP4 デフラグ移動可能な空き領域を前から探していくこの場合一番最初で見つかる

例: STEP4 デフラグ移動可能な領域を移動する移動を並列化することで高速化する

例: STEP4 デフラグ以上の手続きをできるだけ繰り返す

デフラグの注意点データを移動させると間違った場所を指すポインタが生まれるもともとのポインタ

デフラグの注意点データを移動させると間違った場所を指すポインタが生まれるデータを移動した間違ったポインタ

間違ったポインタの修正データ移動の履歴を記憶しておいて移動後に間違ったポインタを修正する修正は並列に行うことで高速化する
この移動の情報を覚えておいて後でポインタを修正する

このアルゴリズムの決定性の検証 DPJ言語でこのアルゴリズムを記述する DPJの型検査により決定性が検証される

実験本研究の並列GCの正しさを確認する性能を測定する環境単純なデータについて確認スケーラビリティデフラグの効果
6-core Opteron 2.80 GHz * 2 (12 コア), 64GB RAM Linux, Java update 18, DPJ version 1.7.0

本研究の並列GCの正しさの確認単純なモデルについて結果を検証実際にすべてのデータがコピーされていることを確認
すべてコピーされることが予想されるヒープにこのアルゴリズムを適用する実際にすべてのデータがコピーされていることを確認形式的検証は難しいのでできなかった

性能測定スケーラビリティデフラグの効果ヒープの仮想的なモデルを作成そのモデルについてコピーGCを行う

ヒープの仮想的モデル 2つのポインタを持つオブジェクトを配置ポインタは一定距離より近いところを指すサイズは230 (= 1G)
局所性があるサイズは230 (= 1G)

スケーラビリティの評価実行時間を計測環境ヒープを16分割してGCを行う約40%が生きているデータ
ワーカースレッドの数を1から12まで変化させる環境 6-core Opteron 2.80 GHz * 2 (12 コア), 64GB RAM Linux, Java update 18, DPJ version 1.7.0

実験結果逐次コピーGCに対して3.2倍速い 12スレッド使用時 1スレッドの場合に対して7.3倍速い

実験結果(コピーとデフラグ) コピーの速度は12スレッドで5.5倍デフラグの速度は11.3倍 1スレッドの時に対して
分割区間外へのポインタで並列性が下がるデフラグの速度は11.3倍

コピーGCとデフラグの時間コピーは分割すると速くなる 16分割までは特に 12 coresなのでデフラグは分割が増えると非常に重くなる

条件を変えてみたときポインタがさしている距離を広くする範囲外へのポインタが増える

実験結果速度が伸びない 12スレッド使って1.5倍弱

実験結果コピーの並列性が低いためと考えられる

さらに別のケースワーカースレッドの数と分割数をあわせる 1, 2, 4, 8, 12スレッドで実験 12のときのみ16分割

結果 8スレッドで3倍弱 12スレッドでも同じくらい 16分割のため遅くなる

結果コピーだけなら4.5倍程度デフラグの時間はあまり変わっていない問題は複雑になるがスレッド数が増えるため？

ヒープの長さを変えてみたときだいたい線型並列コピー部分は増えにくい

ヒープの長さを変えてみたとき逐次と並列の時間の関係が変わっているキャッシュの効果？

デフラグの効果すべての空き領域に対する末尾にある空き領域の割合生きているデータの割合と分割区間数を変化理想的には100%
20, 40, 60% 1, 2, 4, 8, … , 256分割末尾にある空き領域

測定結果 20, 40%では約9割の空き領域が末尾にある 60%では非常に悪い使用領域＞空き領域のためデータ移動が困難

測定結果分割を増やしたところで改善しているピースが小さくなって移動が容易になるため

関連研究: GCの形式的検証 Automated Verification of Practical Garbage Collectors.
Hawblitzel and Petrank, 2009 正しさや安全性に関する条件式を含めてGCのアルゴリズムを記述するそこから得られた条件式をTheorem Proverを用いて解くことで性質を検証する並列GCの決定性については扱わない

関連研究: 並列GC Parallel Garbage Collection for Shared Memory Multiprocessors Flood et al., 2001 ヒープを分割して行う並列コピーGC ヒープ分割による隙間はそのまま 8コアで5倍前後の高速化条件の差異のため単純比較はできない決定性についての考察はされていない

Future Works 並列GCの検証に形式的な証明を与えるアルゴリズムの改善コピーGCの速度向上デフラグの効果を高める
現実的な構造のヒープについて効果的か？

並列GCの形式的検証決定性を検証して、逐次環境での正しさを検証すれば並列GCの正しさの検証になる
並列環境と逐次環境の結果は決定的本研究の並列アルゴリズムは決定的なのであとは逐次環境での形式的検証が必要

まとめ並列なコピーGCのアルゴリズムを考えたそのアルゴリズムにDPJの型検査を適用し決定性を検証した
単純なモデルについては正しさを確認した性能測定を行った 12コアで逐次コピーGCより3.2倍速い

全体ミーティング (9/12) 村田　雅之.

Similar presentations

Presentation on theme: "全体ミーティング (9/12) 村田　雅之."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

全体ミーティング (9/12) 村田 雅之.

Similar presentations

Presentation on theme: "全体ミーティング (9/12) 村田 雅之."— Presentation transcript:

Similar presentations

About project

フィードバック

全体ミーティング (9/12) 村田　雅之.

Presentation on theme: "全体ミーティング (9/12) 村田　雅之."— Presentation transcript: