４章　メモリ管理.

４章　メモリ管理

４．メモリ管理概論 TLBコヒーレンス制御高速化技法メモリコンシステンシモデル分散共有メモリシステム
ページを基盤としたシステム共有変数を基盤としたシステムＮＵＭＡマルチプロセッサにおけるメモリ管理キャッシュおよびＤＳＭとの相違検討課題ソフトウェア技術実現例

４．メモリ管理：概論検討課題ＵＭＡアーキテクチャＮＵＭＡアーキテクチャＮＯＲＭＡアーキテクチャメモリアクセスの高速化
キャッシング技法コヒーレンス制御ページ表：ＴＬＢコード／データＮＵＭＡアーキテクチャメモリアクセスの不均一性を考慮ローカル／リモートメモリＮＯＲＭＡアーキテクチャ

ＴＬＢコヒーレンス制御ＴＬＢコヒーレンス問題データのキャッシングデータ：仮想 → 実アドレスのマッピング情報
データ：　仮想　→　実アドレスのマッピング情報オリジナル（キャッシング元）：　ページ表キャッシング先：ＴＬＢ（Translation Lookaside Buffer）

プロセッサ０プロセッサ１ＴＬＢＴＬＢメモリ図４．１ＴＬＢコヒーレンスタスクＡの論理アドレス空間スレッドスレッド
ページフレーム 2 スレッドページフレーム 2 ＴＬＢＴＬＢ ①ページ９をフレーム２にマッピングタスクＡの論理アドレス空間ページフレーム２ページフレーム１ページフレーム０ ②間違ったアクセスページ９ページ１ページ０変更後の対応変更前の対応メモリ図４．１　ＴＬＢコヒーレンス

ＴＬＢコヒーレンス問題：考慮すべき問題点
ハードウェアアーキテクチャページ表　→　ＴＬＢへのローディングＴＬＢ　→　ページ表への書き込みハードウェアが行っているか否か？コヒーレンスを保証する範囲強いコヒーレンス保証処理中でもコヒーレンスを保証弱いコヒーレンス保証処理完了後のコヒーレンスを保証処理中のコヒーレンスは保証していない．

ＴＬＢコヒーレンス制御ページ情報変更の分類（１）安全な変更(safe change) （２）危険な変更(unsafe change)
変更が生じても，すぐに対処する必要がない変更後で，ＯＳで対処できる．例ページ保護レベルが上がる（緩和）場合 Read-only 　→　 read-write メモリへページがロードされる場合 Invalid → valid （２）危険な変更(unsafe change) 変更が生じたら，すぐにコヒーレンスを保つ必要がある変更ページ保護レベルが下がる場合 Read-write　→ read-only ページがページアウトされる場合 Valid 　→ invalid

ＴＬＢコヒーレンスアルゴリズムシュートダウン（TLB shootdown）アルゴリズム修正シュートダウン（modified shootdown）アルゴリズム Read-locked TLBs Validation

シュートダウンアルゴリズム（１／４）プロセッサ０プロセッサ１，２ ①準備を依頼イニシエータレスポンダ ②準備ＯＫ ③ページ表を変更
メモリページ表図４．４　シュートダウンアルゴリズム概要

図４．５シュートダウンアルゴリズムイニシエータレスポンダ・割込み禁止・active[self]:=0 ・ページ表のロック
・レスポンダにＴＬＢ無効化を通知（メッセージのキューイング）・レスポンダに割り込み通知・自ＴＬＢの無効化全レスポンダrがactive[r] = 0　になるまで繁忙待機（ロック変数上）ページ表変更ページ表のアンロック割込みレベルを元に戻す・割込み・割込み禁止・active[self]:=0 ページ表がアンロックされるまで繁忙待機（ロック変数上）・無効化通知をキューから削除・自ＴＬＢの無効化・active[self] := 1 ; ・割込みレベルを元に戻す・割込み・割込み禁止・active[self]:=0 ページ表がアンロックされるまで繁忙待機（ロック変数上）・無効化通知をキューから削除・自ＴＬＢの無効化・active[self] := 1 ; ・割込みレベルを元に戻す図４．５　シュートダウンアルゴリズム

シュートダウンアルゴリズム（２／４）利点欠点完全なコヒーレンスを保証
イニシエータが起動中のコヒーレンスを保証（レスポンダをアイドルにする）欠点同期のオーバヘッド大イニシエータ：　全レスポンダのアイドル確認後，ページ表エントリを変更レスポンダ　→　イニシエータの処理時間が増大レスポンダ：　ページ表変更（イニシエータ）完了まで，繁忙待機プロセッサ間通信（割込み）レベルが低いハードウェア上では，割込み受信が遅れる．

シュートダウンアルゴリズム（３／４）シュートダウンアルゴリズムがサポートするマシンの特徴
プロセッサシュートダウンアルゴリズムがサポートするマシンの特徴ＴＬＢエントリからＰＴＥへの書込みがハードウェアで行われる．（例）ＰＴＥ内の参照ビット設定の時ＰＴＥ全体を対応するＴＬＢエントリで上書きする．ＴＬＢ MPU エントリヒット上書き（ハードウェア）メモリ　　　　　　参照ビットエントリページ表図４．２　ハードウェアによるページ表の上書き

シュートダウンアルゴリズム（４／４）シュートダウンアルゴリズムの必要性直観的方法
シュートダウン：　全レスポンダをアイドルにした後，ＰＴＥを変更．直観的方法イニシエータのＰＴＥ変更後，レスポンダがＴＬＢを無効化イニシエータレスポンダ（プロセッサ間割込み）ＴＬＢの無効化要求ＰＴＥを変更自エントリを無効化応答待ち自エントリを無効化

図直観的方法の例（ページ５をread-writeからへread-only）
イニシエータレスポンダページ番号ページ番号保護属性保護属性タスクＡのスレッド１タスクＡのスレッド１ 5 r/w 5 r/w ②ヒットＴＬＢＴＬＢ ③上書き ①変更　ｒ／ｗ　→　ｒ 5 　　　　保護属性ページ番号タスクＡのページ表ページ表の保護属性 ① ｒ／ｗ　→　　ｒ ③　ｒ　→　　ｗ（元に戻る）図　直観的方法の例（ページ５をread-writeからへread-only）

修正シュートダウン（modfied shootdown）（１／３）
RP3上のMachで採用 RP3の特徴（TLBコヒーレンス制御の観点）ページ表の変更は，ハードウェアで暗黙的には行わない．ソフトウェアで行う． TLBミスヒット時のページ表からのローディングページ参照ビットの設定修正シュートダウンアルゴリズムの特徴同期のオーバヘッドを軽減イニシエータ：　全レスポンダからの応答を待つだけレスポンダ：　自TLBの無効化後，直ちに走れる．

図４．６修正シュートダウンアルゴリズムイニシエータレスポンダ・ページ表のロック・ページ表変更
・レスポンダにＴＬＢ無効化を通知（メッセージのキューイング）・各レスポンダについてtmp]r]:=Fetch&Add(request[r], 1) ・レスポンダに割込み通知・自ＴＬＢの無効化全レスポンダrが update[r] > tmp[r]　になるまで繁忙待機・無効化要求の削除・ページ表のアンロック・割込み・割込み禁止・t := reqests[self]: ・無効化要求の検索・自ＴＬＢの無効化・updates[self] := t ; ・割込みレベルを元に戻す・割込み・割込み禁止・t := reqests[self]: ・無効化要求の検索・自ＴＬＢの無効化・updates[self] := t ; ・割込みレベルを元に戻す図４．６　修正シュートダウンアルゴリズム

修正シュートダウン（modfied shootdown）（２／３）
修正シュートダウンアルゴリズムが保証する範囲イニシエータの処理完了後のコヒーレンスを保証イニシエータの処理途中では，コヒーレンスを保証していない．イニシエータレスポンダ ←　当該ＴＬＢエントリへアクセス　　　（古い情報へアクセス）ＰＴＥを変更　　→

修正シュートダウン（modfied shootdown）（３／３）
「危険な変更」でもほとんどの場合，問題なしページアウトする場合 Valid/invalidビット： valid 　→　 invalid 処理 ①ＴＬＢコヒーレンス処理　　　　　　↓ ②実際にページを追い出す．イニシエータレスポンダ ←　当該ＴＬＢエントリへアクセス　　　（validなのでメモリへアクセス）当該ページはまだメモリにある．ＰＴＥを変更　　→ valid 　→ invalid 処理完了ページを追い出す．

高速化技法技法の分類処理の軽減アクセス時間の高速化アクセス時間の隠蔽先行評価（eager evaluation）
予め処理しておく．プリフェッチ予測が必要遅延評価（lazy evaluation）処理が本当に必要になったときに行う．コピーオンリファレンス，コピーオンライトアクセス時間の高速化キャッシング技法アクセス時間の隠蔽アクセス処理のパイプライン化マルチスレッドアーキテクチャ

高速化技法：コピーオンリファレンス Copy-on-reference
アクセス（参照，リファレンス）が生じた時に実際にコード／データを移動させる． NORMAまたは分散システムのプロセス移送に適用 Accentカーネル（Mach OSの元になった）で適用

高速化技法：コピーオンライト Copy-on-write 使用する状況 UNIXの場合 Mach OSのメッセージ通信機構にも多用
オリジナルのオブジェクトからオブジェクトを生成その後，上記２つのオブジェクトが独立（すなわち，共有なし）に動作． UNIXの場合 Forkシステムコールで子プロセスを生成図４．７参照 Mach OSのメッセージ通信機構にも多用

図４．７コピーオンライトを用いた仮想アドレス空間のコピー
親プロセス仮想アドレス空間子プロセス仮想アドレス空間メモリスタックＰデータＰテキストスタックＣスタックＰデータＣデータＰテキストスタックＣデータＣテキスト (2)コピー (1)作成ページ表ページ表 (2)コピー親プロセス（１）コピーオンライトを行わない場合親プロセス仮想アドレス空間子プロセス仮想アドレス空間メモリスタックＰデータＰテキストスタックＣスタックＰデータＣデータＰテキストスタックＣデータＣテキスト (1)fork (2)作成ページ表 R/W (3) (7) R/W→R→R/W R ページ表 R/W (7) R→R/W R (5)ページフォールト (4)書込みアクセス (6)コピー (7)変更保護ビット保護ビット（１）コピーオンライトを行なう場合図４．７　コピーオンライトを用いた仮想アドレス空間のコピー

高速化技法：マップオンリファレンスメモリマップ要求時ではなく，実際に参照された時点で処理適用例メモリマップドファイル
メモリマップドＩ／Ｏ

分散共有メモリ（ＤＳＭ：Distributed Shared Memory）
分散共有メモリ（ＤＳＭ）とは？物理的に分散されているメモリを，ユーザには共有メモリにみせる仕掛け図４．１３実現レベルハードウェア：ＮＵＭＡソフトウェア対象：ＮＯＲＭＡ，分散システム IVY, Shiva, Munin, Midway, ThreadMarks ユーザ共有メモリメモリ MPU1 ノード１メモリ MPU2 ノード2 メモリ MPUN ノードN ・・・図４．１３　ＤＳＭの概念

ＤＳＭ：設計時に考慮すべきこと（１／２）管理対象の粒度ユーザへの共有空間は，分割（ＤＳＭブロック）されて各ノードに配置
初期は，ページ単位ＤＳＭブロックサイズは大利点：管理対象数（ＤＳＭブロック数）が小さくなる．欠点：フォールシャエアリング（false sharing）の可能性が大きくなる． False sharing：図４．１４ＤＳＭブロックサイズが小上記と逆

a C C b a, b, c a, b, c ノード１ノード２メモリメモリＭＰＵ１ＭＰＵ２プロセス１プロセス２
コヒーレンス制御（１）異なるブロックへの割当てノード１ノード２メモリメモリブロックブロックピンポン現象 a, b, c a, b, c ＭＰＵ１ＭＰＵ２プロセス１プロセス２コヒーレンス制御（２）同一ブロックへの割当て（フォールスシェアリング）図４．１４　フォールスシェアリング

ＤＳＭ：設計時に考慮すべきこと（２／２）メモリコンシステンシモデルスケーラビリティ非均一性（heterogeneity）
性能と使いやすさのトレードオフ Strict consistency model ユーザが慣れ親しんだモデル各ノードでのステップごとの同期が必要．スケーラビリティノード数が増えても，性能低下させない．非均一性（heterogeneity）ノードの非均質にも対処例データの表現方法が異なる場合は，データ変換が必要．

ＤＳＭ：実現時に考慮すべきこと（１／３）実現レベル書込みアクセス検出機構カーネル空間ユーザ空間
利点：メモリハードウェアの提供機構をフルに活用できる．欠点：多大な労力ユーザ空間上記と逆実現がＯＳに依存：　何をユーザ空間に提供しているか？書込みアクセス検出機構コヒーレンス制御のために，書込みをソフトウェアに通知する機構が必要 a)ハードウェアサポートを利用する方法アクセス保護違反を利用ページ属性をリードオンリに設定ページフォールトを捕まえる．利点コンパイラを修正する必要なし．欠点ＤＳＭブロックがページと大きい．フォールスシェアリングが生じる可能性が大システムコールを用いる回数が多くなる． b)ソフトウェアによる方法書込みアクセスコードの直後に，コヒーレンス制御ルーチンを呼び出す．利点，欠点： a)と逆

ＤＳＭ：実現時に考慮すべきこと（２／３）キャッシュコヒーレンス制御ブロック書き換えアルゴリズム
１）書込み時無効化方式（write invalidate）書込み時，他コピーを無効化２）書込み時更新方式（write update）書込み時，他コピーを更新ブロック書き換えアルゴリズムキャッシングしてくるローカルメモリが一杯の時，どれかを追い出す必要あり（犠牲ブロック）ページングシステムでは，LRU(Least Recently Used)が採用．キャッシュの状態，優先度とＬＲＵの組合せ．

ＤＳＭ：実現時に考慮すべきこと（３／３）管理情報の管理方式スラッシングキャッシング情報の管理方法１）集中管理方式２）分散管理方式
論理的に一か所に集中２）分散管理方式自ノードの情報スラッシングＤＳＭブロックのピンポン現象を防止コンパイラによるフォールスシェアリングの抑制データ属性に適したコヒーレンス制御の採用

ＤＳＭ：ページを基盤としたシステム（１／２）
ＤＳＭブロック＝ページ共有メモリ型マルチプロセッサのキャッシュと類似対応関係ローカルメモリ：キャッシュＤＳＭブロック（ページ）：キャッシュライン概念図：図４．１５(a) ノード上にないページアクセス処理：図４．１５(b) ページを持ってくる方法移動（migration）複製（replication）

2 1 3 ページ０１２３メモリＭＰＵ０ノード０メモリＭＰＵ１ノード１ノード２メモリＭＰＵ２ネットワーク
大域仮想アドレス空間ページ　　０　　１　　２　　３メモリＭＰＵ０ノード０ 2 メモリＭＰＵ１ノード１ノード２ 1 3 メモリＭＰＵ２ネットワーク（a）概念図図４．１５　ページを基盤としたＤＳＭ

（b）ノード１上でのページ０アクセス時の処理
ユーザプロセス（２）ページフォールト（１）アドレス変換のためのアクセスページ表 i 1 2 v 3 （５）再開（３）ノード２からページ０をもらい，マッピングする．（４）エントリ０の i をｖに変更有効／無効ビット（Valid/ Invalid ） bit （b）ノード１上でのページ０アクセス時の処理図４．１５　ページを基盤としたＤＳＭ

ＤＳＭ：ページを基盤としたシステム（２／２）ー書込み時無効化方式を用いたコヒーレンスプロトコル例（１／３）ー
各ページの状態読出し専用（Ｒ）ページ表エントリ属性：　リードオンリ各ノードに複数あってもよい．読書き可能（Ｗ）ページ表エントリ属性：　リードライトシステムで１つのみ（所有者のみ）各ページごとに所有者を設ける．最後に書込みを行ったノードが所有者

ＤＳＭ：ページを基盤としたシステム（２／２）ー書込み時無効化方式を用いたコヒーレンスプロトコル例（２／３）ー
状況（図４．１６）プロセッサ１が所有者Ｒの状態，プロセッサ２にコピーなし（状態Ｓ１）Ｒの状態，プロセッサ２にコピーあり（状態Ｓ２）Ｗの状態（状態Ｓ３）プロセッサ２が所有者Ｒの状態，プロセッサ１にコピーあり（状態Ｓ４）Ｒの状態，プロセッサ１にコピーなし（状態Ｓ５）Ｗの状態（状態Ｓ６）リード／ライトアクセス時の処理図４．１６

ＤＳＭ：ページを基盤としたシステム（２／２）ー書込み時無効化方式を用いたコヒーレンスプロトコル例（３／３）ー
図４．１６　各ページの状態と動作１２）プロセスAが読出しアクセスプロセッサ１　　　　プロセッサ２ R ：ページプロセスAが書込みアクセスプロセッサ１　　　　プロセッサ２状態 A R 所有者 A ：プロセス A R 所有者 S1 読出し 1．ページの状態を　　Wにする． 2．書込み 1．コピーの無効化を依頼 2．ページの状態を　　Wにする． 3．書込み A R 所有者 A R 所有者 S2 読出し A W 所有者 A W 所有者 S3 読出し書込み 1．コピーの無効化を依頼 2．所有権の獲得 3．ページの状態を　　Wにする． 4．書込み A R 所有者 A R 所有者 S4 読出し 1.コピーを依頼 2．ページの状態を　　Rにする． 3．読み出し 1．コピーの無効化を依頼 2．所有権の獲得 3．ページを送信してもらう． 4．ページの状態をWにする． 5．書込み S5 A R 所有者 A R 所有者 1．ページの状態を　　Rにするよう依頼 2．コピーを依頼 3．ページの状態を　　Rにする． 4．読み出し 1．コピーの無効化を依頼 2．所有権の獲得 3．ページを送信してもらう． 4．ページの状態をWにする． 5．書込み A W 所有者 A W 所有者 S6

ＮＵＭＡマルチプロセッサのメモリ管理メモリの活用方法：図４．２３キャッシング技法におけるＮＵＭＡ，キャッシュ，ＤＳＭとの相違
a)キャッシングなし b)キャッシングありキャッシング技法におけるＮＵＭＡ，キャッシュ，ＤＳＭとの相違表４．１キャッシュとの大きな相違キャッシュは，管理対象が小さい（キャッシュライン）ＤＳＭとの大きな相違ＤＳＭは，キャッシングは永久的に適用．ＮＵＭＡはリモートアクセス可能，ソフトウェアで制御可能ＮＵＭＡで主に考慮すべきこと管理対象がページと大きい（キャッシュとの違い）ページの凍結，解除方策が必要（キャッシュ，ＤＳＭとの違い）

（１）メモリをキャッシュとして使用しない場合ページ０ページ１ページ２ページ３
仮想アドレス空間ページ０ページ１ページ２ページ３プロセッサメモリプロセッサメモリ多対１マッピング相　互　結　合　網（１）メモリをキャッシュとして使用しない場合仮想アドレス空間ページ０ページ１ページ２ページ３プロセッサメモリプロセッサメモリ多対多マッピングキャッシュとして使用（全部，一部）キャッシュとして使用（全部，一部）相　互　結　合　網（２）メモリをキャッシュとして使用する場合図４．２３　メモリの活用方法

表４．１キャッシュ，ＤＳＭ，およびＮＵＭＡの比較ＤＳＭＮＵＭＡキャッシュブロックページ不可可能オンデマンド，プリフェッチ
表４．１　キャッシュ，ＤＳＭ，およびＮＵＭＡの比較ハードウェアャッシュ（コヒーレントキャッシュ）ＤＳＭＮＵＭＡ管理対象キャッシュブロックページリモートアクセスの可否不可可能キャッシング時期オンデマンド，プリフェッチソフトウェアで制御可能キャッシング方法（コピー，移動）コピー制御適用時間永久

ＮＵＭＡマルチプロセッサのメモリ管理ー実現例（１／２）ー
対象マシン：図４．２４メモリの活用方法グローバルメモリ：通常のメモリローカルメモリ：キャッシュキャッシュコヒーレンス制御方式ライトバック方式書込み時無効化方式仮想ページの状態読出し専用（Read-Only, RO）複数のローカルメモリに存在する可能性あり．内要は複数間で全て一致局所書込み可能（Local-Writable, LW）１つのローカルメモリにのみ存在グローバルメモリと内容一致大域書込み可能（Global-Writable, GW）ローカルメモリにはコピーなし．グローバルメモリにのみ存在方策の決定ローカルメモリにキャッシング（LOCAL）グローバルメモリにだけおく（GLOBAL）

ＮＵＭＡマルチプロセッサのメモリ管理ー実現例（２／２）ー
MMU ローカルメモリプロセッサ MMU ローカルメモリ・・・グローバルメモリグローバルメモリ図２．２４　対象マシン：IBM　ACE　マルチプロセッサワークステーション

表４．２ページの処理 RO GW LW LOCAL GLOBAL RO GW LW LOCAL GLOBAL 方策決定仮想ページの状態
表４．２　ページの処理（１）読出しアクセス時方策決定仮想ページの状態 RO GW LW 自ノードにある場合他ノードにある場合 LOCAL ローカルへコピー全てをunmap 何もせず他のものをSync&flush GLOBAL 全てをflush 自分のものをSync&flush （２）書込みアクセス時方策決定仮想ページの状態 RO GW LW 自ノードにある場合他ノードにある場合 LOCAL 全てをflush ローカルへコピー全てをunmap 何もせず他のものをSync&flush GLOBAL 自分のものをSync&flush 上段：ローカルメモリに現在ある仮想ページへの対処法中段：ローカルメモリにキャッシングするか否か下段：仮想ページの状態遷移先 sync：ローカルメモリ内の当該ページをグローバルメモリへ書き出す． unmap：仮想ページのローカルメモリへのマッピングを無効化する． flush：unmapに加えて，当該物理ページを解放する．

以上

４章　メモリ管理.

Similar presentations

Presentation on theme: "４章　メモリ管理."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

４章 メモリ管理.

Similar presentations

Presentation on theme: "４章 メモリ管理."— Presentation transcript:

Similar presentations

About project

フィードバック

４章　メモリ管理.

Presentation on theme: "４章　メモリ管理."— Presentation transcript: