キャッシュの高速化手法と仮想記憶天野英晴.

キャッシュの高速化手法と仮想記憶天野英晴

キャッシュの性能キャッシュオーバーヘッド付きCPI(Clock cycles Per Instruction)＝理想のCPI +
　　命令キャッシュのミス率×ミスペナルティ　＋　　データキャッシュの読み出しミス率×読み出し命令の生起確率×ミスペナルティこの式の問題点ミスペナルティは書き戻しを伴うかどうかで違ってくる（Write Back) ライトバッファの容量、連続書き込み回数によっては書き込みミスでもストールする書き込み直後に読み出しをするとキャッシュが対応できないでペナルティが増えることもある→ノンブロッキングキャッシュ実際は階層化されているのでそれぞれの階層を考えないといけないプロセッサがOut-of-order実行可能ならば読み出し時にストールしないかもしれない（この話は後ほど、、、）ちゃんと評価するにはシミュレータを使うしかない、、、、

ミスの原因：３つのC Capacity Miss：容量ミス Conflict Miss:衝突ミス
絶対的な容量不足により起きる Conflict Miss:衝突ミス容量に余裕があっても、indexが衝突することで、格納することができなくなる Compulsory Miss (Cold Start Miss) 初期化ミススタート時、プロセス切り替え時に最初にキャッシュにブロックを持ってくるためのミス。避けることができない

キャッシュサイズとそれぞれもミスの割合 Hennessy & Patterson Computer Architectureより

ミス率を減らす容量を増やす Way数を増やすブロックサイズを大きくする〇容量ミスはもちろん減る。衝突ミスも減る。
×コストが大きくなる。ヒット時間が増える。チップ（ボード）に載らない Way数を増やす〇衝突ミスが減るキャッシュ容量が小さいと効果的、2Wayは、2倍の大きさのDirect Mapと同じ位のミス率になるキャッシュ容量が大きい場合、残った不運な衝突ミスを減らす効果がある ×コストが大きくなる。ヒット時間が増える。4以上はあまり効果がない。ブロックサイズを大きくする　〇局所性によりミスが減る。　×ミスペナルテイが増える。（ブロックサイズに比例はしないが、、）　　　キャッシュ容量が小さいと衝突ミスが増える容量に応じて適切なブロックサイズを選ぶ。32byte-128byte

ブロックサイズとミスの割合 Hennessy & Patterson Computer Architectureより

ブロックサイズと平均アクセス時間 Hennessy & Patterson Computer Architectureより

ミスペナルティを減らす階層キャッシュノンブロッキングキャッシュ Critical Word FirstとEarly Restart
CPU－Memory間に複数のキャッシュを設けるノンブロッキングキャッシュミス処理の間にも次のアクセスを受け付ける Critical Word FirstとEarly Restart CPUに対して可能な限り早くアクセスされたデータ（命令）を渡す

マルチレベルキャッシュ CPUに近い方からL1,L2.. と番号を付ける L2・L3キャッシュの局所ミス率は L1キャッシュより高い
～64KB　1-2clock L2キャッシュ～256KB 3-10clock L3キャッシュ 2M～4MB 10-20clock 主記憶 4～16GB clock

マルチレベルキャッシュの制御 Multi-level Inclusion Multi-level Exclusion
上位階層のキャッシュが下位階層の内容を全て含む階層間のやり取りは、キャッシューメモリ間と同じメモリシステム中にデータの重複が数多く存在 Multi-level Exclusion 上位階層のキャッシュと下位階層のキャッシュの内容が重なることはない階層間のやり取りは、リプレースというよりはスワップ

ノンブロッキングキャッシュキャッシュが動作中にも次のアクセスを受け付ける CPUがアウトオブオーダ実行可能でないと効果が小さい→来週
キャッシュの操作をパイプライン化するメモリアクセスを強化しないとノンブロッキングキャッシュにはできない実際はミス中のヒットを1回許せば大体OK CPUがアウトオブオーダ実行可能でないと効果が小さい→来週

Critical Word FirstとEarly Restart
CPU キャッシュに転送する前に CPUにワードを渡す（Early Restart) キャッシュアクセスしたワードを先に送る（Critical Word Firsｔ）主記憶

プリフェッチアクセスする前にキャッシュに取って来るハードウェアプリフェッチソフトウェアプリフェッチ
(問題点)　使うかどうか分からないデータ（命令）のために他のラインを追い出していいのか？？ →プリフェッチバッファを使う場合が多い本当にアクセスされたらキャッシュに入れるハードウェアプリフェッチ命令キャッシュで用いる。一つ（二つ）先のブロックまで取って来る命令キャッシュは局所性が高いので効果的ソフトウェアプリフェッチプリフェッチ命令を使う：データキャッシュコンパイラが挿入命令実行のオーバーヘッドを伴う

コンパイラによる最適化ループ構造の最適化ブロック化科学技術計算には効果的ループの入れ子を入れ替えるループをくっつける
キャッシュにうまく入るようにデータ構造を変更する科学技術計算には効果的 for(j=0; j<100; j=j+1) for(i=0; i<5000; i=i+1) x[i][j] = a * x[i][j]; for(i=0; i<5000; i=i+1) for(j=0; j<100; j=j+1) x[i][j] = a * x[i][j];

仮想記憶（Virtual Memory) プロセッサから見たアドレス（論理アドレス）と実際のメモリ上のアドレス（物理アドレス）を分離する
実メモリよりも大きいメモリを扱うことができる複数のプロセスを互いのアドレスを気にせずに並行実行可能管理単位で記憶の保護ページ：固定サイズ(4K-16KB)　 vs. セグメント：可変サイズ→ページを用いる場合が多い概念はキャッシュに似ているがOSが管理、用語も違うブロック(ライン)：32-128B　⇔　ページ:4KB リプレイス　　スワップインライトバック　⇔　スワップアウトページの割り付けはOSが管理リプレイスはLRU(Least Recently Used) 書き込み制御は当然ライトバック

仮想記憶のアドレス変換論理アドレス空間（４GB) ページ番号ページ内アドレス物理アドレス空間（16MB) 20bit 12bit
TLB 12bit 12bit 20bit→12bitの変換テーブルは巨大ソフトウェアで管理 TLB(Translation Lookaside Buffer)はこの変換テーブルに対するキャッシュ

TLB(Translation Lookaside Buffer)
論理アドレスページ番号ページ内アドレス Dirty bit Priority bit = = = = = = = 物理アドレス =

ページフォルト（Page Fault)の発生
TLBミスページ自体は主記憶中に存在→TLBの入れ替えページ自体が主記憶中にない→スワップイン＋TLBの入れ替えヒットしたがDirty bitが0のページに書き込みを行った Dirty bitのセットヒットしたが特権命令でないのに特権ページを扱ったいずれのケースもOSで処理する

TLB変換時間の短縮仮想アドレスキャッシュ仮想アドレスインデックス-物理アドレスタグ方式
キャッシュは仮想アドレスで参照するプロセスによってアドレスがダブる問題（シノニム問題）の解決が難しい仮想アドレスインデックス-物理アドレスタグ方式　　(Virtually indexed, Physically Tagged) 変換を行わないページ内アドレスをキャッシュのインデックスに使うタグ参照、キャッシュ参照、TLB変換が同時に可能 Direct Mapだとキャッシュサイズが4KBに制限される 2 way だと8K、4 wayだと16K、8 wayだと32K １次キャッシュだけの話なので、多少小さくてもいいか。。。。

仮想アドレスインデックス・物理アドレスタグ方式
ページ番号ページ内アドレス(12bit) 20bit index Tag Mem. キャッシュ TLB = 12bit Tag Hit CPUへ

ストレージシステム：ディスク装置トラック：同心円状のアクセスの単位１万-５万あるシリンダ：ヘッドの下にあるすべてのトラックのこと
磁性体の塗布された円板にデータを格納可動式のヘッドを使って読み書き不揮発性セクタ：512B程度に分割したアクセスの単位　セクタ番号、誤り訂正符号付きのデータを含む

容量と動作速度 2.5インチー3.5インチヘッド数：2-4 容量：１００GB-1TB 平均ディスクアクセス時間＝
　　平均シーク時間（ヘッドを動かす時間）＋　　平均回転待ち時間＋転送時間→数msec インタフェース ATA(Advanced Technology Attachment) SCSI(Small Computer Systems Interface) ディスク内にマイクロプロセッサを装備し、アクセス時間を最適化ディスクキャッシュの利用

ディペンダビリティサービス仕様を満足サービス中断障害：1→２復旧：2→1 信頼性（reliability): 1の連続遂行可能時間
障害：1→２　　復旧：2→1 信頼性（reliability): 1の連続遂行可能時間 MTTF（Mean Time To Failure) 可用性(availability): 1の状態で居られる割合 MTTF/（MTTF+MTTR) MTBF(Mean Time Between Failure)=MTTF+MTTR ディペンダビリティを上げる→冗長性　　　

RAID (Redundant Arrays of Inexpensive Disks)
複数の安価なディスクを同時にアクセスアクセス速度の改善信頼性を改善 RAID 0:　冗長性なし、複数ディスクに対するアクセスの分散（ストライピング）のみ RAID 1:　ミラーリング 2つ用意して同じ内容を書くコストが高い RAID 2:　ハミングコードによるデータ修復効率が悪く実際には使われていない

ストライピングとミラーリングの組み合わせ
RAID0+1 (RAID01) RAID1+0 (RAID10) RAID1 RAID0 RAID0 RAID0 RAID1 RAID1 D0 D1 D0 D1 D0 D0 D1 D1 D2 D3 D2 D3 D2 D2 D3 D3 D4 D5 D4 D5 D4 D4 D5 D5 D6 D7 D6 D7 D6 D6 D7 D7 D8 D9 D8 D9 D8 D8 D9 D9 … … … … … … … … ディスクドライブに対する故障耐性はRAID1+0が有利コントローラに対する故障耐性はRAID0+1が有利 RAID1+0の方が多く使われる

RAID 3 データ単位に分散させ、各行に対応するParityディスクを設ける一つのディスクが故障しても、Parityにより復旧が可能
B0 B1 B2 B3 P B4 B5 B6 B7 P C0 C1 C2 C3 P C4 C5 C6 C7 P データ単位に分散させ、各行に対応するParityディスクを設ける一つのディスクが故障しても、Parityにより復旧が可能連続データに対してアクセスが分散されるので、ストリーム処理（画像データ）や科学技術計算で有利

RAID4 独立した小さな読み出し（保護グループ内に入る読み出し）に対応するためにブロック単位でストライピング
AII AIII AIV P BI BII BIII BIV P CI CII CIII CIV P DI DII DIII DIV P 独立した小さな読み出し（保護グループ内に入る読み出し）に対応するためにブロック単位でストライピングそれぞれのブロックに対してパリティを設ける

RAID4とRAID3の書き込み時の動作小さな書き込みに対して、RAID4は読み出しが1台で済む
P AI AII AIII AIV P ＋＋＋ A0’ A1 A2 A3 P’ AI’ AII AIII AIV P’ 小さな書き込みに対して、RAID4は読み出しが1台で済む書き込み時にParityディスクがボトルネックになる

RAID 5 Parityブロックを分散することでParityの書き込みを分散障害時の回復は面倒
AII AIII AIV P BI BII BIII P BIV CI CII P CIII CIV DI P DII DIII DIV Parityブロックを分散することでParityの書き込みを分散障害時の回復は面倒 2重のデータ故障への対応→Parityを二重化（RAID6) アクセス並列化の強化→RAID 5+0 耐故障性の強化→RAID 1+5

演習以下の条件でキャッシュのオーバーヘッドを含めたCPIはどのようになるか計算せよ理想のCPI： 1.1
1次キャッシュのミスペナルティ：10クロック 2次キャッシュ（統合キャッシュ）のミスペナルティ：50クロック→2次キャッシュミス時に1次キャッシュのペナルティを加える必要はない（Critical word First + Early restart） 1次命令キャッシュのミス率：1% 1次データキャッシュのリード時のミス率：3% 2次キャッシュのローカルミス率：10% データ読み出し命令の生起確率：15% プロセッサはインオーダ実行（命令の追い越しはない）キャッシュはパイプライン化されており、十分なライトバッファを持っている

キャッシュの高速化手法と仮想記憶天野英晴.

Similar presentations

Presentation on theme: "キャッシュの高速化手法と仮想記憶天野英晴."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

キャッシュの高速化手法と仮想記憶 天野英晴.

Similar presentations

Presentation on theme: "キャッシュの高速化手法と仮想記憶 天野英晴."— Presentation transcript:

Similar presentations

About project

フィードバック

キャッシュの高速化手法と仮想記憶天野英晴.

Presentation on theme: "キャッシュの高速化手法と仮想記憶天野英晴."— Presentation transcript: