記憶の階層とキャッシュ天野英晴.

記憶の階層とキャッシュ天野英晴

記憶システム膨大な容量を持ち、アクセス時間（読み出し、書き込み）が短いメモリが欲しい！しかし
容量の大きい（ビット単価が安い）メモリは遅い高速なメモリは容量が小さいお金にモノを言わせて高速なメモリをたくさん揃えても大容量化の段階で遅くなってしまうそこでアクセスの局所性(Locality)を利用時間的局所性(Temporal Locality) 一度アクセスされたアドレスは近いうちにまたアクセスされる空間的局所性(Special Locality) 一度アクセスされたアドレスに近い場所がまたアクセスされる

記憶の階層ソフトウェアからは透過 CPU （トランスペアレント）チップ内メモリ L1キャッシュ～64KB 1-2clock
高速小容量の CPUの近くに置きよく使うデータを入れておくそこになければより遅い大容量メモリに取りに行くチップ内メモリ L1キャッシュ～64KB　1-2clock L2キャッシュ～256KB 3-10clock L3キャッシュ SRAM 2M～4MB 10-20clock 主記憶 DRAM 4～16GB clock OSが管理補助記憶　（2次記憶） μ-msecオーダー数百GB

半導体メモリの分類 RAM （RWM)：揮発性メモリ ROM(Read Only Memory)：不揮発性メモリ電源を切ると内容が消滅
SRAM(Static　RAM) DRAM(Dynamic　RAM) ROM(Read Only Memory)：不揮発性メモリ電源を切っても内容が保持 Mask ROM 書き換え不能 PROM(Programmable ROM)　プログラム可 One Time PROM　一回のみ書き込める Erasable PROM　消去、再書き込み可能 UV EPROM　（紫外線消去型） EEPROM （電気的消去可能型）　フラッシュメモリ

ＲＡＭの容量アドレス本数容量省略した言い方８２５６ 10 1024 1K 12 4096 4K 16 65536 64K 18
262144 256K 20 1M 24 16M 28 256M 30 1G 32 4G 深さ×幅右の表に幅を掛ければ全体の容量が出る省略した言い方でも十分（端数を覚えている人は少ない）

SRAM (Static RAM) 非同期式SRAM
古典的なＳＲＡＭクロックを用いない現在も低電力SRAMシリーズなどで用いられる連続転送機能を強化したSSRAM　(Synchronous　SRAM）が登場、高速大容量転送に用いられる 8Mbit/Chip-６４Mbit/Chip程度 TSOP (Thin Small Outline Package)やBGA(Ball Grid Array)を利用

DRAM（Dynamic RAM) 記憶はコンデンサ内の電荷によって行うリフレッシュ、プリチャージが必要２５６Mbit/Chipの大容量
連続転送は高速 SDRAM（Synchronous　DRAM）の普及 DDR-SDRAMの登場 DDR2 →　DDR3　 DDR4、HMC(Hｙｂrid Memory Cube)が準備中

DDR-SDRAMカードの例下は１GBでやや小さい。今は４GB－８GBのカードが良く使われる

SDR (Single Data Rate) ＳＤＲＡＭ：同期式ＤＲＡＭ
１００ＭＨｚ－１３３ＭＨｚの高速クロックに同期した読み・書きを行う CS,RAS,CAS,WEなどの制御線の組み合わせでコマンドを構成コマンドにより、同期式に読み、書き、リフレッシュ等を制御バンクの切り替えにより連続読み・書きが高速に可能

SDR-ＳＤＲＡＭの読み出しタイミング CLK Command ACT Read Address Row Column Data0

DDR (Double Data Rate) ＳＤＲＡＭ：同期式ＤＲＡＭ
SDR SDRAM同様の高速周波数（１００ＭＨｚ－１３３ＭＨｚ）のクロックの両エッジで転送を行うことにより、倍のデータ転送レートを実現差動クロックを利用データストローブ信号によりタイミング調整より豊富なコマンド

DDR-ＳＤＲＡＭの読み出しタイミング CLK ～CLK Command ACT Read Address Row Column ＤＱＳ
Data0 Data1 Data2 Data3

DRAMのまとめ SRAMの4倍程度集積度が大使い難いが、連続アクセスは高速転送はますますパケット化する傾向にある
SDR-SDRAM→　DDR-SDRAM→DDR2-SDRAM DDR2: 800Mbps (400MHz両エッヂ）　2Gbit /Chip DDR3: 1600Mbps (800MHz両エッヂ）　4Gbit /Chip パッケージ：FBGA(Fine pitch Ball Grid Array)の利用 SO-DIMM(Small outline Dual dual in-line memory module)の形で供給される：　8GByte/DIMM 現在PC用にはDDR3が標準となるプリフェッチ機能→　連続転送可能１．５V電源、電気的特性の改善 DDR-4が準備中制御は複雑、高速なため取り扱いもたいへん →　IP( Intellectual Property)の利用が進む

フラッシュメモリ EEPROM型の発展：小型化のために選択ゲートを用いず、ブロック単位で消去を行う.
NOR型、NAND型、DINOR型、AND型等様々な構成法がある. オンチップ用：高速消去可能NOR型　1Gbit程度まで単独読み出しが可能、消去が高速ファイルストレージ用：大容量のNAND型　1Gbit- 128Gbit/チップ連続読み出し、消去はミリ秒オーダー掛かる SDメモリカード・SDHCメモリカードなど、8GB-32GBが使われる書き換え回数に制限がある

ストレージシステム：ディスク装置トラック：同心円状のアクセスの単位１万-５万あるシリンダ：ヘッドの下にあるすべてのトラックのこと
磁性体の塗布された円板にデータを格納可動式のヘッドを使って読み書き不揮発性セクタ：512B程度に分割したアクセスの単位　セクタ番号、誤り訂正符号付きのデータを含む

容量と動作速度 2.5インチー3.5インチヘッド数：2-4 容量：１００GB-1TB 平均ディスクアクセス時間＝
　　平均シーク時間（ヘッドを動かす時間）＋　　平均回転待ち時間＋転送時間→数msec インタフェース ATA(Advanced Technology Attachment) SCSI(Small Computer Systems Interface) ディスク内にマイクロプロセッサを装備し、アクセス時間を最適化ディスクキャッシュの利用

キャッシュ頻繁にアクセスされるデータを入れておく小規模高速なメモリ当たる(ヒット）、はずれる（ミスヒット）マッピング（割り付け）
CacheであってCashではないので注意元々はコンピュータの主記憶に対するものだが、IT装置の色々なところに使われるようになったディスクキャッシュ、ページキャッシュ..etc.. 当たる(ヒット）、はずれる（ミスヒット）ミスヒットしたら、下のメモリ階層から取ってきて入れ替える(リプレイス）マッピング（割り付け）主記憶とキャッシュのアドレスを高速に対応付ける Direct map　⇔　Full associative cache 書き込みポリシーライトスルー、ライトバックリプレイス（追い出し）ポリシー LRU　(Least Recently Used)

アドレスマッピング（割り付け）ワード単位に割り付けるのは効率が悪い順番に割り付けていって１周したら、元に戻る
一定の連続アドレスのブロック（ライン）を管理単位とするブロックサイズは8byte-128byte程度ここでは8word(16byte)を使うやや小さい順番に割り付けていって１周したら、元に戻るキャッシュのブロック数（セット数）が2のn乗、ブロックサイズが2のm乗とすると、、、残り n m タグ　（キー) インデックスブロック内アドレス

… Direct Map のアドレス割り付け主記憶：1024ワードブロックサイズ：8ワードキャッシュ：64ワード =8ブロック
　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… … Direct Map のアドレス割り付け主記憶：1024ワードブロックサイズ：8ワードキャッシュ：64ワード　　　　　　　=8ブロック 000 001 010 011 100 101 110 111 Index Tag （Key) 　　　　… ブロック内アドレス

Direct Map From CPU 0011010 0011 010 100 … … 010 010 Main Memory
(1KB=128Lines) Yes：Hit = Data 0011 Cache (64B=8Lines) Cache Directory (Tag Memory) 8 entries X (4bit ) ディレクトリは小さくて済む

Direct Map (Conflict Miss)
From CPU 0000 010 100 … … 010 010 Main Memory No: Miss Hit = 0000 0011 Cache 010を共通するキャッシュラインは Conflict　Missを起こす Cache Directory (Tag Memory)

… 2-way set associative のアドレス割り付け 00 01 10 11 Index Tag （Key) キャッシュ内
　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… 　　　　… … 2-way set associative のアドレス割り付け 00 01 10 11 Index Tag （Key) 　　　　… キャッシュ内アドレス

2-way set associative Map
From CPU 00110 10 100 … … 10 Main Memory (1KB=128Lines) Yes: Hit = Data 00110 Cache (64B=8Lines) 10 No = 00000 Cache Directory (Tag Memory) 4 entries X 5bit X 2

From CPU 00000 10 100 … … 10 Main Memory (1KB=128Lines) No = 00110 Cache (64B=8Lines) 　　10 Data Yes: Hit = 00000 Cache Directory (Tag Memory) 4 entries X 5bit X 2 Conflict　Missが減る

From CPU 001101 100 … … Main Memory (1KB=128Lines) 001101 = Ｄａｔａ = = 000000 Cache (64B=8Lines) Cache Directory (Tag Memory) 2 entries X 6bit X 4 =

8-way set associative Map → Full Map
From CPU … … 100 Main Memory (1KB=128Lines) = = = Ｄａｔａ = = = = Cache (64B=8Lines) Cache Directory (Tag Memory) 7bit X 8 =

タグメモリの設計法キャッシュ内に何ブロック入るかを計算する。２のn乗である時インデックスはnbitとなる
メモリ内に何ブロック入るかを計算する。２のh乗である時タグはh-n=mbitとなるダイレクトマップでは幅m,深さ2のn乗のタグメモリが必要 2-way set associativeは、インデックスが1bit減り深さが半分となり、タグが1bitを増える。しかしこれがダブルで必要 way数が倍になる度にインデックスが1bit減り、深さが半分になり、タグが1bit増え、タグ自体が倍になる。

書き込みポリシー Write Through Write Back 書き込み時に主記憶にもデータを書く
Direct Write:ミス時は主記憶だけに書く Fetch-on-write:ミス時はリプレイスしてから書く主記憶に合わせると性能ががた落ち（Verilogの設計はそうなっている）だが、Write bufferがあれば性能がさほど落ちることはない Write Back 書き込みはキャッシュのみキャッシュと主記憶が一致：Clean、違う：Dirty Dirtyなキャッシュブロックは書き戻し（Write Back)をしてからリプレイス

Write Through （Hit） 0011010 … … From CPU Main Memory (1KB=128Lines)
100 主記憶も同時に更新 0011 Hit Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit )

Write Through （Miss：Direct Write）
… … From CPU Main Memory (1KB=128Lines) 0000 010 100 主記憶のみ更新 0011 Miss Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit )

Write Through （Miss：Fetch on Write）
… … From CPU Main Memory (1KB=128Lines) 0000 010 100 0011 0000 Miss Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit )

Write Back （Hit） 0011010 … … From CPU Main Memory (1KB=128Lines) 0011
100 Dirty 0011 1 Hit Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit+1bit )

Write Back （Replace） 0000010 0011010 … … From CPU Write Back
Main Memory (1KB=128Lines) 0000 010 100 Dirty 0000 0011 1 Miss Cache (64B=8Lines) Cache Directory (Tag Memory) 8 entries X (4bit+1bit )

ライトスルーとライトバック「ライトスルーは主記憶を待たなければならないので非効率」というのは嘘ライトバック
ちゃんとライトバッファを装備すれば性能的に悪くはならないしかし、シングルライトが必要→DRAMに合わない常にデータの一致が取れるのがメリット、観測性が高い、I/Oで有利ライトバック常にデータ転送がブロック単位→DRAM、高速バスに適合バスの利用率が下がる→マルチコアに適合大体世の中はライトバックになりつつある

リプレイスポリシーリプレイスの際、どのWayを選ぶか？ LRU (Least Recently Used)
Direct map以外のキャッシュで問題になる LRU (Least Recently Used) 最近もっとも使っていないwayを選ぶ 2-wayならば簡単→ Verilog記述参照 4-way以上は結構面倒→　擬似的なLRUでも大体OK 他にランダム、FIFOなどが考えられるが実際上あまり用いられない

キャッシュの性能キャッシュオーバーヘッド付きCPI(Clock cycles Per Instruction)＝理想のCPI +
　　命令キャッシュのミス率×ミスペナルティ　＋　　データキャッシュの読み出しミス率×読み出し命令の生起確率×ミスペナルティこの式の問題点ミスペナルティは書き戻しを伴うかどうかで違ってくる（Write Back) ライトバッファの容量、連続書き込み回数によっては書き込みミスでもストールする書き込み直後に読み出しをするとキャッシュが対応できないでペナルティが増えることもある→ノンブロッキングキャッシュ実際は階層化されているのでそれぞれの階層を考えないといけないプロセッサがOut-of-order実行可能ならば読み出し時にストールしないかもしれない（この話は後ほど、、、）ちゃんと評価するにはシミュレータを使うしかない、、、、

ミスの原因：３つのC Capacity Miss：容量ミス Conflict Miss:衝突ミス
絶対的な容量不足により起きる Conflict Miss:衝突ミス容量に余裕があっても、indexが衝突することで、格納することができなくなる Compulsory Miss (Cold Start Miss) 初期化ミススタート時、プロセス切り替え時に最初にキャッシュにブロックを持ってくるためのミス。避けることができない

キャッシュサイズとそれぞれもミスの割合 Hennessy & Patterson Computer Architectureより

ミス率を減らす容量を増やす Way数を増やすブロックサイズを大きくする〇容量ミスはもちろん減る。衝突ミスも減る。
×コストが大きくなる。ヒット時間が増える。チップ（ボード）に載らない Way数を増やす〇衝突ミスが減るキャッシュ容量が小さいと効果的、2Wayは、2倍の大きさのDirect Mapと同じ位のミス率になるキャッシュ容量が大きい場合、残った不運な衝突ミスを減らす効果がある ×コストが大きくなる。ヒット時間が増える。4以上はあまり効果がない。ブロックサイズを大きくする　〇局所性によりミスが減る。　×ミスペナルテイが増える。（ブロックサイズに比例はしないが、、）　　　キャッシュ容量が小さいと衝突ミスが増える容量に応じて適切なブロックサイズを選ぶ。32byte-128byte

ブロックサイズとミスの割合 Hennessy & Patterson Computer Architectureより

ブロックサイズと平均アクセス時間 Hennessy & Patterson Computer Architectureより

ミスペナルティを減らす階層キャッシュノンブロッキングキャッシュ Critical Word FirstとEarly Restart
CPU－Memory間に複数のキャッシュを設けるノンブロッキングキャッシュミス処理の間にも次のアクセスを受け付ける Critical Word FirstとEarly Restart CPUに対して可能な限り早くアクセスされたデータ（命令）を渡す

マルチレベルキャッシュ CPUに近い方からL1,L2.. と番号を付ける L2・L3キャッシュの局所ミス率は L1キャッシュより高い
～64KB　1-2clock L2キャッシュ～256KB 3-10clock L3キャッシュ 2M～4MB 10-20clock 主記憶 4～16GB clock

マルチレベルキャッシュの制御 Multi-level Inclusion Multi-level Exclusion
上位階層のキャッシュが下位階層の内容を全て含む階層間のやり取りは、キャッシューメモリ間と同じメモリシステム中にデータの重複が数多く存在 Multi-level Exclusion 上位階層のキャッシュと下位階層のキャッシュの内容が重なることはない階層間のやり取りは、リプレースというよりはスワップ

ノンブロッキングキャッシュキャッシュが動作中にも次のアクセスを受け付ける CPUがアウトオブオーダ実行可能でないと効果が小さい→来年
キャッシュの操作をパイプライン化するメモリアクセスを強化しないとノンブロッキングキャッシュにはできない実際はミス中のヒットを1回許せば大体OK CPUがアウトオブオーダ実行可能でないと効果が小さい→来年

Critical Word FirstとEarly Restart
CPU キャッシュに転送する前に CPUにワードを渡す（Early Restart) キャッシュアクセスしたワードを先に送る（Critical Word Firsｔ）主記憶

プリフェッチアクセスする前にキャッシュに取って来るハードウェアプリフェッチソフトウェアプリフェッチ
(問題点)　使うかどうか分からないデータ（命令）のために他のラインを追い出していいのか？？ →プリフェッチバッファを使う場合が多い本当にアクセスされたらキャッシュに入れるハードウェアプリフェッチ命令キャッシュで用いる。一つ（二つ）先のブロックまで取って来る命令キャッシュは局所性が高いので効果的ソフトウェアプリフェッチプリフェッチ命令を使う：データキャッシュコンパイラが挿入命令実行のオーバーヘッドを伴う

コンパイラによる最適化ループ構造の最適化ブロック化科学技術計算には効果的ループの入れ子を入れ替えるループをくっつける
キャッシュにうまく入るようにデータ構造を変更する科学技術計算には効果的 for(j=0; j<100; j=j+1) for(i=0; i<5000; i=i+1) x[i][j] = a * x[i][j]; for(i=0; i<5000; i=i+1) for(j=0; j<100; j=j+1) x[i][j] = a * x[i][j];

仮想記憶（Virtual Memory) プロセッサから見たアドレス（論理アドレス）と実際のメモリ上のアドレス（物理アドレス）を分離する
実メモリよりも大きいメモリを扱うことができる複数のプロセスを互いのアドレスを気にせずに並行実行可能管理単位で記憶の保護ページ：固定サイズ(4K-16KB)　 vs. セグメント：可変サイズ→ページを用いる場合が多い概念はキャッシュに似ているがOSが管理、用語も違うブロック(ライン)：32-128B　⇔　ページ:4KB リプレイス　　スワップインライトバック　⇔　スワップアウトページの割り付けはOSが管理リプレイスはLRU(Least Recently Used) 書き込み制御は当然ライトバック

仮想記憶のアドレス変換論理アドレス空間（４GB) ページ番号ページ内アドレス物理アドレス空間（16MB) 20bit 12bit
TLB 12bit 12bit 20bit→12bitの変換テーブルは巨大ソフトウェアで管理 TLB(Translation Lookaside Buffer)はこの変換テーブルに対するキャッシュ

TLB(Translation Lookaside Buffer)
論理アドレスページ番号ページ内アドレス Dirty bit Priority bit = = = = = = = 物理アドレス =

ページフォルト（Page Fault)の発生
3年のコンピュータアーキテクチャ、OSの授業で学ぶ例外処理の一つ TLBミスページ自体は主記憶中に存在→TLBの入れ替えページ自体が主記憶中にない→スワップイン＋TLBの入れ替えヒットしたがDirty bitが0のページに書き込みを行った Dirty bitのセットヒットしたが特権命令でないのに特権ページを扱ったいずれのケースもOSで処理する

TLB変換時間の短縮仮想アドレスキャッシュ仮想アドレスインデックス-物理アドレスタグ方式
キャッシュは仮想アドレスで参照するプロセスによってアドレスがダブる問題（シノニム問題）の解決が難しい仮想アドレスインデックス-物理アドレスタグ方式　　(Virtually indexed, Physically Tagged) 変換を行わないページ内アドレスをキャッシュのインデックスに使うタグ参照、キャッシュ参照、TLB変換が同時に可能 Direct Mapだとキャッシュサイズが4KBに制限される 2 way だと8K、4 wayだと16K、8 wayだと32K １次キャッシュだけの話なので、多少小さくてもいいか。。。。

仮想アドレスインデックス・物理アドレスタグ方式
ページ番号ページ内アドレス(12bit) 20bit index Tag Mem. キャッシュ TLB = 12bit Tag Hit CPUへ

演習1 0x00番地からサイズ8の配列A[i]が、0x40番地から同じくサイズ8の配列B[i]が割り付けられている。
enshu.asmは以下を計算するプログラムである int i,dsum; dsum =0; for(i=0; i<8;i++) dsum += B[i]-A[i]; これをダイレクトマップのキャッシュ（direct)で実行したときと２ウェイセットアソシアティブ（2way)で実行したときで、両者のミスの回数と、演算結果が出るまでのクロック数（pcがｃ番地になったら終了と考えよう）をシミュレーションして求めよ。

演習2 64kワードの主記憶に対して4kワードのキャッシュを設けるブロックサイズは16ワードとする
ダイレクトマップ、2way set associative、4way set associativeキャッシュのタグメモリ構成をそれぞれ示せヒント：タグメモリの設計法のページを参照！

演習３あるキャッシュのブロックにマップされた互いに衝突するアドレスA,Bに対して以下のアクセスを順に行う。 Aから読み出し Bから読み出し
ダイレクトライト型のライトスルーキャッシュ、ライトバックキャッシュについて、それぞれのアクセスがミスするかヒットするかを示せ。また、各アクセスによってメモリに対してどのような操作（リプレイスR、ライトバックWB、ライトスルーの書き込みWTH）が必要か？ライトバックについてはブロックはC、Dのうちどちらの状態になるか？

記憶の階層とキャッシュ天野英晴.

Similar presentations

Presentation on theme: "記憶の階層とキャッシュ天野英晴."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

記憶の階層とキャッシュ 天野英晴.

Similar presentations

Presentation on theme: "記憶の階層とキャッシュ 天野英晴."— Presentation transcript:

Similar presentations

About project

フィードバック

記憶の階層とキャッシュ天野英晴.

Presentation on theme: "記憶の階層とキャッシュ天野英晴."— Presentation transcript: