キャッシュ頻繁にアクセスされるデータを入れておく小規模高速なメモリ当たる(ヒット）、はずれる（ミスヒット）マッピング（割り付け）

Slides:

Advertisements

Similar presentations

情報理工学系研究科コンピュータ科学専攻上嶋裕樹

Advertisements

キャッシュの高速化手法と仮想記憶天野英晴.

07. 値予測五島正裕.

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

■ディレクトリエントリキャッシュ linuxではdentryという構造体に、ファイルパス名の情報を格納しメモリ上にキャッシングしている。

情報検索概説II 第8回パソコン組み立てと記憶装置 1999/11/25.

計算機工学III オペレーティングシステム #14 ファイル：より進んだファイルシステム 2006/07/21 津邑公暁

07. 値予測五島正裕.

ヘテロジニアスマルチコアプロセッサ環境を対象としたキャッシュシステム自動生成ツールの開発

記憶の階層とキャッシュ天野英晴.

情報システム基盤学基礎１コンピュータアーキテクチャ編第６回記憶階層

基本情報技術概論（第10回）埼玉大学理工学研究科堀山貴史

Ibaraki Univ. Dept of Electrical & Electronic Eng.

計算機システムⅡ キャッシュと仮想記憶和田俊和.

ダイレクトマップキャッシュの構成例：メモリアドレス＝３２ビットキャッシュ容量C＝256Kbyte　C=B×A×S ブロックサイズ（ラインサイズ）B＝３２byte セット数（ブロック数、ライン数）S=8K アソシアティビティA=1 (ダイレクトマップは１) メモリアドレス＝３２ビットタグ１４ビット.

第６回　仮想記憶とページングページングページ取り出し方式ページ置き換え方式中間テスト（４０分）

オペレーティングシステム第10回仮想記憶管理(1)

システムソフトウェア講義の概要計算機システムの復習：中央演算処理装置(CPU)，プログラムの実行，主記憶装置，補助記憶装置

メモリに関する話題（1） - Cache Memory (1) - Cache

基本情報技術概論（第12回）埼玉大学理工学研究科堀山貴史

計算機システムⅡ 主記憶装置とALU，レジスタの制御

情報塾（）ＣＰＵとメモリがどんなふうに動くのだろう。レジスタやI/O プログラムの実行、マシン語。

計算機システム概論・４回目本日のトピック：メモリの管理と仮想記憶メモリ管理におけるOSの役割メモリの割当方法について

オペレーティングシステム第11回仮想記憶管理(2)

オペレーティングシステム第9回実記憶管理 38号館4階N-411 内線5459

Explorations in Symbiosis on two Multithreaded Architectures

記憶管理（２）オペレーティングシステム第10回.

小型デバイスからのデータアクセス情報処理系論第5回.

オペレーティングシステム第12回仮想記憶管理(3)

第７章　データベース管理システム７．１データベース管理システムの概要７．２データベースの格納方式７．３問合せ処理.

LogStructuredFileSystem Servey

第５回 CPUの役割と仕組み３割り込み、パイプライン、並列処理

メモリに関する話題（2） - 仮想メモリ Memory (2) – Virtual Memory

計算機システムⅡ 入出力と周辺装置和田俊和.

Ibaraki Univ. Dept of Electrical & Electronic Eng.

基本情報技術概論（第８回）埼玉大学理工学研究科堀山貴史

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

専門演習Ⅰ 国際経済学部国際産業情報学科 2年石川愛

コンピュータ基礎記憶階層とキャッシュテキスト第10章

メモリ管理 4.3, 4.4 章さだ.

Lazy Release Consistency

キャッシュの高速化手法と仮想記憶作りながら学ぶコンピュータアーキテクチャ（改訂版）授業資料　テキスト152-15７ページ対応天野英晴.

作りながら学ぶコンピュータアーキテクチャ（改訂版）授業資料テキストページ対応天野英晴

非レイテンシ指向レジスタ・キャッシュ・システム

コンピュータを知る１Ｅ１６Ｍ００９－１梅津たくみ１Ｅ１６Ｍ０１７－８小沢あきら１Ｅ１６Ｍ０３５－０柴田かいと

Advanced Computer Architecture

オペレーティングシステムイントロダクション

Advanced Computer Architecture

Ibaraki Univ. Dept of Electrical & Electronic Eng.

アルゴリズムとデータ構造補足資料5-1 「メモリとポインタ」

Advanced Computer Architecture

オペレーティングシステムJ/K (仮想記憶管理)

コンピュータの仕組み 1E16M048 圓谷英一 1E16M050 徳弘徹也 1E16M051 戸張将義 1E16M052 飛田優輝

コンピュータの基本構成について 1E16M001-1 秋田梨紗 1E16M010-2 梅山桃香 1E16M013-3 大津智紗子

先進的計算基盤システムシンポジウム SACSIS2007併設企画マルチコアプログラミングコンテスト「Cellスピードチャレンジ2007」

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

計算機構成第3回データパス：計算をするところテキスト14‐19、29‐35

慶應義塾大学理工学部天野英晴共有メモリ型計算機　慶應義塾大学理工学部天野英晴

コンピュータの仕組み〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀

第5回メモリ管理（２）オーバレイ方式論理アドレスとプログラムの再配置静的再配置と動的再配置仮想記憶とメモリ階層セグメンテーション

コンピュータアーキテクチャ第 9 回.

第４回　メモリ管理主記憶（メインメモリ）の管理固定区画方式と可変区画方式空き領域の管理スワッピング.

Mondriaan Memory Protection の調査

コンピュータアーキテクチャ第 5 回.

コンピュータアーキテクチャ第 4 回.

第４回 CPUの役割と仕組み２命令の解析と実行、クロック、レジスタ

コンピュータアーキテクチャ第 9 回.

コンピュータアーキテクチャ第 5 回.

コンピュータ工学基礎マルチサイクル化とパイプライン化テキスト9章 115~124

Ibaraki Univ. Dept of Electrical & Electronic Eng.

Presentation transcript:

キャッシュ頻繁にアクセスされるデータを入れておく小規模高速なメモリ当たる(ヒット）、はずれる（ミスヒット）マッピング（割り付け） CacheであってCashではないので注意元々はコンピュータの主記憶に対するものだが、IT装置の色々なところに使われるようになったディスクキャッシュ、ページキャッシュ..etc.. 当たる(ヒット）、はずれる（ミスヒット）ミスヒットしたら、下のメモリ階層から取ってきて入れ替える(リプレイス）マッピング（割り付け）主記憶とキャッシュのアドレスを高速に対応付ける Direct map　⇔　Full associative cache 書き込みポリシーライトスルー、ライトバックリプレイス（追い出し）ポリシー LRU　(Least Recently Used)

アドレスマッピング（割り付け）ワード単位に割り付けるのは効率が悪い順番に割り付けていって１周したら、元に戻る一定の連続アドレスのブロック（ライン）を管理単位とするブロックサイズは8byte-128byte程度ここでは8word(16byte)を使うやや小さい順番に割り付けていって１周したら、元に戻るキャッシュのブロック数（セット数）が2のn乗、ブロックサイズが2のm乗とすると、、、残り n m タグ　（キー) インデックスブロック内アドレス

… Direct Map のアドレス割り付け主記憶：1024ワードブロックサイズ：8ワードキャッシュ：64ワード =8ブロック 0000000000 　　　　… 0000000111 0000010000 　　　　… 0000010111 0000100000 　　　　… 0000100111 0000110000 　　　　… 0000110111 0001000000 　　　　… 0001000111 0001010000 　　　　… 0001010111 1111111000 　　　　… 1111111111 0000001000 　　　　… 0000001111 0000011000 　　　　… 0000011111 0000101000 　　　　… 0000101111 0000111000 　　　　… 0000111111 0001001000 　　　　… 0001001111 1111110000 　　　　… 1111110111 … Direct Map のアドレス割り付け主記憶：1024ワードブロックサイズ：8ワードキャッシュ：64ワード　　　　　　　=8ブロック 000 001 010 011 100 101 110 111 Index Tag （Key) 0000101000 　　　　… 0000101111 ブロック内アドレス

Direct Map From CPU 0011010 0011 010 100 … … 010 010 Main Memory (1KB=128Lines) Yes：Hit = Data 0011 Cache (64B=8Lines) Cache Directory (Tag Memory) 8 entries X (4bit ) ディレクトリは小さくて済む

Direct Map (Conflict Miss) From CPU 0000010 0000 010 100 … … 010 010 Main Memory No: Miss Hit = 0000 0011 Cache 010を共通するキャッシュラインは Conflict　Missを起こす Cache Directory (Tag Memory)

… 2-way set associative のアドレス割り付け 00 01 10 11 Index Tag （Key) キャッシュ内 0000000000 　　　　… 0000000111 0000010000 　　　　… 0000010111 0000100000 　　　　… 0000100111 0000110000 　　　　… 0000110111 0001000000 　　　　… 0001000111 0001010000 　　　　… 0001010111 1111111000 　　　　… 1111111111 0000001000 　　　　… 0000001111 0000011000 　　　　… 0000011111 0000101000 　　　　… 0000101111 0000111000 　　　　… 0000111111 0001001000 　　　　… 0001001111 1111110000 　　　　… 1111110111 … 2-way set associative のアドレス割り付け 00 01 10 11 Index Tag （Key) 0000101000 　　　　… 0000101111 キャッシュ内アドレス

2-way set associative Map From CPU 0011010 00110 10 100 … … 10 Main Memory (1KB=128Lines) Yes: Hit = Data 00110 Cache (64B=8Lines) 10 No = 00000 Cache Directory (Tag Memory) 4 entries X 5bit X 2

2-way set associative Map From CPU 0000010 0011010 00000 10 100 … … 10 Main Memory (1KB=128Lines) No = 00110 Cache (64B=8Lines) 　　10 Data Yes: Hit = 00000 Cache Directory (Tag Memory) 4 entries X 5bit X 2 Conflict　Missが減る

4-way set associative Map From CPU 0000010 0011010 001101 100 … … Main Memory (1KB=128Lines) 001101 = Ｄａｔａ = = 000000 Cache (64B=8Lines) Cache Directory (Tag Memory) 2 entries X 6bit X 4 =

8-way set associative Map → Full Map From CPU 0000010 0011010 … … 0011010 100 Main Memory (1KB=128Lines) 0011010 = = = Ｄａｔａ = = = = 0000001 Cache (64B=8Lines) Cache Directory (Tag Memory) 7bit X 8 =

Way数のトレードオフ大きくすると、、、ヒット率が改善遅延時間が大きくなる（マルチプレクサの遅延） 8くらいまでが多い Direct Map→2way set associative 32人で1つの椅子を争う　VS. 64人で2つの椅子を争う　　偶然同じ時間に椅子を狙うライバルが居る場合は効果的サイズを倍にするのと同じ程度の効果が見込まれるそれ以上はどんどん効果が減る 4以上はあまり効果が上がらない遅延時間が大きくなる（マルチプレクサの遅延） 8くらいまでが多い

書き込みポリシー Write Through Write Back 書き込み時に主記憶にもデータを書く Direct Write:ミス時は主記憶だけに書く Fetch-on-write:ミス時はリプレイスしてから書く主記憶に合わせると性能ががた落ち（Verilogの設計はそうなっている）だが、Write bufferがあれば性能がさほど落ちることはない Write Back 書き込みはキャッシュのみキャッシュと主記憶が一致：Clean、違う：Dirty Dirtyなキャッシュブロックは書き戻し（Write Back)をしてからリプレイス

Write Through （Hit） 0011010 … … From CPU Main Memory (1KB=128Lines) 100 主記憶も同時に更新 0011 Hit Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit )

Write Through （Miss：Direct Write） 0000010 0011010 … … From CPU Main Memory (1KB=128Lines) 0000 010 100 主記憶のみ更新 0011 Miss Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit )

Write Through （Miss：Fetch on Write） 0000010 0011010 … … From CPU Main Memory (1KB=128Lines) 0000 010 100 0011 0000 Miss Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit )

Write Back （Hit） 0011010 … … From CPU Main Memory (1KB=128Lines) 0011 100 Dirty 0011 1 Hit Cache (64B=8Lines) Write Data Cache Directory (Tag Memory) 8 entries X (4bit+1bit )

Write Back （Replace） 0000010 0011010 … … From CPU Write Back Main Memory (1KB=128Lines) 0000 010 100 Dirty 0000 0011 1 Miss Cache (64B=8Lines) Cache Directory (Tag Memory) 8 entries X (4bit+1bit )

ライトスルーとライトバック「ライトスルーは主記憶を待たなければならないので非効率」というのは嘘ライトバックちゃんとライトバッファを装備すれば性能的に悪くはならないしかし、シングルライトが必要→DRAMに合わない常にデータの一致が取れるのがメリット、観測性が高い、I/Oで有利ライトバック常にデータ転送がブロック単位→DRAM、高速バスに適合バスの利用率が下がる→マルチコアに適合大体世の中はライトバックになりつつある

リプレイスポリシーリプレイスの際、どのWayを選ぶか？ LRU (Least Recently Used) Direct map以外のキャッシュで問題になる LRU (Least Recently Used) 最近もっとも使っていないwayを選ぶ 2-wayならば簡単→ Verilog記述参照 4-way以上は結構面倒→　擬似的なLRUでも大体OK 他にランダム、FIFOなどが考えられるが実際上あまり用いられない

キャッシュの性能キャッシュオーバーヘッド付きCPI(Clock cycles Per Instruction)＝理想のCPI + 　　命令キャッシュのミス率×ミスペナルティ　＋　　データキャッシュの読み出しミス率×読み出し命令の生起確率×ミスペナルティこの式の問題点ミスペナルティは書き戻しを伴うかどうかで違ってくる（Write Back) ライトバッファの容量、連続書き込み回数によっては書き込みミスでもストールする書き込み直後に読み出しをするとキャッシュが対応できないでペナルティが増えることもある→ノンブロッキングキャッシュ実際は階層化されているのでそれぞれの階層を考えないといけないプロセッサがOut-of-order実行可能ならば読み出し時にストールしないかもしれない（この話は後ほど、、、）ちゃんと評価するにはシミュレータを使うしかない、、、、

ミスの原因：３つのC Capacity Miss：容量ミス Conflict Miss:衝突ミス絶対的な容量不足により起きる Conflict Miss:衝突ミス容量に余裕があっても、indexが衝突することで、格納することができなくなる Compulsory Miss (Cold Start Miss) 初期化ミススタート時、プロセス切り替え時に最初にキャッシュにブロックを持ってくるためのミス。避けることができない

キャッシュサイズとそれぞれもミスの割合 Hennessy & Patterson Computer Architectureより

ミスを減らす容量を増やす Way数を増やすブロックサイズを大きくする〇容量ミスはもちろん減る。衝突ミスも減る。 ×コストが大きくなる。ヒット時間が増える。チップ（ボード）に載らない Way数を増やす〇衝突ミスが減るキャッシュ容量が小さいと効果的、2Wayは、2倍の大きさのDirect Mapと同じ位のミス率になるキャッシュ容量が大きい場合、残った不運な衝突ミスを減らす効果がある ×コストが大きくなる。ヒット時間が増える。4以上はあまり効果がない。ブロックサイズを大きくする　〇局所性によりミスが減る。　×ミスペナルテイが増える。（ブロックサイズに比例はしないが、、）　　　キャッシュが小さいと衝突ミスが増える容量に応じて適切なブロックサイズを選ぶ。32byte-128byte

ブロックサイズとミスの割合 Hennessy & Patterson Computer Architectureより

演習ｘとｙは互いにコンフリクトミスを起こす番地に配置されている。Direct Mapキャッシュで、以下のパターンで読み書きを行ったとき、Write Through（Direct Write)とWrite　Backキャッシュで（１）ヒットするかミスするか(2)リプレイスが起きるかライトバックが起きるかを示せ。なお最初のｘに対する読み出しはミスすると仮定する。１．xから読み出し２．yに書き込み３．yを読み出し４．xを読み出し５．yに書き込み６．xに書き込み