09. メモリ・ディスアンビギュエーション五島正裕.

Slides:

Advertisements

Similar presentations

プロセッサの設計と実装後期実験プロセッサの設計と実装 1 コンピュータの論理設計「コンピュータを作る」 –仕様設計 –論理設計 –回路・レイアウト –物性・デバイス後期実験プロセッサの設計と実装 2 この実験では課題として IA-32 サブセット仕様が与えられる各自 RTL 設計 →

Advertisements

ＣＰＵ設計とパイプライン.

計算機システムⅡ 命令レベル並列処理とアウトオブオーダ処理

07. 値予測五島正裕.

07. 値予測五島正裕.

基本情報技術概論（第10回）埼玉大学理工学研究科堀山貴史

VLSI設計論第4回アキュムレータマシンと仮遅延シミュレーション

榮樂英樹 LilyVM と仮想化技術榮樂英樹

LZ圧縮回路の設計とハード・ソフト最適分割の検討電子情報デザイン学科高性能計算研究室４回生　中山　和也 2009/2/27.

10. メモリ五島正裕.

計算機システムⅡ 主記憶装置とALU，レジスタの制御

高性能コンピューティング学講座三輪忍高性能コンピューティング論２高性能コンピューティング論２第4回投機高性能コンピューティング学講座三輪　忍

CPU実験第1回中間発表 4班瀬沼、高橋、津田、富山、張本.

情報工学基礎(改訂版) 岡崎裕之.

坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電気工学科

2012年度計算機システム演習　第4回白幡　晃一.

コンパイラ演習第 9 回 (2011/12/08) 中村晃一野瀬貴史前田俊行秋山茂樹池尻拓朗鈴木友博渡邊裕貴

オリジナルなCPUの開発指導教授：笠原宏 05IE063 戸塚雄太 05IE074 橋本将平 05IE089 牧野政道

App. A アセンブラ、リンカ、 SPIMシミュレータ

計算機システムⅡ 命令セットアーキテクチャ

プロセッサ設計教育のための命令セット・スーパースカラシミュレータの試作と評価

高性能コンピューティング論２第１回ガイダンス

Ibaraki Univ. Dept of Electrical & Electronic Eng.

第3回 CPUの管理と例外処理 OSによるハードウェアの管理 CPUの構成、動作 CPUの管理例外処理、割り込み処理コンテキストスイッチ

高性能コンピューティング論２第5回 Out-of-Order実行機構

基本情報技術概論（第８回）埼玉大学理工学研究科堀山貴史

7. 順序回路五島正裕.

8. 順序回路の簡単化，機能的な順序回路五島正裕.

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

第7回 2006/6/12.

計算機入門I ハードウェア（１）計算機のハードウェア構成～計算機のハードウェアとは何か～

Advanced Computer Architecture

・ディジタル回路とクロック・プロセッサアーキテクチャ・例外処理・パイプライン・ハザード

プロジェクト実習 LSIの設計と実現パイプライン実行とハザード.

アドバンストコンピュータアーキテクチャ RISC と命令パイプライン

非レイテンシ指向レジスタ・キャッシュ・システム

坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電気工学科

勉強会その３　　2016/5/1 10 8分35秒データの表現演算.

11. マルチスレッド・プロセッサ五島正裕.

計算機システム第2回 2011/05/02(月) 「コンピュータ・アーキテクチャへのいざない」

コンピュータ系実験Ⅲ 「ワンチップマイコンの応用」第１週目アセンブリ言語講座

Advanced Computer Architecture

Advanced Computer Architecture

第6回 6/4/2011 状態遷移回路とシングルサイクルCPU設計

Advanced Computer Architecture

ディジタル回路の設計と CADによるシステム設計

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

計算機構成第3回データパス：計算をするところテキスト14‐19、29‐35

計算機構成第4回アキュムレータマシンテキスト第3章

08. メモリ非曖昧化五島正裕.

情報とコンピュータ静岡大学工学部安藤和敏

コンピュータアーキテクチャ第 11 回.

コンピュータアーキテクチャ第 10 回.

JAVAバイトコードにおけるデータ依存解析手法の提案と実装

坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電気工学科

Ibaraki Univ. Dept of Electrical & Electronic Eng.

コンピュータアーキテクチャ第 9 回.

コンピュータアーキテクチャ第 10 回.

コンピュータアーキテクチャ第 2 回.

計算機アーキテクチャ１（計算機構成論（再））第一回計算機の歴史、基本構成、動作原理

コンピュータアーキテクチャ第 2 回.

Mondriaan Memory Protection の調査

コンピュータアーキテクチャ第 5 回.

コンピュータアーキテクチャ第 9 回.

コンピュータアーキテクチャ第 5 回.

コンピュータアーキテクチャ第 11 回.

ディジタル回路 8. 機能的な順序回路五島正裕.

コンピュータ工学基礎マルチサイクル化とパイプライン化テキスト9章 115~124

回帰テストにおける実行系列の差分の効率的な検出手法

情報システム基盤学基礎１コンピュータアーキテクチャ編

Presentation transcript:

09. メモリ・ディスアンビギュエーション五島正裕

内容データ依存メモリ・ディスアンビギュエーションストア・セット・メモリ依存予測器

データ依存

データ依存 Write add r4 = r1 + r2 add r5 = r4 + r3 Read 制御駆動型 (control-driven) （⇔ データ駆動，data-driven）命令間のデータの授受は，プログラム･オーダ上で，先行/後続の関係にある2命令が，同一のロケーションを参照することで表現ロケーション：レジスタとメモリ Write add r4 = r1 + r2 add r5 = r4 + r3 Read

データ依存入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Ip Ip Is Is 後続命令 Read Write 先行命令入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Ip Ip Is Is time time Ip Ip Is Is time time

ロード/ストア命令 op Rs Rt immediate ロード命令 r[Rt] = *(r[Rs] + immediate); ストア命令 *(r[Rs] + immediate) = r[Rt]; op Rs Rt immediate 31 25 20 15

レジスタとメモリレジスタ番号静的デコード・ステージで分かるメモリのアドレス動的アドレス計算（実行）ステージで初めて分かる：「曖昧」

メモリの曖昧性による偽の依存偽の依存：ストアのアドレスが決まるまで，後続のロード/ストアは原則実行できない「決まったら違ってた」

解決法防止（予防，prevention）：ロード/ストアは in-order で発見＆回復 (detection & recovery)：依存なしと予測して out-of-order でメモリ・オーダ違反 (memory-order violation) を発見 0～7% のロードがメモリ・オーダ違反 ⇒ ペナルティ理想 (ideal, oracle)： IPC 最大2倍

偽の依存の影響 IPC 2倍の理由：「計算のかたまりが重なる」「計算のかたまりは，ロードではじまり，ストアで終わる」「真のメモリ・データ依存がクリティカルになるようなコードは，　最適化されてない」目標：ロードを，特に早期に実行したい（ストアは，そんなでもない）

メモリ・ディスアンビギュエーション

メモリ・ディスアンビギュエーションディスアンビギュエーション (disambiguation)：「非曖昧化」，「曖昧性除去（解消）」分離 (split) ロード/ストアアドレス予測アドレス一致/不一致予測

ロード/ストア命令 op Rs Rt immediate 通常のロード/ストア命令：アドレス計算部メモリ・アクセス部ロード命令： r[Rt] = *(r[Rs] + immediate); ストア命令： *(r[Rs] + immediate) = r[Rt]; op Rs Rt immediate 31 25 20 15

分離ロード/ストア通常のロード/ストア命令：アドレス計算部メモリ・アクセス部分離ロード/ストア：ディスパッチ時に分離，以降 2つの命令としてスケジューリング効果：ストア・バリューがなくても，アドレス計算が開始できるバリューより，アドレスが早く決まることが多いロードは変わらないバリューに相当するソースがないから

ロード/ストア命令普通のロード/ストア命令：非分離 (non-split) を想定理由：パイプライン・マシンで，ALU でアドレス計算をすることを想定コード効率の改善（命令の圧縮）非 RISC 的？

IF 100 200 LD 1 2 10 100 5 ID EX 1000 210 MEM WB PC IR Rs Rt Reg File Rs 200 LD 1 2 10 100 5 ID Rt Reg File EX 1000 210 MEM DR MDR MA MD Main Memory WB

アドレス予測ロード/ストアのアドレスを予測単純にロードを早期実行する効果ストアのアドレスを予測 ⇒ ディスアンビギュエーションの効果値予測の一種だが，値予測より歴史が古いメモリ・アクセスがストライドであることは容易に想像できる

ハードウェア今までの方法：分離ロード/ストアアドレス予測実際にアドレスの一致検出を行うスケジューリングのために，比較器のマトリクス（行列）が必要！比較器数 ≒ ½ ×（ウィンドウ・サイズ）２もう1つの方法：アドレス一致/不一致予測

比較器のマトリクス先行命令 =? rdy L/S Valid Load ― 1 Store ＝ ≠ 1 2 old effective 1 2 old effective address L/S V 先行命令 =? rdy L/S Valid Load ― 1 Store ＝ ≠ 1 2 3 new

ストア・セット・メモリ依存予測器

ストア・セットあるロードのストア・セットとは：そのロードが依存したことがあるストアの集合計算の方法：recovery-based 最初「依存していない」としておいて，オーダ違反 (memory-order violation) を検出して，追加利用の方法：ロードは，そのストア・セット内のストアに依存すると予測

予測器の実装原理的には：ストア・セット内のすべてのストアが実行された後でロードを実行制限：ストア・セット内のストアは in-order で実行 In-order チェイン：ストア → ストア → … → ストア → ロード

構造と動作 SSID X S1 S SSID X S2 S S1 S2 X L L SSID X SSID Table Last Fetched Store Table SSID X S1 S SSID X S2 S S1 S2 X L L SSID X Instruction Window SSID : Store Set ID

Recovery-Based ストア・セットの計算の方法：recovery-based 最初「依存していない」としておいて，オーダ違反 (memory-order violation) を検出して，追加 Violation の検出：比較器数 ≒（ウィンドウ・サイズ）×（発行幅）「教訓」：厳密にやるより，いい加減にやったほうがうまくいく

比較器のアレイ先行命令 =? rdy L/S Valid Load ― 1 Store ＝ ≠ old effective address ＝ ≠ 1 2 3 new

今日のまとめ

メモリ・データ依存データ依存：レジスタメモリメモリのデータ依存：動的アドレス計算しないと分からない：「曖昧」

メモリ参照の曖昧性による偽の依存ストアのアドレスが決まるまで，後続のロード/ストアは実行できない保守的 (conservative) な方法：ロード/ストアは in-order でロードは，特に早期に実行したい「計算のかたまりは，ロードではじまり，ストアで終わる」ストアは，そんなでもない真のメモリ・データ依存がクリティカルであるようなプログラムは，最適化されてない？

ディスアンビギュエーションディスアンビギュエーション（非曖昧化，曖昧性除去，解消）分離ロード/ストアアドレス予測アドレス一致/不一致予測ストア・セット依存予測器

今後の予定 7/ 5 マルチスレッド・プロセッサ 7/12 ベクトル処理ベクトル型計算機 SIMD 命令セット 7/19 7/26