Advanced Computer Architecture

Slides:

Advertisements

Similar presentations

G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマンス測定用のツール使い方： exe ファイルのパスと作業ディレクトリ指定して実行するだけ注意点 : GPU のコード実行後にプログラム終了前に,

Advertisements

福永力 ; Chikara Fukunaga 1 パイプライン構造（内容 1 ） Pipeline structure （ Contents 1 ）パイプラインの考え方 Background idea of a Pipeline DLX （仮想 RISC ）命令セット DLX （ virtual.

ＣＰＵ設計とパイプライン.

計算機システムⅡ 命令レベル並列処理とアウトオブオーダ処理

情報理工学系研究科コンピュータ科学専攻上嶋裕樹

07. 値予測五島正裕.

07. 値予測五島正裕.

ヘテロジニアスマルチコアプロセッサ環境を対象としたキャッシュシステム自動生成ツールの開発

基本情報技術概論（第10回）埼玉大学理工学研究科堀山貴史

ダイレクトマップキャッシュの構成例：メモリアドレス＝３２ビットキャッシュ容量C＝256Kbyte　C=B×A×S ブロックサイズ（ラインサイズ）B＝３２byte セット数（ブロック数、ライン数）S=8K アソシアティビティA=1 (ダイレクトマップは１) メモリアドレス＝３２ビットタグ１４ビット.

計算機システムⅡ 主記憶装置とALU，レジスタの制御

高性能コンピューティング学講座三輪忍高性能コンピューティング論２高性能コンピューティング論２第4回投機高性能コンピューティング学講座三輪　忍

CPU実験第1回中間発表 4班瀬沼、高橋、津田、富山、張本.

キャッシュ頻繁にアクセスされるデータを入れておく小規模高速なメモリ当たる(ヒット）、はずれる（ミスヒット）マッピング（割り付け）

2012年度計算機システム演習　第4回白幡　晃一.

オリジナルなCPUの開発指導教授：笠原宏 05IE063 戸塚雄太 05IE074 橋本将平 05IE089 牧野政道

プロセッサ設計教育のための命令セット・スーパースカラシミュレータの試作と評価

計算機基礎Ⅱ,Ⅲ （指導書 pp. 76～94）改訂：佐竹純二（作成：岡本吉央）.

高性能コンピューティング論２第１回ガイダンス

第５回 CPUの役割と仕組み３割り込み、パイプライン、並列処理

高性能コンピューティング論２第5回 Out-of-Order実行機構

基本情報技術概論（第８回）埼玉大学理工学研究科堀山貴史

7. 順序回路五島正裕.

8. 順序回路の簡単化，機能的な順序回路五島正裕.

第7回 2006/6/12.

計算機入門I ハードウェア（１）計算機のハードウェア構成～計算機のハードウェアとは何か～

アドバンストコンピュータアーキテクチャ五島.

Advanced Computer Architecture

・ディジタル回路とクロック・プロセッサアーキテクチャ・例外処理・パイプライン・ハザード

プロジェクト実習 LSIの設計と実現パイプライン実行とハザード.

アドバンストコンピュータアーキテクチャ RISC と命令パイプライン

非レイテンシ指向レジスタ・キャッシュ・システム

2. 論理ゲートとブール代数五島正裕.

勉強会その３　　2016/5/1 10 8分35秒データの表現演算.

11. マルチスレッド・プロセッサ五島正裕.

最適化の方法中田育男著コンパイラの構成と最適化朝倉書店, 1999年第１１章.

ディジタル回路 2. ブール代数と論理ゲート五島正裕.

情報理工学系研究科電子情報学専攻豊島隆志

ディジタル回路 6. 順序回路の実現五島正裕.

10. マルチスレッド・プロセッサ五島正裕.

Advanced Computer Architecture

レジスタ間接分岐ターゲット・フォワーディング

Advanced Computer Architecture

第7回授業計画の修正中間テストの解説・復習前回の補足（クロックアルゴリズム・PFF) 仮想記憶方式のまとめ特別課題について

計算機構成第6回分岐命令とプログラムの実行テキスト第5章

参照の空間局所性を最大化するボリューム・レンダリング・アルゴリズム

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

計算機構成第3回データパス：計算をするところテキスト14‐19、29‐35

計算機構成第4回アキュムレータマシンテキスト第3章

08. メモリ非曖昧化五島正裕.

プログラムの制御構造配列・繰り返し.

計算機構成　第11回マルチサイクルＣＰＵ慶應大学天野英晴.

コンピュータアーキテクチャ第 10 回.

09. メモリ・ディスアンビギュエーション五島正裕.

JavaScriptを含んだHTML文書に対するデータフロー解析を用いた構文検証手法の提案

坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電気工学科

コンピュータアーキテクチャ第 10 回.

コンピュータアーキテクチャ第 2 回.

コンピュータアーキテクチャ第 3 回.

コンピュータアーキテクチャ第 2 回.

8. 順序回路の実現五島正裕.

コンピュータアーキテクチャ第 4 回.

SpectreとMeltdown ITソリューション塾・第27期 2018年3月20日株式会社アプライド・マーケティング大越章司

プロセッサ設計支援ツールを用いた独自プロセッサの設計

コンピュータアーキテクチャ第 3 回.

コンピュータアーキテクチャ第 11 回.

コンピュータ工学基礎マルチサイクル化とパイプライン化テキスト9章 115~124

６．３インタプリタ（１）インタプリタ（interpreter）とは

情報システム基盤学基礎１コンピュータアーキテクチャ編

Presentation transcript:

Advanced Computer Architecture 06. 分岐予測器とトレース・キャッシュ五島正裕 2019/2/21

Advanced Computer Architecture 内容分岐予測の復習分岐予測器トレース・キャッシュ

Advanced Computer Architecture 分岐予測の復習 2019/2/21

投機のフェーズ cycle 予測 (prediction) 実行 (execution) Advanced Computer Architecture 投機のフェーズ予測 (prediction) 実行 (execution) 確認 (verification, confirmation) キャンセル，回復，再実行 (cancellation, recovery, re-execution) cycle A 1. 予測 3. 確認 4. 再実行 B B 2. 実行

分岐予測 cycle add r5 = r4 + r3 be r1 == r2 r8 = r6 + r7 add r8 = r8 + 1 Advanced Computer Architecture 分岐予測 cycle 確認 add r5 = r4 + r3 IF IF OR OR IF EX MEM EX OR WB EX MEM be r1 == r2 IF r8 = r6 + r7 add r8 = r8 + 1 WB MEM PC 予測フェッチ r9 = r6 - r7 sub r8 = *(r9) ld WB

分岐予測 cycle add r5 = r4 + r3 be r1 == r2, L0 r8 = *(r6) ld r9 = r9 + 1 Advanced Computer Architecture 分岐予測 cycle 確認 add r5 = r4 + r3 IF OR EX MEM IF WB OR IF be r1 == r2, L0 r8 = *(r6) ld r9 = r9 + 1 add r9 = r8 << 1 sla r8 = r9 - 1 sub L0: r8 = r6 + r7 add r8 = r8 + 1 r9 = r6 - r7 sub r8 = *(r9) ld IF OR IF OR IF EX OR EX MEM WB MEM PC 予測フェッチ WB 再フェッチ

分岐予測 cycle add r5 = r4 + r3 be r1 == r2, L0 r8 = *(r6) ld r9 = r9 + 1 Advanced Computer Architecture 分岐予測 cycle add r5 = r4 + r3 IF OR EX MEM IF WB OR IF be r1 == r2, L0 r8 = *(r6) ld r9 = r9 + 1 add r9 = r8 << 1 sla r8 = r9 - 1 sub L0: IF OR EX OR EX MEM WB MEM WB ミス･ペナルティ (= H, M = 0)

投機の効果「毎回かかるレイテンシを，ミス時のペナルティに」（予測ミスによるレイテンシの増加）＝ Advanced Computer Architecture 投機の効果「毎回かかるレイテンシを，ミス時のペナルティに」（予測ミスによるレイテンシの増加）＝（予測率） ×（予測ミス率） ×（ミス･ペナルティ）予測ミス率が十分小さければ (ex. 1%)，ミス･ペナルティは1～２サイクル長くなってもよい

分岐命令の出現頻度 Run Length : 分岐から次の分岐までの命令数 3～5命令フェッチ幅 2～4 だと… Advanced Computer Architecture 分岐命令の出現頻度 Run Length : 分岐から次の分岐までの命令数 3～5命令フェッチ幅 2～4 だと… ほとんど毎サイクル，分岐命令をフェッチ

分岐予測の効果（予測ミスによるレイテンシの増加）＝（予測率） ×（予測ミス率） ×（ミス･ペナルティ） Advanced Computer Architecture 分岐予測の効果（予測ミスによるレイテンシの増加）＝（予測率） ×（予測ミス率） ×（ミス･ペナルティ）＝（平均ラン・レングス）÷（フェッチ幅）×（予測率 = 1）× （予測ミス率） ×（ミス･ペナルティ） ≒ （予測ミス率） ×（ミス･ペナルティ）

分岐予測ミスの影響実行時間ペナルティ 20 cycles ペナルティ 10 cycles 2 ペナルティ 5 cycles 1.5 1 Advanced Computer Architecture 分岐予測ミスの影響実行時間ペナルティ 20 cycles ペナルティ 10 cycles 2 ペナルティ 5 cycles 1.5 1 ミス率 (%) O 5 10

Advanced Computer Architecture 分岐予測器 2019/2/21

制御命令（分岐命令） op Rs Rt immediate （条件）分岐命令 if (cond) PC = PC + immediate; Advanced Computer Architecture 制御命令（分岐命令）（条件）分岐命令 if (cond) PC = PC + immediate; branch on register cond: R[Rs] == 0, R[Rs] > 0, … compare and branch cond: R[Rs] == R[Rt], R[Rs] != R[Rt] op Rs Rt immediate 31 25 20 15

インターロックの排除（制御ハザード） cycle I0 be I1 I0 be I1 be I0 遅延分岐 I1 IF ID EX MEM Advanced Computer Architecture インターロックの排除（制御ハザード） cycle I0 IF ID EX MEM WB be IF ID EX MEM WB I1 IF ID EX MEM WB I0 IF ID EX MEM WB be IF nPC EX MEM WB I1 IF OR EX MEM WB be IF nPC EX MEM WB I0 IF OR EX MEM WB 遅延分岐 I1 IF OR EX MEM WB

スーパースカラの場合遅延分岐では救えない毎サイクル，フェッチするためには，命令をフェッチしてから next PC を求めるのでは遅い Advanced Computer Architecture スーパースカラの場合遅延分岐では救えない毎サイクル，フェッチするためには，命令をフェッチしてから next PC を求めるのでは遅い「fetch PC だけから next PC を！」

分岐方向予測分岐予測： bool pred_taken = branch_dir_pred(fetch_PC); Advanced Computer Architecture 分岐方向予測分岐予測： bool pred_taken = branch_dir_pred(fetch_PC); addr_t taken_PC = btb_lookup(fetch_PC); addr_t untaken_PC = fetch_PC + 4 * FETCH_WIDTH; addr_t next_PC = taken_PC && pred_taken ? taken_PC : untaken_PC;

BTB : Branch Target Buffer Advanced Computer Architecture BTB : Branch Target Buffer tag valid taken PC fetch PC selector taken PC

分岐方向予測の原理その1 ローカル分岐履歴 (local branch history) 基本的には，前回と同じだろう Advanced Computer Architecture 分岐方向予測の原理その1 ローカル分岐履歴 (local branch history) 基本的には，前回と同じだろうヒステリシスを持たせ，発振を防ぐ

2-bit 飽和形カウンタ (2-bit saturating counter) Advanced Computer Architecture 2-bit 飽和形カウンタ (2-bit saturating counter) fetch PC PHT (Pattern History Table) 11 strongly taken 10 10 weakly taken 01 weakly untaken 00 strongly untaken taken untaken

PHT (Pattern History Table) Advanced Computer Architecture PHT (Pattern History Table) タグ，有効ビットがない「ミス」がないコンフリクト（衝突）が起こるあまり気にしなくてもよいどうせ，そこそこ外れるものだからエントリ数が十分多ければ（数K），確率は低い

分岐方向予測分岐予測： bool pred_taken = branch_dir_pred(fetch_PC); Advanced Computer Architecture 分岐方向予測分岐予測： bool pred_taken = branch_dir_pred(fetch_PC); addr_t taken_PC = btb_lookup(fetch_PC); addr_t untaken_PC = fetch_PC + 4 * FETCH_WIDTH; addr_t next_PC = taken_PC && pred_taken ? taken_PC : untaken_PC;

分岐方向予測の原理その2 グローバル分岐履歴 (global branch history) ローカルは，自身の履歴 Advanced Computer Architecture 分岐方向予測の原理その2 グローバル分岐履歴 (global branch history) ローカルは，自身の履歴グローバルは，すべての分岐最近実行された分岐，12回程度の結果を記録たとえば： for (int i = 0; i < N; ++i) if (i % 2) even(); else odd();

Global History Register Advanced Computer Architecture gshare (McFarling ‘93) 同じ分岐でも，グローバル履歴が異なれば，別のカウンタを使用．ただし，コンフリクトが多発数十パタン／分岐コンフリクトを軽減する研究「要は，圧縮」 fetch PC 0001 PHT 00 XOR 01 0010 11 1 1 01 01 Global History Register 01 01 01

分岐命令のプロファイル 1.0 0.0 分岐の方向には，偏りがある利用して，テーブルを圧縮 taken 率分岐命令 Advanced Computer Architecture 分岐命令のプロファイル分岐の方向には，偏りがある利用して，テーブルを圧縮 taken 率 1.0 　分岐命令（taken 率でソート） 0.0 always untaken always taken

Advanced Computer Architecture トレース・キャッシュ 2019/2/21

命令キャッシュ fetch PC 1 2 3 4 5 6 7 Cache Lines 1 2 3 4 5 6 7 Rotator 31 5 Advanced Computer Architecture 命令キャッシュ fetch PC 31 5 2 1 2 3 4 5 6 7 Cache Lines 1 2 3 4 5 6 7 Rotator

命令キャッシュ通常 fetch PC 1 1 2 2 3 3 4 4 5 5 6 7 Cache Lines 1 2 3 4 5 6 7 Advanced Computer Architecture 命令キャッシュ通常 fetch PC 1 31 5 2 1 2 2 3 3 4 4 5 5 6 7 Cache Lines 1 2 3 4 5 6 7 Rotator

命令キャッシュラインを跨ぐ fetch PC 1 1 1 2 3 4 5 6 6 7 7 Cache Lines 1 1 2 3 4 5 Advanced Computer Architecture 命令キャッシュラインを跨ぐ fetch PC 1 1 31 5 2 1 2 3 4 5 6 6 7 7 Cache Lines 1 1 2 3 4 5 6 7 Rotator

命令キャッシュ分岐を含む fetch PC 1 1 2 2 3 3 4 4 5 5 6 7 Cache Lines 1 2 3 4 5 6 Advanced Computer Architecture 命令キャッシュ分岐を含む fetch PC 1 31 5 2 1 2 2 3 3 4 4 5 5 6 7 Cache Lines 1 2 3 4 5 6 7 Rotator

命令キャッシュ分岐を含む fetch PC 1 1 1 2 3 4 5 6 7 Cache Lines 1 2 3 3 4 4 5 5 6 Advanced Computer Architecture 命令キャッシュ分岐を含む fetch PC 1 1 31 5 2 1 2 3 4 5 6 7 Cache Lines 1 2 3 3 4 4 5 5 6 6 7 Rotator 2 3 4 5

フェッチ・グループフェッチ・グループ同時にフェッチされる命令のグループ fetch PC：フェッチ・グループの先頭命令の PC Advanced Computer Architecture フェッチ・グループフェッチ・グループ同時にフェッチされる命令のグループ fetch PC：フェッチ・グループの先頭命令の PC next PC：次の fetch PC フェッチ・グループに分岐命令が含まれている場合，その分岐命令の予測された飛び先の PC

困難フェッチ・グループが：キャッシュ・ラインを跨ぐ場合：キャッシュ・ヒット/ミス判定器が複数必要分岐を含む場合： Advanced Computer Architecture 困難フェッチ・グループが：キャッシュ・ラインを跨ぐ場合：キャッシュ・ヒット/ミス判定器が複数必要分岐を含む場合：その分岐の予測先のフェッチは困難もう1サイクル前に予測しておく必要があった次の次の分岐予測器予測できても，バンク・コンフリクトが発生分岐を複数含む？

トレース・キャッシュ fetch PC 2 3 4 5 Traces 2 3 4 3 6 7 1 dir pred XOR 31 2 Advanced Computer Architecture トレース・キャッシュ fetch PC 31 2 2 3 4 5 XOR Traces 2 3 4 3 6 7 1 dir pred

トレース・キャッシュトレース：分岐先 (branch target) アドレスから始まる，ある（予測）パスに沿った命令の列 Advanced Computer Architecture トレース・キャッシュトレース：分岐先 (branch target) アドレスから始まる，ある（予測）パスに沿った命令の列トレース・キャッシュ：トレース単位でキャッシング HW が単純にただし，アレイの利用効率が悪い

トレース・キャッシュの位置 I$ T$ I$ T$ Insn Pipe Insn Pipe タンデム（Pentium 4) パラレル Advanced Computer Architecture トレース・キャッシュの位置 I$ T$ I$ T$ Insn Pipe Insn Pipe タンデム（Pentium 4) パラレル

Advanced Computer Architecture 今日のまとめ 2019/2/21

分岐予測器 taken PC BTB (branch target buffer) 分岐方向予測器ローカル履歴グローバル履歴 Advanced Computer Architecture 分岐予測器 taken PC BTB (branch target buffer) 分岐方向予測器ローカル履歴グローバル履歴

トレース・キャッシュトレース・キャッシュ：トレース単位でキャッシングある種のバイナリ変換 Advanced Computer Architecture トレース・キャッシュトレース・キャッシュ：トレース単位でキャッシングある種のバイナリ変換個々の命令ではなく，トレースをフェッチしているように見えるトレース＝長命令？ VLIW？

Advanced Computer Architecture 今後の予定次週値予測