Advanced Computer Architecture

Slides:

Advertisements

Similar presentations

ＣＰＵ設計とパイプライン.

Advertisements

計算機システムⅡ 命令レベル並列処理とアウトオブオーダ処理

情報理工学系研究科コンピュータ科学専攻上嶋裕樹

07. 値予測五島正裕.

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

07. 値予測五島正裕.

ヘテロジニアスマルチコアプロセッサ環境を対象としたキャッシュシステム自動生成ツールの開発

基本情報技術概論（第10回）埼玉大学理工学研究科堀山貴史

Chapter11-4(前半) 加藤健.

VLSI設計論第4回アキュムレータマシンと仮遅延シミュレーション

計算機システムⅡ 主記憶装置とALU，レジスタの制御

高性能コンピューティング学講座三輪忍高性能コンピューティング論２高性能コンピューティング論２第4回投機高性能コンピューティング学講座三輪　忍

コンピュータの主役はCPU(Central Processing Unit)

コンパイラ演習第 9 回 (2011/12/08) 中村晃一野瀬貴史前田俊行秋山茂樹池尻拓朗鈴木友博渡邊裕貴

オリジナルなCPUの開発指導教授：笠原宏 05IE063 戸塚雄太 05IE074 橋本将平 05IE089 牧野政道

App. A アセンブラ、リンカ、 SPIMシミュレータ

第4回目 2006/05/08.

コンピュータ工学基礎パイプラインハザードテキスト9章 115~124

計算機システムⅡ 命令セットアーキテクチャ

プロセッサ設計教育のための命令セット・スーパースカラシミュレータの試作と評価

高性能コンピューティング論２第１回ガイダンス

Ibaraki Univ. Dept of Electrical & Electronic Eng.

第５回 CPUの役割と仕組み３割り込み、パイプライン、並列処理

高性能コンピューティング論２第5回 Out-of-Order実行機構

基本情報技術概論（第８回）埼玉大学理工学研究科堀山貴史

8. 順序回路の簡単化，機能的な順序回路五島正裕.

第7回 2006/6/12.

計算機入門I ハードウェア（１）計算機のハードウェア構成～計算機のハードウェアとは何か～

組み込み向けCPU 小型デバイスに搭載されるCPU 特徴携帯電話，デジタルカメラ，PDA，センサデバイスなど小型低消費電力多機能

アドバンストコンピュータアーキテクチャ五島.

OpenMPハードウェア動作合成システムの検証(Ⅰ)

計算機システム第1回 2006/04/22.

・ディジタル回路とクロック・プロセッサアーキテクチャ・例外処理・パイプライン・ハザード

プロジェクト実習 LSIの設計と実現パイプライン実行とハザード.

アドバンストコンピュータアーキテクチャ RISC と命令パイプライン

非レイテンシ指向レジスタ・キャッシュ・システム

勉強会その３　　2016/5/1 10 8分35秒データの表現演算.

11. マルチスレッド・プロセッサ五島正裕.

最適化の方法中田育男著コンパイラの構成と最適化朝倉書店, 1999年第１１章.

計算機システム第2回 2011/05/02(月) 「コンピュータ・アーキテクチャへのいざない」

10. マルチスレッド・プロセッサ五島正裕.

Advanced Computer Architecture

Advanced Computer Architecture

第6回 6/4/2011 状態遷移回路とシングルサイクルCPU設計

Advanced Computer Architecture

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

計算機構成第4回アキュムレータマシンテキスト第3章

08. メモリ非曖昧化五島正裕.

Ibaraki Univ. Dept of Electrical & Electronic Eng.

C言語を用いたマシン非依存な JITコンパイラ作成フレームワーク

情報とコンピュータ静岡大学工学部安藤和敏

コンピュータの仕組み〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀

コンピュータアーキテクチャ第 11 回.

コンピュータアーキテクチャ第 10 回.

09. メモリ・ディスアンビギュエーション五島正裕.

坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電気工学科

Ibaraki Univ. Dept of Electrical & Electronic Eng.

コンピュータアーキテクチャ第 9 回.

コンピュータアーキテクチャ第 10 回.

パイプラインとは何か？マイクロプロセッサ(MPU)の高速化手法の一つのこと。

計算機アーキテクチャ１（計算機構成論（再））第二回命令の種類と形式

SpectreとMeltdown ITソリューション塾・第27期 2018年3月20日株式会社アプライド・マーケティング大越章司

第４回 CPUの役割と仕組み２命令の解析と実行、クロック、レジスタ

コンピュータアーキテクチャ第 9 回.

コンピュータアーキテクチャ第 11 回.

ディジタル回路 8. 機能的な順序回路五島正裕.

コンピュータ工学基礎マルチサイクル化とパイプライン化テキスト9章 115~124

Ibaraki Univ. Dept of Electrical & Electronic Eng.

情報システム基盤学基礎１コンピュータアーキテクチャ編

情報システム基盤学基礎１コンピュータアーキテクチャ編

Presentation transcript:

Advanced Computer Architecture 02. スーパースカラ･プロセッサの基礎五島正裕 2018/11/20

内容前回までの復習スーパースカラ･プロセッサの歴史 Out-of-Order スーパースカラ･プロセッサ今回のまとめ Advanced Computer Architecture 内容前回までの復習スーパースカラ･プロセッサの歴史 Out-of-Order スーパースカラ･プロセッサ今回のまとめ

Advanced Computer Architecture 1. 前回までの復習 RISCと命令パイプライン 2018/11/20

命令パイプライン I0 I1 I2 I3 I4 I5 IF ID EX MEM WB cycle I0 I1 I2 I3 I4 I5 IF Advanced Computer Architecture 命令パイプライン I0 I1 I2 I3 I4 I5 IF ID EX MEM WB cycle I0 IF ID EX MEM WB I1 IF ID EX MEM WB I2 IF ID EX MEM WB I3 IF ID EX MEM WB I4 IF ID EX MEM WB I5 IF ID EX MEM WB

パイプライン・ハザードパイプライン・ハザード (hazard) パイプライン動作を妨げる要因 Advanced Computer Architecture パイプライン・ハザードパイプライン・ハザード (hazard) パイプライン動作を妨げる要因構造ハザード (structural hazard) HW の資源の不足が原因非構造ハザード SW の持つ依存関係が原因データ・ハザード (data hazard) データ依存制御ハザード (control hazard) 制御依存，分岐命令の実行

インターロックとバブルパイプライン・ハザード (hazard) パイプライン動作を妨げる要因 Advanced Computer Architecture インターロックとバブルパイプライン・ハザード (hazard) パイプライン動作を妨げる要因パイプライン・インターロック (interlock) 機構によって対処パイプライン・バブル (bubble) が発生「パイプラインが乱れる」

アーキテクチャ的対処インターロックする ⇒ バブルが発生 ⇒ 性能低下インターロックする機会を減らすことが重要！構造ハザード Advanced Computer Architecture アーキテクチャ的対処インターロックする ⇒ バブルが発生 ⇒ 性能低下インターロックする機会を減らすことが重要！構造ハザード資源の不足が原因資源の追加で消える例えば，メモリ・ポートの場合，命令キャッシュとデータ・キャッシュの分離 (separate) 非構造ハザードプログラムが原因原理的に消えないバブルの削減

バブルの削減（データ・ハザード） cycle add r4 = r1 + r2 add r5 = r4 + r3 add Advanced Computer Architecture バブルの削減（データ・ハザード） cycle add r4 = r1 + r2 IF ID EX MEM WB add r5 = r4 + r3 IF ID EX MEM WB add r4 = r1 + r2 IF OR EX MEM WB add r5 = r4 + r3 IF OR EX MEM WB add r4 = r1 + r2 IF OR EX MEM WB add r5 = r4 + r3 IF OR EX MEM WB バイパス

IF 100 200 LD 1 2 10 100 5 ID EX 1000 210 MEM WB PC IR Rs Rt Reg File Advanced Computer Architecture IF 100 PC IR Rs 200 LD 1 2 10 100 5 ID Rt Reg File EX 1000 210 MEM DR MDR MA MD Main Memory WB

バイパスによる Forwarding 同じもの：オペランド・バイパスレジスタ・バイパス結果 (result) バイパス Advanced Computer Architecture バイパスによる Forwarding 同じもの：オペランド・バイパスレジスタ・バイパス結果 (result) バイパス（データ）フォワーディング (forwarding) 「フウォーディング」

Advanced Computer Architecture 2. スーパースカラ･プロセッサの歴史 2018/11/20

スーパースカラ･プロセッサの着想命令パイプラインを n 本並べて，n 命令ずつ実行したら… 「n –way スーパースカラ･プロセッサ」 Advanced Computer Architecture スーパースカラ･プロセッサの着想命令パイプラインを n 本並べて，n 命令ずつ実行したら… 「n –way スーパースカラ･プロセッサ」プロセッサの分類：ベクトル (vector) ex) 地球シミュレータ，富士通 VR マイコンスカラ (scalar) スカラ (scalar) (n = 1) スーパースカラ (super-scalar) (n > 1)

スーパースカラの命令パイプライン I0 I1 I2 I3 I4 I5 IF ID EX MEM WB cycle I0 I1 I2 I3 Advanced Computer Architecture スーパースカラの命令パイプライン I0 I1 I2 I3 I4 I5 IF ID EX MEM WB cycle I0 IF ID EX MEM WB I1 IF ID EX MEM WB I2 IF ID EX MEM WB I3 IF ID EX MEM WB I4 IF ID EX MEM WB I5 IF ID EX MEM WB

IPC スカラ･プロセッサ（パイプライン･マシン）の性能（性能）＝（クロック速度）÷（CPI） Advanced Computer Architecture IPC スカラ･プロセッサ（パイプライン･マシン）の性能（性能）＝（クロック速度）÷（CPI） CPI (Cycles Per Instruction) 「1命令を実行するのに何サイクルかかるか」スーパースカラ･プロセッサの性能（性能）＝（クロック速度）×（IPC） IPC (Instructions Per Cycle) 「1サイクルに命令を何個並列に実行できるか」 n –way なら， IPC は最大 n 性能は最大 n 倍！

データ・ハザード cycle add r4 = r1 + r2 add r5 = r4 + r3 add r4 = r1 + r2 add Advanced Computer Architecture データ・ハザード cycle add r4 = r1 + r2 IF ID EX MEM WB add r5 = r4 + r3 IF ID EX MEM WB add r4 = r1 + r2 IF OR EX MEM WB add r5 = r4 + r3 IF OR EX MEM WB add r4 = r1 + r2 IF OR EX MEM WB add r5 = r4 + r3 IF OR EX MEM WB r8 = r6 + r7 add IF OR EX MEM WB r8 = r8 + 1 add IF OR EX MEM WB

命令の実行順序プログラム･オーダ (program order) ISA のセマンティクスが規定する，命令の逐次的な実行順序 Advanced Computer Architecture 命令の実行順序プログラム･オーダ (program order) ISA のセマンティクスが規定する，命令の逐次的な実行順序全順序 (total order) In-Order プログラム･オーダの逆順に処理することを許さない「同時」までは In-Order Out-of-Order プログラム･オーダの逆順に処理することを許す

In-Order vs. Out-of-Order Advanced Computer Architecture In-Order vs. Out-of-Order In-Order : ex.) SPARC (esp. UltraSPARC) 簡単，クロック高速 IPC 低「最適化コンパイラでカバーできる」？ Out-of-Order : ex.) SPARC 以外 IPC 高「複雑」，クロック低速インターロックの延長で Out-of-Order は極めて困難（性能）＝（クロック速度）× （IPC）高性能なのはどっち？古い議論！

In-Order vs. Out-of-Order Advanced Computer Architecture In-Order vs. Out-of-Order 古い議論！「最適化コンパイラでカバーでき」なかった？少なくとも，商売上はダメだった（SW 遺産）クロックで差がつかなかった (esp. UltraSPARC) Out-of-Order の高効率な実装法インターロックの延長で In-Order を実現するのも困難「複雑」の意味本講義： Out-of-Order の special case として In-Order を議論する

2. Out-of-Order スーパースカラ･プロセッサ Advanced Computer Architecture 2. Out-of-Order スーパースカラ･プロセッサ 2018/11/20

スーパースカラ･プロセッサの基本構造 RF 命令ウィンドウリネームロジックフロントエンド front-end バックエンド Advanced Computer Architecture スーパースカラ･プロセッサの基本構造 RF RF フェッチ幅ディスパッチ幅発行幅命令キャッシュ命令ウィンドウリネーム演算器ロジック発行 Issue ディスパッチ Dispatch フェッチ Fetch 実行 Exec 書戻 WB リネーム Rename スケジュール Schedule フロントエンド front-end バックエンド back-end

基本的なパラメタディスパッチ幅（＝フェッチ幅） 2～4命令/サイクル発行幅 2～6命令/サイクル Advanced Computer Architecture 基本的なパラメタディスパッチ幅（＝フェッチ幅） 2～4命令/サイクル発行幅 2～6命令/サイクルディスパッチ幅＝発行幅なら，ウェイ数と言ってよい（？）命令ウィンドウ･サイズ 16～32命令ウェイ数の8倍？

命令スケジューリング add r4 = r1 + r2 add r5 = r4 + r3 sub r4 = r1 - r2 sla Advanced Computer Architecture 命令スケジューリングバックエンド：スケジュールされた命令を実際に実行命令ウィンドウ　（スケジューリング･ウィンドウ）：命令をスケジュール＝実行可能な命令を見つける実行可能＝制約を満たすフロントエンド：命令ウィンドウを下流に拡大 add r4 = r1 + r2 add r5 = r4 + r3 sub r4 = r1 - r2 sla r5 = r5 << 1 sla r4 = r1 << 2 add r5 = r5 + 1 bz r4

命令スケジューリングの制約計算資源：「実行するハードウエア側の問題」「演算器など，計算資源が空いていなければ実行できない」 Advanced Computer Architecture 命令スケジューリングの制約計算資源：「実行するハードウエア側の問題」「演算器など，計算資源が空いていなければ実行できない」命令間の依存：「実行されるプログラム側の問題」先行制約：命令間の先行関係の制約制御依存 (control dependence) 「分岐命令があると，後の命令は先に実行できない」データ依存 (data dependence) 「2つの命令が同一のロケーションを定義/参照していると，　後の命令は先に実行できない」パイプライン･ハザードと同じだが「どの命令にインターロックかけるか？」より，簡潔

データ依存 Write add r4 = r1 + r2 add r5 = r4 + r3 Read Advanced Computer Architecture データ依存制御駆動型 (control-driven) （⇔ データ駆動，data-driven）命令間のデータの授受は，プログラム･オーダ上で，先行/後続の関係にある2命令が，同一のロケーションを参照することで表現ロケーション：レジスタとメモリ Write add r4 = r1 + r2 add r5 = r4 + r3 Read

データ依存入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Ip Ip Is Is Advanced Computer Architecture データ依存後続命令 Read Write 先行命令入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Ip Ip Is Is time time Ip Ip Is Is time time

真のデータ依存，偽のデータ依存フロー依存：真の (true) データ依存データの授受のため先行制約を生じる入力依存 Advanced Computer Architecture 真のデータ依存，偽のデータ依存フロー依存：真の (true) データ依存データの授受のため先行制約を生じる入力依存一般に，複数の読み出しがあるため先行制約を生じない逆依存，出力依存：偽の (false) データ依存ロケーションの再利用のため原理的には，先行制約を生じないリネーミングにより解消

リネーミングによる偽のデータ依存の解消入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Advanced Computer Architecture リネーミングによる偽のデータ依存の解消後続命令 Read Write 先行命令入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Ip Ip Is Is time time Ip Ip Is Is time time

データ依存の具体例 ld r1 = *($sp) sla r2 = r1 << 1 sla r1 = r1 << 2 Advanced Computer Architecture データ依存の具体例 ld r1 = *($sp) フロー依存 sla r2 = r1 << 1 逆依存 sla r1 = r1 << 2 add r4 = r1 + r2

データ依存の具体例 ld r1 = *($sp) sla r1 << 1 = r2 sla r1 << 2 = Advanced Computer Architecture データ依存の具体例 ld r1 = *($sp) sla r1 << 1 = r2 sla r1 << 2 = add r4 = r1 + r2

データ依存の具体例 ld r1 = *($sp) sla r2 = r1 << 1 sla r3 r1 = r1 Advanced Computer Architecture データ依存の具体例 ld r1 = *($sp) sla r2 = r1 << 1 逆依存 sla r3 r1 = r1 << 2 add r4 = r3 r1 + r2

リネーミングの真髄データの寿命 r1 r2 r3 r4 ld r1 = *($sp) sla r1 << 1 = r2 sla Advanced Computer Architecture リネーミングの真髄データの寿命 r1 r2 r3 r4 ロケーション（レジスタ番号） ld r1 = *($sp) sla r1 << 1 = r2 sla r3 r1 = r1 << 2 定義 add r4 = r3 r1 + r2 参照 time 要は，「1つのデータに1つのロケーション」

リネーミングの真髄データの寿命 r1 r2 r3 r4 ld r1 = *($sp) sla r1 << 1 = r2 sla Advanced Computer Architecture リネーミングの真髄データの寿命 r1 r2 r3 r4 ロケーション（レジスタ番号） ld r1 = *($sp) sla r1 << 1 = r2 sla r1 << 2 = r3 定義 add r2 = r4 + r3 参照 time 要は，「1つのデータに1つのロケーション」

理想リネーミングと無限のロケーション「1つのデータに1つのロケーション」が理想だが… ロケーションが無限に必要！解決法は次回 Advanced Computer Architecture 理想リネーミングと無限のロケーション「1つのデータに1つのロケーション」が理想だが… ロケーションが無限に必要！解決法は次回

レジスタ･リネーミングとデータ依存リネーミングは，メモリにも適用可能だが… 以降しばらくはレジスタに関して Advanced Computer Architecture レジスタ･リネーミングとデータ依存リネーミングは，メモリにも適用可能だが… 以降しばらくはレジスタに関してメモリ ―― ロードとストアの依存に関しては，そのうち… 偽の依存：逆依存，出力依存レジスタ･リネーミングで解消真の依存：フロー依存レジスタ･リネーミングで簡単

レジスタ･リネーミングとフロー依存「1つのデータに1つのロケーション（レジスタ）」「1つの命令（のデスティネーション）に1つのレジスタ」 Advanced Computer Architecture レジスタ･リネーミングとフロー依存「1つのデータに1つのロケーション（レジスタ）」「1つの命令（のデスティネーション）に1つのレジスタ」 1つの命令のデスティネーションは普通1つだからデータと命令は同一視してよい

レジスタ･リネーミングとフロー依存各命令のデスティネーションに割り当てるとき，レジスタは「空 (empty)」にしておく Advanced Computer Architecture レジスタ･リネーミングとフロー依存各命令のデスティネーションに割り当てるとき，レジスタは「空 (empty)」にしておく命令が実行され，結果が書かれたら，レジスタは「一杯 (full)」になるフロー依存による先行制約を満たす＝依存元の命令が実行されたら，依存先の命令を実行するソースが full になったら，実行する

レジスタ･リネーミングとフロー依存 ld r1 = *($sp) r1 sla r2 = r1 << 1 r2 r3 sla Advanced Computer Architecture レジスタ･リネーミングとフロー依存 ld r1 = *($sp) r1 sla r2 = r1 << 1 r2 r3 sla r3 = r1 << 2 r4 add r4 = r3 + r2

Advanced Computer Architecture 今日のまとめ 2018/11/20

スーパースカラ･プロセッサの基本構造基本構造フロントエンド命令ウィンドウバックエンド命令スケジューリング： Advanced Computer Architecture スーパースカラ･プロセッサの基本構造基本構造フロントエンド命令ウィンドウバックエンド命令スケジューリング：命令ウィンドウ内から，実行可能な命令を見つける実行可能＝制約を満たす

命令スケジューリングの制約計算資源：「実行するハードウエア側の問題」命令間の依存：「実行されるプログラム側の問題」 Advanced Computer Architecture 命令スケジューリングの制約計算資源：「実行するハードウエア側の問題」命令間の依存：「実行されるプログラム側の問題」先行制約：命令間の先行関係の制約制御依存データ依存パイプライン･ハザードと同じだが，「どの命令にインターロックかけるか？」より，簡潔

データ依存とレジスタ･リネーミングレジスタ･リネーミング：「1つの命令に1つのレジスタ」偽の依存：逆依存，出力依存 Advanced Computer Architecture データ依存とレジスタ･リネーミングレジスタ･リネーミング：「1つの命令に1つのレジスタ」偽の依存：逆依存，出力依存リネーミングで解消真の依存：フロー依存リネーミングで簡単レジスタが「空 (empty)」⇒「一杯 (full)」になったら実行

Advanced Computer Architecture 次回レジスタ･リネーミングの実際レジスタは無限にはない制御依存分岐予測

クロック速度と IPC クロック速度と IPC はトレードオフ? “Speed Demon vs. Brainiac” Advanced Computer Architecture クロック速度と IPC クロック速度と IPC はトレードオフ? “Speed Demon vs. Brainiac” AMD Athlon XP 2000＋ (1.67GHz) Intel Pentium 4 2GHz と同等の性能（？） 2/1.67 = 1.20 倍の IPC