高性能コンピューティング論２第5回 Out-of-Order実行機構

高性能コンピューティング論２第5回 Out-of-Order実行機構
高性能コンピューティング学講座三輪　忍

本日の講義内容 Out-of-Order スーパスカラプロセッサの基本構造の復習レジスタリネーミングの実際命令スケジューリングの実際
高性能コンピューティング論２本日の講義内容 Out-of-Order スーパスカラプロセッサの基本構造の復習レジスタリネーミングの実際命令スケジューリングの実際正確な例外

Out-of-Orderスーパスカラプロセッサの基本構造の復習
高性能コンピューティング論２ Out-of-Orderスーパスカラプロセッサの基本構造の復習

スーパスカラ･プロセッサの基本構造レジスタ・ファイル命令キュー演算器フロントエンド Front-end バックエンド
高性能コンピューティング論２スーパスカラ･プロセッサの基本構造レジスタ・ファイル命令キャッシュ命令キューリネームロジック演算器フェッチ Fetch リネーム Rename ディスパッチ Dispatch スケジュール Schedule 発行 Issue レジスタ読出 Reg Read 実行 Exec 書戻 WB フロントエンド Front-end バックエンド Back-end ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

命令スケジューリング add r4 = r1 + r2 add r5 = r4 + r3 add r8 = r6 + r7 add
高性能コンピューティング論２命令スケジューリング命令スケジューリング命令キューの中から実行可能な命令を発見実行可能＝制約（次スライド）を満たす実行可能な命令の中から次に実行すべき命令を選択バックエンド：スケジュールされた命令を実際に実行命令ウィンドウ　（スケジューリング･ウィンドウ）：スケジュール対象の命令の集合命令キュー内の全命令フロントエンド：命令ウィンドウを下流に拡大 add r4 = r1 + r2 add r5 = r4 + r3 add r8 = r6 + r7 命令ウィンドウ add r8 = r8 + 1 sub r5 = r5 – r8 bz r5

命令スケジューリングの制約計算資源：「実行するハードウエア側の問題」「演算器など，計算資源が空いていなければ実行できない」
高性能コンピューティング論２命令スケジューリングの制約計算資源：「実行するハードウエア側の問題」「演算器など，計算資源が空いていなければ実行できない」命令間の依存：「実行されるプログラム側の問題」先行制約：命令間の先行関係の制約制御依存 (control dependence) 「分岐命令があると，後の命令は先に実行できない」データ依存 (data dependence) 「2つの命令が同一のロケーションを定義/参照していると，　後の命令は先に実行できない」パイプライン･ハザードと同じだが「どの命令にインターロックかけるか？」より，簡潔 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

データ依存入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Ip Ip Is Is
高性能コンピューティング論２データ依存後続命令 Read Write 先行命令入力依存 (input) 逆依存 (anti) フロー依存 (flow) 出力依存 (output) Ip Ip Is Is time time Ip Ip Is Is time time ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

真のデータ依存，偽のデータ依存フロー依存：真の (true) データ依存入力依存逆依存，出力依存：偽の (false) データ依存
高性能コンピューティング論２真のデータ依存，偽のデータ依存フロー依存：真の (true) データ依存データの授受のため先行制約を生じる入力依存一般に，複数の読み出しがあるため先行制約を生じない逆依存，出力依存：偽の (false) データ依存ロケーションの再利用のため原理的には，先行制約を生じないリネーミングにより解消 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

データ依存の具体例 ld r1 = *($sp) sla r2 = r1 << 1 sla r1 = r1 << 2
高性能コンピューティング論２データ依存の具体例 ld r1 = *($sp) フロー依存 sla r2 = r1 << 1 逆依存 sla r1 = r1 << 2 add r4 = r1 + r2 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

データ依存の具体例 ld r1 = *($sp) sla r1 << 1 = r2 sla r1 << 2 =
高性能コンピューティング論２データ依存の具体例 ld r1 = *($sp) sla r1 << 1 = r2 sla r1 << 2 = add r4 = r1 + r2 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

データ依存の具体例 ld r1 = *($sp) sla r2 = r1 << 1 sla r3 r1 = r1
高性能コンピューティング論２データ依存の具体例 ld r1 = *($sp) sla r2 = r1 << 1 逆依存 sla r3 r1 = r1 << 2 add r4 = r3 r1 + r2 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

リネーミングの真髄要は，「1つのデータに1つのロケーション」データの寿命 r1 r2 r3 r4 ld r1 = *($sp) sla
高性能コンピューティング論２リネーミングの真髄データの寿命 r1 r2 r3 r4 ロケーション（レジスタ番号） ld r1 = *($sp) sla r1 << 1 = r2 sla r3 r1 = r1 << 2 定義 add r4 = r3 r1 + r2 参照 time 要は，「1つのデータに1つのロケーション」 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

リネーミングの真髄要は，「1つのデータに1つのロケーション」データの寿命 r1 r2 r3 r4 ld r1 = *($sp) sla
高性能コンピューティング論２リネーミングの真髄データの寿命 r1 r2 r3 r4 ロケーション（レジスタ番号） ld r1 = *($sp) sla r1 << 1 = r2 sla r1 << 2 = r3 定義 add r2 = r4 + r3 参照 time 要は，「1つのデータに1つのロケーション」 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

リネーミングの問題 r1 を r3 にリネーム「1つのデータに1つのロケーション」が理想だが… コンパイラならできるが，
高性能コンピューティング論２リネーミングの問題 r1 を r3 にリネームコンパイラならできるが， HW が r3 をどうやって見つけるのか？「1つのデータに1つのロケーション」が理想だが… ロケーションが無限に必要！ ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「Out-of-Order実行機構」より

高性能コンピューティング論２レジスタリネーミングの実際

論理レジスタと物理レジスタ op Rs Rt Rd shamt func 論理レジスタ (logical register)
高性能コンピューティング論２論理レジスタと物理レジスタ論理レジスタ (logical register) 命令のフィールドで指定する r0 ～ r31 「データ･フロー（命令間のデータ授受関係）を表現するための名前」コンパイラが管理物理レジスタ (physical register) 「データの物理的な格納場所」＝レジスタ・ファイルハードウェアが管理レジスタリネーミングを行わないプロセッサは，論理レジスタ＝物理レジスタ op Rs Rt Rd shamt func 31 25 20 15 10 レジスタ・ファイル命令キューリネームロジック命令キャッシュ演算器

物理レジスタの管理レジスタマップ表フリーリスト割り当て (allocation)：解決 (resolution)：
高性能コンピューティング論２物理レジスタの管理論理 Reg マップ表 r1 P31 レジスタマップ表論理 Reg と物理 Reg の対応を記録フリーリスト空き物理 Reg 番号のプール割り当て (allocation)：空き物理 Reg 番号をプールから取得デスティネーションに割り当てる論理→物理マッピングを確立解決 (resolution)：マップ表を参照し，ソースの論理 Reg にマップされている物理 Reg を発見解放 (free)：不要になった物理 Reg をプールに返す r2 P31 P5 P62 P18 head フリーリスト

高性能コンピューティング論２物理レジスタの管理論理 Reg マップ表 r1 P31 レジスタマップ表論理 Reg と物理 Reg の対応を記録フリーリスト空き物理 Reg 番号のプール割り当て (allocation)：空き物理 Reg 番号をプールから取得デスティネーションに割り当てる論理→物理マッピングを確立解決 (resolution)：マップ表を参照し，ソースの論理 Reg にマップされている物理 Reg を発見解放 (free)：不要になった物理 Reg をプールに返す r2 P5 P5 P62 P18 head フリーリスト

高性能コンピューティング論２物理レジスタの管理論理 Reg マップ表 r1 P31 レジスタマップ表論理 Reg と物理 Reg の対応を記録フリーリスト空き物理 Reg 番号のプール割り当て (allocation)：空き物理 Reg 番号をプールから取得デスティネーションに割り当てる論理→物理マッピングを確立解決 (resolution)：マップ表を参照し，ソースの論理 Reg にマップされている物理 Reg を発見解放 (free)：不要になった物理 Reg をプールに返す r2 P5 P62 P18 head フリーリスト P5

スーパスカラ･プロセッサの基本構造レジスタ・ファイル命令キュー演算器フロントエンド Front-end バックエンド
高性能コンピューティング論２スーパスカラ･プロセッサの基本構造レジスタ・ファイル命令キャッシュ命令キューリネームロジック演算器フェッチ Fetch リネーム Rename ディスパッチ Dispatch スケジュール Schedule 発行 Issue レジスタ読出 Reg Read 実行 Exec 書戻 WB フロントエンド Front-end バックエンド Back-end ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「スーパスカラ・プロセッサの基礎」より

スーパスカラ･プロセッサの基本構造物理レジスタ・ファイル命令キュー演算器フロントエンド Front-end バックエンド
高性能コンピューティング論２スーパスカラ･プロセッサの基本構造物理レジスタ・ファイル命令キャッシュ命令キューマップ表演算器フリーリストフェッチ Fetch リネーム Rename ディスパッチ Dispatch スケジュール Schedule 発行 Issue レジスタ読出 Reg Read 実行 Exec 書戻 WB フロントエンド Front-end バックエンド Back-end

レジスタ･リネーミング― 割り当てと解決マップ表物理レジスタファイル r1 p11 p13 ld r1 = *($sp) r2
高性能コンピューティング論２レジスタ･リネーミング― 割り当てと解決命令は，リネーム･ロジックを In-Order に通過するプログラム・オーダが分かるデータ依存が分かるマップ表物理レジスタファイル r1 p11 p13 ld r1 = *($sp) r2 p12 p0 1000 p11 r3 sla r2 = r1 << 1 r4 p14 p12 p11 p10 320 p11 (empty) sla r1 = r1 << 2 p13 p11 r31 p12 (empty) p13 (empty) add r4 = r1 + r2 フリーリスト p14 p13 p12 p14 (empty) p11 p12 p13 p63 (empty) p14 p63

レジスタ・リネーミング ― 解放理想的な解放タイミング普通は保守的に解放最後のレジスタ参照が完了した時検出が困難
高性能コンピューティング論２レジスタ・リネーミング ― 解放理想的な解放タイミング最後のレジスタ参照が完了した時検出が困難普通は保守的に解放同一の論理レジスタを上書きする命令がプロセッサから追い出された時この先，当該物理レジスタを参照する命令は絶対に出現しない cycle ld r1 = *($sp) OR EX MEM WB p11 sla r2 = r1 << 1 OR EX MEM WB p12 p11 sla r1 = r1 << 2 OR EX MEM WB p13 p11 保守的な解放タイミング理想的な解放タイミング

レジスタ･リネーミング― 解放マップ表物理レジスタファイル r1 p11 p13 ld r1 = *($sp) r2 p12 p0
高性能コンピューティング論２レジスタ･リネーミング― 解放物理レジスタ番号をフリーリストに返却物理レジスタを空の状態に変更マップ表物理レジスタファイル r1 p11 p13 ld r1 = *($sp) r2 p12 p0 1000 p11 r3 sla r2 = r1 << 1 r4 p14 p12 p11 p10 320 p11 4 (empty) sla r1 = r1 << 2 p13 p11 r31 p12 8 p13 16 add r4 = r1 + r2 フリーリスト p14 p13 p12 p14 24 p63 p63 (empty) p11

静的命令と動的命令静的命令動的命令例えば短いループメモリ上にある命令 PCと 1対1 に対応フェッチされて処理中の命令
高性能コンピューティング論２静的命令と動的命令静的命令メモリ上にある命令 PCと 1対1 に対応動的命令フェッチされて処理中の命令 In-Flight な命令例えば短いループ同じ PC の命令が複数存在 0x : 0x : 0x : 0x C: 0x : 0x : 0x : set r1 = 0; # s = 0; set r2 = 1; # i = 1; set r3 = 11; LOOP: beq r2 == r3, EXIT; add r1 = r1 + r2; add r2 = r2 + 1; b LOOP; EXIT:

タグ物理レジスタ：命令ごとに1つずつ割り当てられる物理レジスタ番号 = タグ同一視してよい：
高性能コンピューティング論２タグ物理レジスタ：命令ごとに1つずつ割り当てられる同一視してよい：動的命令とそれに割り当てられた物理レジスタそこに書かれる結果物理レジスタ番号 = タグプロセッサ上の，動的命令 = データ（結果）を一意に識別する識別子 ※ 五島正裕，「アドバンストコンピュータアーキテクチャ」，講義資料「Out-of-Order実行機構」より

投機ミス時のレジスタの回復処理投機ミスした場合，投機的に実行された命令 ex) 予測した分岐命令の，プログラム・オーダ上で下流の命令
高性能コンピューティング論２投機ミス時のレジスタの回復処理投機的に実行された命令 ex) 予測した分岐命令の，プログラム・オーダ上で下流の命令投機ミスした場合，投機的に実行された命令の実行を取り消す　デスティネーション・レジスタ（論理）の内容を元に戻す　レジスタ・マッピングと物理レジスタの内容を元に戻す

レジスタの回復処理マップ表物理レジスタファイル r1 p11 p13 be r3 = r31 , LABEL r2 p12 p0 r3
高性能コンピューティング論２レジスタの回復処理レジスタ・マッピングを投機を行う前の状態に戻す投機的に割り当てた物理レジスタを空の状態に戻すマップ表物理レジスタファイル r1 p11 p13 be r3 = r31 , LABEL r2 p12 p0 1000 r3 p10 ld r1 = *($sp) r4 p14 p11 p10 320 sla r2 = r1 << 1 p11 (empty) 4 p12 p11 r31 p0 p12 8 (empty) sla r1 = r1 << 2 p13 (empty) 16 フリーリスト p13 p11 p14 24 (empty) add r4 = r1 + r2 p12 p11 p13 p14 p63 p14 p13 p12 p63 (empty)

高性能コンピューティング論２命令スケジューリングの実際

命令スケジューリング２つのステップウェイクアップセレクト命令キューの中から実行可能な命令を発見
高性能コンピューティング論２命令スケジューリング２つのステップウェイクアップ命令キューの中から実行可能な命令を発見実行可能な命令＝フロー依存による先行制約を満たす命令セレクトウェイクアップされた命令の中から次に実行する命令を選択資源制約を考慮セレクト回路ウェイクアップ回路命令キュー

ウェイクアップ dtag (destination tag) stag (source tag) rdy (ready bit)
高性能コンピューティング論２ウェイクアップ = = = = dtag stag rdy stag rdy dtag (destination tag) デスティネーション・オペランドのタグ stag (source tag) ソース・オペランドのタグ rdy (ready bit) タグが利用可能か否か？ = = = = = = = = セレクト回路 = = = =

ウェイクアップ ld *($sp) = p11 p11 1 1 sla p11 << 1 = p12 p12 p11 1 sla
高性能コンピューティング論２ウェイクアップ = = = = ld *($sp) = p11 p11 1 1 = = = = sla p11 << 1 = p12 p12 p11 1 = = = = セレクト回路 sla p11 << 2 = p13 p13 p11 1 = = = = add p12 = p14 + p13 p14 p13 p12

ウェイクアップ ld *($sp) = p11 p11 1 1 sla p11 << 1 = p12 p12 p11 1 1
高性能コンピューティング論２ウェイクアップ = = = = ld *($sp) = p11 p11 1 1 = = = = sla p11 << 1 = p12 p12 p11 1 1 = = = = セレクト回路 sla p11 << 2 = p13 p13 p11 1 1 = = = = add p12 = p14 + p13 p14 p13 p12

ウェイクアップ ld *($sp) = p11 p11 1 1 sla p11 << 1 = p12 p12 p11 1 1
高性能コンピューティング論２ウェイクアップ = = = = ld *($sp) = p11 p11 1 1 = = = = sla p11 << 1 = p12 p12 p11 1 1 = = = = セレクト回路 sla p11 << 2 = p13 p13 p11 1 1 = = = = add p12 = p14 + p13 p14 p13 1 p12 1

セレクトレディな命令の中から発行する命令を選択選択の戦略資源制約を満たす命令（must）一般には，古い命令
高性能コンピューティング論２セレクトレディな命令の中から発行する命令を選択選択の戦略資源制約を満たす命令（must）例）整数乗算器を使用中ならば，整数乗算命令は発行不可一般には，古い命令＝プログラム・オーダ上で上流の命令命令が古いほど，その命令に依存する命令が命令ウインドウ内に存在する可能性が高い依存元の命令が発行されないと，依存先の命令はいつまでも発行できない

高性能コンピューティング論２正確な例外

割り込み割り込み外部から，プログラムとは非同期に内部から，プログラムの実行によって
高性能コンピューティング論２割り込み割り込み外部から，プログラムとは非同期に（いわゆる，狭義の）割り込み (interruption) 内部から，プログラムの実行によって例外 (exception) TLBミス division by zero parity error SEGV etc. トラップ (trap) トラップ命令の実行システム・コール

正確な割り込み (precise interruption)
高性能コンピューティング論２正確な割り込み (precise interruption) 正確な割り込み (precise interruption) 割り込み（exception，trap）に対して，In-Order State を回復 In-Order State：割り込みを発生させた命令より前の命令の結果はすべて反映されている割り込みを発生させた命令以降の命令の結果はまったく反映されていない例）ロード命令が TLB ミスした場合，ロード命令の直前の命令まで In-Order 実行ならば簡単割り込みが発生した命令以降の命令＝命令パイプライン上で割り込みを　　発生させた命令よりも上流の命令上記の命令をすべてキャンセル Out-of-Order 実行では？ I0 I1 I2 I3 I4 I5 I6 I7 I8 I9

正確な割り込みと投機ミス投機ミス時も In-Order State （とほぼ同じ状態）を回復
高性能コンピューティング論２正確な割り込みと投機ミス投機ミス時も In-Order State （とほぼ同じ状態）を回復例）分岐予測ミスした命令以前の命令の結果をすべて反映　分岐予測ミスした命令よりも後の命令の結果をすべて破棄投機ミスへの対応の応用で正確な割り込みも実現可能割り込みの頻度は低い投機ミスの方が高速に処理する必要がある

リオーダ・バッファ論理レジスタ・ファイルリオーダ・バッファコミット In-Order State （マシン・ステート）を保持
高性能コンピューティング論２リオーダ・バッファ論理レジスタ・ファイル In-Order State （マシン・ステート）を保持リオーダ・バッファ Out-of-Order State を保持コミットリオーダ・バッファ内の情報を用いて，論理レジスタ・ファイルを更新 In-Order に更新不可逆的更新（巻き戻し不可）

リオーダ・バッファ（通常時）論理 Reg ファイル r1 r2 r3
高性能コンピューティング論２論理 Reg ファイルリオーダ・バッファ（通常時） r1 r2 r3 ディスパッチ時にリオーダ・バッファのエントリを In-Order に割り当て Out-of-Order 実行された結果を In-Order に論理 Reg に反映論理 Reg に反映されるとエントリを解放 r4 r31 コミット ld r1 = *($sp) 論理Reg Reg値 p11 p11 r1 sla r2 = r1 << 1 p12 r2 p12 p11 p13 r1 sla r1 = r1 << 2 (be) p13 p11 p14 r4 be r1 = r2 , LABEL add r4 = r1 + r2 p14 p13 p12 リオーダ・バッファ

リオーダ・バッファ（投機ミス時）論理 Reg ファイル r1 r2 r3 投機ミスした命令よりも下流のエントリをすべて解放 r4 r31
高性能コンピューティング論２論理 Reg ファイルリオーダ・バッファ（投機ミス時） r1 r2 r3 投機ミスした命令よりも下流のエントリをすべて解放 r4 r31 コミット ld r1 = *($sp) 論理Reg Reg値 p11 sla r2 = r1 << 1 p12 p11 sla r1 = r1 << 2 (be) p13 p11 p14 r4 解放 be r1 = r2 , LABEL add r4 = r1 + r2 p14 p13 p12 リオーダ・バッファ

リオーダ・バッファ（割り込み時）論理 Reg ファイル r1 r2 r3 割り込みを発生させた命令以降のエントリを解放 r4 r31
高性能コンピューティング論２論理 Reg ファイルリオーダ・バッファ（割り込み時） r1 r2 r3 割り込みを発生させた命令以降のエントリを解放 r4 r31 コミット ld r1 = *($sp) 論理Reg Reg値 p11 div r2 = r1 / r31 p12 r2 解放 p12 p11 p13 r1 sla r1 = r1 << 2 (be) p13 p11 p14 r4 be r1 = r2 , LABEL add r4 = r1 + r2 p14 p13 p12 リオーダ・バッファ

高性能コンピューティング論２本日のまとめ

まとめ Out-of-Order スーパスカラプロセッサの基本構造の復習レジスタリネーミングの実際命令スケジューリングの実際正確な例外
高性能コンピューティング論２まとめ Out-of-Order スーパスカラプロセッサの基本構造の復習レジスタリネーミングの実際命令スケジューリングの実際正確な例外

高性能コンピューティング論２次回 11/26（木） 10:40～ 19日は調布祭のため休講「分岐予測，プリフェッチ」について解説

高性能コンピューティング論２第5回 Out-of-Order実行機構

Similar presentations

Presentation on theme: "高性能コンピューティング論２第5回 Out-of-Order実行機構"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

高性能コンピューティング論２ 第5回 Out-of-Order実行機構

Similar presentations

Presentation on theme: "高性能コンピューティング論２ 第5回 Out-of-Order実行機構"— Presentation transcript:

Similar presentations

About project

フィードバック

高性能コンピューティング論２第5回 Out-of-Order実行機構

Presentation on theme: "高性能コンピューティング論２第5回 Out-of-Order実行機構"— Presentation transcript: