メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討
東京大学大学院情報理工学系研究科坂井修一研究室豊島隆志　田代大輔　バルリニコデムス　坂井修一

発表の流れ背景スレッド投機実行モデルキャッシュコヒーレンスプロトコルメモリ投機コンシステンシプロトコル評価・結果まとめ

背景 Instruction Level Parallelism -ILP- の限界
Thread Level Parallelism -TLP- の探求資源は潤沢になりつつある SMP, CMP, SMT, etc… 過去の資産から少ない労力でTLPを抽出したいソースには手を加えないコンパイラ、ハードウェアによる実現バイナリには手を加えないランタイム環境、ハードウェアによる実現スレッド投機実行

L1 DCache with Spec. Support Thread Validation Unit
スレッド投機実行～構成～ Sequential program L1 ICache Rename Map Decode/ Rename Instruction Queue Register File Func. Unit L1 DCache with Spec. Support Thread Predictor Thread Validation Unit L2 Cache Reg. Comm. IF Compiler binary execution binary

スレッド投機実行～構成～ Sequential program binary Compiler binary execution L1 ICache Rename Map Decode/ Rename Instruction Queue Register File Func. Unit L1 DCache with Spec. Support Thread Predictor Thread Validation Unit L2 Cache Reg. Comm. IF

スレッド投機実行～スレッド分割～コンパイラにより静的に分割データ依存・制御依存レジスタデータ依存メモリデータ依存
先行→後続方向のみ許すレジスタデータ依存静的に解析レジスタ通信命令により解決メモリデータ依存投機キャッシュコヒーレンスプロトコル

スレッド投機実行～スレッド割り当て～スレッド予測器による動的割り当てスレッドの破棄スレッドの再実行制御依存は投機により処理
ラウンドロビン方式スレッドの破棄制御依存予測の失敗スレッドの再実行メモリ投機の失敗

スレッド投機実行～レジスタ同期～プロセッサコアレジスタ同期命令同期用ネットワーク

スレッド投機実行～メモリ投機～一次データキャッシュコンシステンシの確保各プロセッサ毎に個別メモリ投機の支援ロード・ストア
投機ロード・投機ストア巻き戻しコンシステンシの確保バージョン管理

メモリ投機支援ロード・ストア投機ロード投機ストア巻き戻しコンシステンシがとれるよう注意する
非投機状態に移行するまで投機ロードを記録投機ロード後にストアされたら投機ミスを検出投機ストア投機ストアは２次キャッシュ以降に伝えない非投機状態になるまでフラッシュできない巻き戻しキャッシュを無効化するだけで良い

コンシステンシの確保スレッドの境界をまたいで・・・競合するロードがストアを追い越さない競合するストアがロードを追い越さない
投機ロードミスの検出でフォロー競合するストアがロードを追い越さないストアの伝送（無効化・更新）に工夫が必要本来の時系列を遡って伝送しない競合するストア同士で追い越しが起きないストアの発行元を記録し、正しくバージョン管理する

ストアの伝送先競合するストアがロードを追い越さない本来のスレッド実行順序 load from X store to X
投機実行 load from X store to X store to X load from X

ストアの遅延伝送本来のスレッド実行順序 store to X 直前のスレッド完了時に store to X 遅延伝送（無効化・更新）
する必要がある store to X load from X load from X 投機実行 load from X store to X store to X load from X

無効なストア伝送競合するストア同士で追い越しが起きない本来のスレッド実行順序ストア元のスレッドを記憶・比較 load from X
することで対処 store to X store to X load from X 投機実行 load from X store to X store to X load from X

プロトコル無効化方式（Invalidate-based）更新方式（Update-based）投機ロードはワード単位で記録
遅延無効化（ワード単位／ライン単位）ブロードキャスト（有／無）更新方式（Update-based）

ブロードキャストあるプロセッサがアクセスしたメモリは、近い将来に別のプロセッサもアクセスする可能性が高い、という性質を利用した一種のプリフェッチリード・ブロードキャストある一次キャッシュがリードミスした際、同じラインを無効状態として保持しているキャッシュは同時に更新するライト・ブロードキャストある一次キャッシュがライトミスした際、同じラインを無効状態として保持しているキャッシュは同時に更新する（更新方式でも無効状態が存在し得るため）

更新ｖｓブロードキャストどちらも、無効化された値をアクセス前に有効に戻す事でキャッシュミスを減らす手法
スレッド投機実行では、ライト以外の要因でもキャッシュが無効になり得、更新のみではカバーできないスレッドの破棄遅延無効化更新とブロードキャストでは、有効に戻すタイミングが異なる早過ぎると・・・有効に戻す事のできる対象範囲が減少遅すぎると・・・投機ミス、キャッシュミスを招く

キャッシュディレクトリ無効化方式更新方式投機ミス判定のための追加情報コンシステンシ確保のための追加情報 Line Tag State
Condition Word 7 … Word 0 Data Conditions Obsolete Speculative Loaded Stored 2bit 1bit 64bit 更新方式 Line Tag State Conditions Word 7 … Word 0 Data Invalid Shared Modified Obsolete Store Loaded 1bit 64bit 4bit 投機ミス判定のための追加情報コンシステンシ確保のための追加情報

状態遷移図無効化方式更新方式

評価評価環境サイクルベース・シミュレータ SPEC CINT95 スーパースカラプロセッサスレッド投機実行
アウトオブオーダ実行分岐予測スレッド投機実行スレッド予測器レジスタ同期メモリ投機 SPEC CINT95 専用の最適化コンパイラにより生成

評価パラメータパラメータ値プロセッサユニット数４ユニットパイプライン段数７段フェッチ・発行・リタイヤ幅４命令
物理レジスタ数１２８レジスタ機能ユニット ALU×２ロード・ストア×２リオーダバッファ６４エントリ発行キュー２０エントリロード・ストアキュー BTB １０２４エントリ Bimodalスレッド予測器４０９６エントリ１次命令キャッシュ 16KB 64Bライン 2-way セットアソシアティブアクセスレイテンシ 1サイクル１次データキャッシュ 64KB 64Bラインアクセスレイテンシ 2サイクル２次キャッシュ理想化（常にヒット）アクセスレイテンシ 16サイクル無効化レイテンシ 3サイクル更新レイテンシ 5サイクル

結果ブロードキャストの効果

結果投機ミス

結果相対実行サイクル 0.05差

まとめメモリ投機の可能な各種キャッシュコヒーレンスプロトコルを設計、シミュレータ上に実装し、性能を比較評価した
スレッド投機実行時のキャッシュミスが、更新方式、ブロードキャスト方式によって、どの程度軽減されているか調べた更新方式とブロードキャストの組み合わせが性能はもっとも高いどちらか１つを採用するなら性能は僅差で更新方式が勝る設計コストやバスのトラフィックを考えるとブロードキャストを選択するメリットも大きい

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

Similar presentations

Presentation on theme: "メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

Similar presentations

Presentation on theme: "メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討"— Presentation transcript:

Similar presentations

About project

フィードバック