メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

Slides:

Advertisements

Similar presentations

G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマンス測定用のツール使い方： exe ファイルのパスと作業ディレクトリ指定して実行するだけ注意点 : GPU のコード実行後にプログラム終了前に,

Advertisements

ＣＰＵ設計とパイプライン.

計算機システムⅡ 命令レベル並列処理とアウトオブオーダ処理

情報理工学系研究科コンピュータ科学専攻上嶋裕樹

Webプロキシサーバにおける動的資源管理方式の提案と実装

07. 値予測五島正裕.

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

メモリコンシステンシモデル memory consistency model

07. 値予測五島正裕.

ヘテロジニアスマルチコアプロセッサ環境を対象としたキャッシュシステム自動生成ツールの開発

基本情報技術概論（第10回）埼玉大学理工学研究科堀山貴史

Chapter11-4(前半) 加藤健.

最新ファイルの提供を保証する代理FTPサーバの開発

計算機システムⅡ 主記憶装置とALU，レジスタの制御

高性能コンピューティング学講座三輪忍高性能コンピューティング論２高性能コンピューティング論２第4回投機高性能コンピューティング学講座三輪　忍

神奈川大学大学院工学研究科電気電子情報工学専攻

仮想マシンの並列処理性能に対するCPU割り当ての影響の評価

App. A アセンブラ、リンカ、 SPIMシミュレータ

Ibaraki Univ. Dept of Electrical & Electronic Eng.

第3回 CPUの管理と例外処理 OSによるハードウェアの管理 CPUの構成、動作 CPUの管理例外処理、割り込み処理コンテキストスイッチ

Ibaraki Univ. Dept of Electrical & Electronic Eng.

第５回 CPUの役割と仕組み３割り込み、パイプライン、並列処理

画像処理ボード上での高速テンプレートマッチングの実装と検証

高性能コンピューティング論２第5回 Out-of-Order実行機構

基本情報技術概論（第８回）埼玉大学理工学研究科堀山貴史

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

第7回 2006/6/12.

IPｖ６アドレスによる RFIDシステム利用方式

過負荷時のWebアプリケーションの性能劣化を改善する Page-level Queue Scheduling

大阪大学大学院情報科学研究科博士前期課程２年宮原研究室土居聡

Lazy Release Consistency

Advanced Computer Architecture

・ディジタル回路とクロック・プロセッサアーキテクチャ・例外処理・パイプライン・ハザード

プロジェクト実習 LSIの設計と実現パイプライン実行とハザード.

アドバンストコンピュータアーキテクチャ RISC と命令パイプライン

非レイテンシ指向レジスタ・キャッシュ・システム

勉強会その５　　2016/6/15 マルチコア/マルチプロセッサキャッシュコヒーレンス 10 8分35秒.

11. マルチスレッド・プロセッサ五島正裕.

Cache Organization for Memory Speculation メモリ投機を支援するキャッシュの構成法

情報理工学系研究科電子情報学専攻豊島隆志

10. マルチスレッド・プロセッサ五島正裕.

Advanced Computer Architecture

レジスタ間接分岐ターゲット・フォワーディング

Advanced Computer Architecture

Advanced Computer Architecture

第7回授業計画の修正中間テストの解説・復習前回の補足（クロックアルゴリズム・PFF) 仮想記憶方式のまとめ特別課題について

通信機構合わせた最適化をおこなう並列化ンパイラ

実行時情報を用いて通信を最適化するPCクラスタ上の並列化コンパイラ

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

08. メモリ非曖昧化五島正裕.

Ibaraki Univ. Dept of Electrical & Electronic Eng.

片方向通信路を含むネットワークアーキテクチャに於ける動的な仮想リンク制御機構の設計と実装

09. メモリ・ディスアンビギュエーション五島正裕.

JAVAバイトコードにおけるデータ依存解析手法の提案と実装

坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電気工学科

Ibaraki Univ. Dept of Electrical & Electronic Eng.

コンピュータアーキテクチャ第 9 回.

Mondriaan Memory Protection の調査

コンピュータアーキテクチャ第 5 回.

ユビキタスコンピューティングのためのハンドオーバー機能付きRMIの実装

SpectreとMeltdown ITソリューション塾・第27期 2018年3月20日株式会社アプライド・マーケティング大越章司

コンピュータアーキテクチャ第 9 回.

コンピュータアーキテクチャ第 5 回.

SMP/マルチコアに対応した型付きアセンブリ言語

コンピュータ工学基礎マルチサイクル化とパイプライン化テキスト9章 115~124

Ibaraki Univ. Dept of Electrical & Electronic Eng.

分散メモリ型並列計算機上での行列演算の並列化

ベイジアンネットワークとクラスタリング手法を用いたWeb障害検知システムの開発

情報システム基盤学基礎１コンピュータアーキテクチャ編

Presentation transcript:

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討東京大学大学院情報理工学系研究科坂井修一研究室豊島隆志　田代大輔　バルリニコデムス　坂井修一

発表の流れ背景スレッド投機実行モデルキャッシュコヒーレンスプロトコルメモリ投機コンシステンシプロトコル評価・結果まとめ

背景 Instruction Level Parallelism -ILP- の限界 Thread Level Parallelism -TLP- の探求資源は潤沢になりつつある SMP, CMP, SMT, etc… 過去の資産から少ない労力でTLPを抽出したいソースには手を加えないコンパイラ、ハードウェアによる実現バイナリには手を加えないランタイム環境、ハードウェアによる実現スレッド投機実行

発表の流れ背景スレッド投機実行モデルキャッシュコヒーレンスプロトコルメモリ投機コンシステンシプロトコル評価・結果まとめ

L1 DCache with Spec. Support Thread Validation Unit スレッド投機実行～構成～ Sequential program L1 ICache Rename Map Decode/ Rename Instruction Queue Register File Func. Unit L1 DCache with Spec. Support Thread Predictor Thread Validation Unit L2 Cache Reg. Comm. IF Compiler binary execution binary

L1 DCache with Spec. Support Thread Validation Unit スレッド投機実行～構成～ Sequential program binary Compiler binary execution L1 ICache Rename Map Decode/ Rename Instruction Queue Register File Func. Unit L1 DCache with Spec. Support Thread Predictor Thread Validation Unit L2 Cache Reg. Comm. IF

スレッド投機実行～スレッド分割～コンパイラにより静的に分割データ依存・制御依存レジスタデータ依存メモリデータ依存先行→後続方向のみ許すレジスタデータ依存静的に解析レジスタ通信命令により解決メモリデータ依存投機キャッシュコヒーレンスプロトコル

L1 DCache with Spec. Support Thread Validation Unit スレッド投機実行～構成～ Sequential program binary Compiler binary execution L1 ICache Rename Map Decode/ Rename Instruction Queue Register File Func. Unit L1 DCache with Spec. Support Thread Predictor Thread Validation Unit L2 Cache Reg. Comm. IF

スレッド投機実行～スレッド割り当て～スレッド予測器による動的割り当てスレッドの破棄スレッドの再実行制御依存は投機により処理ラウンドロビン方式スレッドの破棄制御依存予測の失敗スレッドの再実行メモリ投機の失敗

L1 DCache with Spec. Support Thread Validation Unit スレッド投機実行～構成～ Sequential program binary Compiler binary execution L1 ICache Rename Map Decode/ Rename Instruction Queue Register File Func. Unit L1 DCache with Spec. Support Thread Predictor Thread Validation Unit L2 Cache Reg. Comm. IF

スレッド投機実行～レジスタ同期～プロセッサコアレジスタ同期命令同期用ネットワーク

L1 DCache with Spec. Support Thread Validation Unit スレッド投機実行～構成～ Sequential program binary Compiler binary execution L1 ICache Rename Map Decode/ Rename Instruction Queue Register File Func. Unit L1 DCache with Spec. Support Thread Predictor Thread Validation Unit L2 Cache Reg. Comm. IF

スレッド投機実行～メモリ投機～一次データキャッシュコンシステンシの確保各プロセッサ毎に個別メモリ投機の支援ロード・ストア投機ロード・投機ストア巻き戻しコンシステンシの確保バージョン管理

発表の流れ背景スレッド投機実行モデルキャッシュコヒーレンスプロトコルメモリ投機コンシステンシプロトコル評価・結果まとめ

メモリ投機支援ロード・ストア投機ロード投機ストア巻き戻しコンシステンシがとれるよう注意する非投機状態に移行するまで投機ロードを記録投機ロード後にストアされたら投機ミスを検出投機ストア投機ストアは２次キャッシュ以降に伝えない非投機状態になるまでフラッシュできない巻き戻しキャッシュを無効化するだけで良い

コンシステンシの確保スレッドの境界をまたいで・・・競合するロードがストアを追い越さない競合するストアがロードを追い越さない投機ロードミスの検出でフォロー競合するストアがロードを追い越さないストアの伝送（無効化・更新）に工夫が必要本来の時系列を遡って伝送しない競合するストア同士で追い越しが起きないストアの発行元を記録し、正しくバージョン管理する

ストアの伝送先競合するストアがロードを追い越さない本来のスレッド実行順序 load from X store to X 投機実行 load from X store to X store to X load from X

ストアの遅延伝送本来のスレッド実行順序 store to X 直前のスレッド完了時に store to X 遅延伝送（無効化・更新）する必要がある store to X load from X load from X 投機実行 load from X store to X store to X load from X

無効なストア伝送競合するストア同士で追い越しが起きない本来のスレッド実行順序ストア元のスレッドを記憶・比較 load from X することで対処 store to X store to X load from X 投機実行 load from X store to X store to X load from X

プロトコル無効化方式（Invalidate-based）更新方式（Update-based）投機ロードはワード単位で記録遅延無効化（ワード単位／ライン単位）ブロードキャスト（有／無）更新方式（Update-based）

ブロードキャストあるプロセッサがアクセスしたメモリは、近い将来に別のプロセッサもアクセスする可能性が高い、という性質を利用した一種のプリフェッチリード・ブロードキャストある一次キャッシュがリードミスした際、同じラインを無効状態として保持しているキャッシュは同時に更新するライト・ブロードキャストある一次キャッシュがライトミスした際、同じラインを無効状態として保持しているキャッシュは同時に更新する（更新方式でも無効状態が存在し得るため）

更新ｖｓブロードキャストどちらも、無効化された値をアクセス前に有効に戻す事でキャッシュミスを減らす手法スレッド投機実行では、ライト以外の要因でもキャッシュが無効になり得、更新のみではカバーできないスレッドの破棄遅延無効化更新とブロードキャストでは、有効に戻すタイミングが異なる早過ぎると・・・有効に戻す事のできる対象範囲が減少遅すぎると・・・投機ミス、キャッシュミスを招く

キャッシュディレクトリ無効化方式更新方式投機ミス判定のための追加情報コンシステンシ確保のための追加情報 Line Tag State Condition Word 7 … Word 0 Data Conditions Obsolete Speculative Loaded Stored 2bit 1bit 64bit 更新方式 Line Tag State Conditions Word 7 … Word 0 Data Invalid Shared Modified Obsolete Store Loaded 1bit 64bit 4bit 投機ミス判定のための追加情報コンシステンシ確保のための追加情報

状態遷移図無効化方式更新方式

発表の流れ背景スレッド投機実行モデルキャッシュコヒーレンスプロトコルメモリ投機コンシステンシプロトコル評価・結果まとめ

評価評価環境サイクルベース・シミュレータ SPEC CINT95 スーパースカラプロセッサスレッド投機実行アウトオブオーダ実行分岐予測スレッド投機実行スレッド予測器レジスタ同期メモリ投機 SPEC CINT95 専用の最適化コンパイラにより生成

評価パラメータパラメータ値プロセッサユニット数４ユニットパイプライン段数７段フェッチ・発行・リタイヤ幅４命令物理レジスタ数１２８レジスタ機能ユニット ALU×２ロード・ストア×２リオーダバッファ６４エントリ発行キュー２０エントリロード・ストアキュー BTB １０２４エントリ Bimodalスレッド予測器４０９６エントリ１次命令キャッシュ 16KB 64Bライン 2-way セットアソシアティブアクセスレイテンシ 1サイクル１次データキャッシュ 64KB 64Bラインアクセスレイテンシ 2サイクル２次キャッシュ理想化（常にヒット）アクセスレイテンシ 16サイクル無効化レイテンシ 3サイクル更新レイテンシ 5サイクル

結果ブロードキャストの効果

結果投機ミス

結果相対実行サイクル 0.05差

発表の流れ背景スレッド投機実行モデルキャッシュコヒーレンスプロトコルメモリ投機コンシステンシプロトコル評価・結果まとめ

まとめメモリ投機の可能な各種キャッシュコヒーレンスプロトコルを設計、シミュレータ上に実装し、性能を比較評価したスレッド投機実行時のキャッシュミスが、更新方式、ブロードキャスト方式によって、どの程度軽減されているか調べた更新方式とブロードキャストの組み合わせが性能はもっとも高いどちらか１つを採用するなら性能は僅差で更新方式が勝る設計コストやバスのトラフィックを考えるとブロードキャストを選択するメリットも大きい