GPUにおける走行時パワーゲーティング向けスレッド発行制御手法に関する研究

GPUにおける走行時パワーゲーティング向けスレッド発行制御手法に関する研究
高性能コンピューティング学講座本多・近藤研究室松本洋平

動作の必要がないときに電源供給を遮断する
パワーゲーティング(PG) LSIの回路ブロックに対して電源遮断用のスイッチを設ける動作の必要がないときに電源供給を遮断するリーク消費エネルギーを削減 Power Switch パワーゲーティングの回路図 1/16

Interconnection Network
研究目的：GPUの消費エネルギー削減 GPU Chip SIMDユニットレベルPG 演算器レベルPG コアレベルPG GPU Core Core Core 大量のプロセッサコア大量のSIMD演算器高い並列性消費電力大 unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD GeForce GTX480の場合コア部分のリーク消費電力[1] 24.15[W] Interconnection Network ( GPU全体の８％ ) 階層的なPG手法を提案 DRAM Chip (GDDR5) DRAM Chip (GDDR5) コアレベル(粗粒度PG) SIMDユニットレベル(細粒度PG) 演算器レベル(細粒度PG) GPUのモデル [1]　M. A. Majeed et al. Warped Gates: Gating Aware Scheduling and Power Gating for GPGPUs MICRO ’13, 2013. 2/16

戦略：アイドル時間の集約分散しているアイドル時間を集約し PGの効果を最大化するコアレベル(粗粒度PG)
　スレッドブロックの割り当てを制御ネットワーク混雑度に応じたCTA発行 SIMDユニットレベル(細粒度PG) コア中のSIMDユニットでのワープ発行を制御演算器使用率に応じたワープ発行演算器レベル(細粒度PG) SIMDユニット中の各演算器にスレッド発行を制御ワープ分割スレッドコンパクション 3/16

　スレッドブロックの割り当てを制御ネットワーク混雑度に応じたCTA発行 SIMDユニットレベル(細粒度PG) コア中のSIMDユニットでのワープ発行を制御演算器使用率に応じたワープ発行演算器レベル(細粒度PG) SIMDユニット中の各演算器にスレッド発行を制御ワープ分割スレッドコンパクション

ネットワーク混雑度に応じたCTA発行制御
コアレベルPG GTX480の場合コアからのチャネルが１５本メモリからのチャネルが６本オンチップネットワークが性能のボトルネックとなる場合は PGを適用しても性能に影響が少ない Hazard Hazard いくつかのコアに対するCTAの発行を抑制してPGを適用する性能低下を予測した制御が必要 GPUのモデル 4/16

ネットワーク混雑度に応じたCTA発行制御
提案手法ユーザーが設定した性能低下率の範囲内でCTAの発行制御する各ベンチマークで測定した結果を示すオンチップネットワークのストールサイクル率 × α + 演算平均間隔(1/演算器使用率) により性能低下率を予測ストールサイクル率ネットワークの混雑よりメモリ側からデータ送信ができずストールしているサイクル数 15コアから10コアの発行指標 14コアから8コアまで指標を作成し、なるべく少ないコア数で実行演算平均間隔(1/演算器使用率)… 短いほどネットワークが混雑していても多くのコアを使用したほうが良い初期CTA実行の際に全コアを動作させ指標を習得して以降のコア数を決定 (１カーネル内では指標の変動はほぼないため) 15コアから13コアの発行指標 5/16

細粒度PGの問題点：電力オーバーヘッド 6/16
電源のON/OFFによる電力オーバーヘッドが発生してしまうため出来る限りActive/Sleepの移行回数を少なくする必要がある分散している演算器のアイドルサイクルをまとめてPGする必要がある 6/16

GPUコア中には複数個の SIMDユニットが搭載されている
GPU core GPU core 演算演算器に空きがあればすぐにSIMD演算を発行演算演算演算演算演算 SIMD演算間で短いアイドルが発生してしまう演算演算演算演算提案手法片方のSIMD ユニットのみに演算を発行する SIMD1 SIMD2 SIMD1 SIMD2 発行制御前発行制御後ただし、性能低下する可能性あり SIMDユニットPG 7/16

1ワープ(32スレッド)の命令処理を行うには同じ命令を２回連続で実行しワープを処理する
GPUのスレッド実行１つのSIMDユニット内でのスレッド実行(アニメーション) 1ワープ(32スレッド)の命令処理を行うには同じ命令を２回連続で実行しワープを処理する 8/16

問題点：モード切り替えの頻発 9/16 演算の位置がばらばらであると、演算器のアイドルは時間的に分散 BET以下でのPGとなり
消費電力が増大する可能性電源のON/OFF 回数を削減して分散してしるアイドル集約したい２つのスレッド発行制御手法を提案ワープ発行制御スレッドコンパクション青：PGにより消費電力を削減黄：PGにより消費電力を削減 or 損失赤：PGにより損失が発生 SIMDユニット内でのスレッド実行例 9/16

1ワープを2ワープに分割することで使用する演算器を半分にすることで不使用になった演算器を長期間PG
ワープ分割空きスロットが存在演算器が使用されないサイクルが発生プログラム中の並列度の不足オンチップネットワークのストールキャッシュミス提案手法 warp分割 1ワープを2ワープに分割することで使用する演算器を半分にすることで不使用になった演算器を長期間PG 不使用演算器に対して長期間PGを適用可能になるただし、性能低下する可能性あり 10/16

演算器使用率に応じて SIMDユニット発行制御と
ワープ発行制御性能低下の恐れのある SIMDユニットに対するワープ発行制御ワープ分割の両者に統一的な制御が必要提案手法演算器使用率に応じて SIMDユニット発行制御とワープ分割を組み合わせた４モードを制御性能低下を防ぎつつ演算器をPG可能 11/16

コンパクション(集約)することで不使用になった演算器を長期間PG
スレッドコンパクション通常であればスレッド毎に使用する演算器が固定されている提案手法スレッドコンパクションスレッドコンパクション一部の演算器に対してスレッド発行をコンパクション(集約)することで不使用になった演算器を長期間PG 性能には影響なし 12/16

評価手法 HWシミュレーター：GPGPU-Sim (version 3.2.0) 提案手法の評価手法ベンチマーク集 13/16
HWモデル：GeForce GTX 480 提案手法の評価手法各手法によるリークエネルギー削減効果を評価　仮定：BET以上のアイドルサイクルは理想的にPGが適用できるベンチマーク集 Rodinia, ISPASS, NVIDIA SDK 13/16

コアレベルPGの評価結果 14/16 BFS, MUM, lud, cfd はアクティブサイクルを削減することができた
性能低下の目標値性能低下の目標値 BFS, MUM, lud, cfd はアクティブサイクルを削減することができた暫定的に発行制御の指標を作成したため適当でない発行制御をしてしまっている　　　今後の課題 14/16

SIMDユニット・演算器レベルPGの評価結果
高削減低削減スレッド発行制御とコンパクションの相乗効果が見られたスレッド発行制御＋コンパクションスレッドコンパクションスレッド発行制御 SIMDユニット使用率の低いBFSで８ポイント, MUMで６ポイントの効果が得られた分岐命令の多いBFSで16 ポイント, MUMで6 ポイントの効果が得られた 15/16

まとめと今後の展望まとめ今後の展望学会発表 GPU上のリーク消費エネルギー削減手法を提案
シミュレーションによる評価の結果、リーク消費電力を効率的に削減できる可能性あり今後の展望より性能を抑えつつさらに効率的なPG手法の考案より現実的な評価学会発表第196回計算機アーキテクチャ研究発表会第199回ARC・第142回HPC合同研究発表会 16/16

SIMD ユニットレベルPGの評価結果提案手法ほとんど性能に影響はない (スレッドコンパクションは性能に影響しないため評価は省略)
実行時間 : 長実行時間 : 短提案手法ほとんど性能に影響はない (スレッドコンパクションは性能に影響しないため評価は省略)

(スレッドコンパクションは本制御とは独立に常に適用可能 )
スレッド発行制御手法：ワープ発行制御制御手法 State-1(再載) State-3(再載) タイムスライスベースの制御　　ワープ実行をある一定の期間Tに区切るタイムスライスの最後に測定したSIMDユニット使用率の結果から、次のタイムスライスで用いる状態を決定する (スレッドコンパクションは本制御とは独立に常に適用可能 )

スレッド発行制御手法：アーキテクチャ 17/31 アーキテクチャーの詳細な構想については今後の課題命令デコーダ命令デコーダ演算器
N/2ポートセレクタ N/2ポートセレクタ演算器演算器演算器演算器演算器演算器演算器演算器演算器演算器演算器演算器 (a)スレッドコンパクション命令デコーダ通常のGPUの構成アーキテクチャーの詳細な構想については今後の課題演算器演算器演算器演算器演算器演算器 (b)warp分割 17/31

研究目的：GPUの消費電力削減文献[2]ではGeForce GTX480の消費電力を10コンポーネントに分類している
本提案手法の範囲は EXE, RF, Constant , Pipelineの４コンポーネントが対象である提案手法の影響範囲は GPU総消費電力の55.9% [2]　Jingwen Leng et al. GPUWattchy : Enabling Energy Optimizations in GPGPUs ISCA ’13, pp , 2013.

GPU Chip GPU Chip Core Cluster Core Cluster Core Cluster Core Cluster
unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD unit SIMD Buffer Buffer Buffer Buffer Buffer Interconnection Network Interconnection Network L2 Cache DRAM Chip (GDDR5) L2 Cache DRAM Chip (GDDR5) L2 Cache DRAM Chip (GDDR5) L2 Cache DRAM Chip (GDDR5) L2 Cache DRAM Chip (GDDR5)

GPUのSIMDユニット使用率 50サイクル毎の演算器使用率の推移演算器をPG できる機会が多く存在する LPSのSIMDユニット使用率
BFSのSIMDユニット使用率 50サイクル毎の演算器使用率の推移 LPS では75%以下の演算器使用率が点在 BFS では演算器使用率が50%以下の部分がほとんど演算器をPG できる機会が多く存在する

GPU上でのCTA 発行通常のCTAスケジューリングラウンドロビン方式全てのコアに均等にCTA が割り当てられるために
CTA : Cooperative Thread Array 通常のCTAスケジューリング　　ラウンドロビン方式全てのコアに均等にCTA が割り当てられるためにコアをPGできる機会はほとんどない

SIMDユニットレベルの細粒度PG 50サイクル毎の演算器使用率の推移（LPS）演算器を細粒度にPGできる機会が多く存在する
演算器使用率[%] 50サイクル毎の演算器使用率の推移（LPS） LPS では75%以下の演算器使用率が点在演算器を細粒度にPGできる機会が多く存在する

T[cycle] T[cycle] T[cycle] T[cycle] SIMDユニット使用率 75% 50% 75% ワープ発行制御 State-1 State-3 State-1 T 2T 3T 4T

コアレベルPG手法：CTA ブロック割り当て
少なかった場合一部のコアにCTA発行を止めてPG適用性能低下を抑えつつPG 可能

CTAブロック割り当ての評価結果全てのベンチマークでアクティブサイクルの削減と PG によりリーク電力削減が期待できる
LIBでは性能低下率は3%でアクティブサイクルを45%削減　　　とても高い効果相対実行サイクル

GPU上でのCTA 発行通常のCTAスケジューリングラウンドロビン方式
CTA:Cooperative Thread Array PG適用通常のCTAスケジューリング　　ラウンドロビン方式 GPUコアにCTAを割り当てずPGを適用して GPUコアのPGできる機会を増やすことを考える

Kernel CTA warp CUDA Application Kernel 1 Kernel 2 Kernel N CTA 1
Warp N CTA N Kernel N

GPU core Branch unit SIMD unit I-Buffer Issue fetch() decode() issue()
ALU I-Cache Decode I-Buffer Score Board Issue Operand Collector MEM Fetch SIMT-Stack Done (WID) Valid[1:N] Branch Target PC Pred. Active Mask fetch() decode() issue() read_operand() execute() writeback() GPU core Thread Pool (up to 1536 Thread) Branch unit Fetch &Decode SIMD unit Active mask CTA 1 CTA 2 Active mask Read Operand I-Buffer Issue Memory unit CTA 7 CTA 8

0 0 0 １１１ 0 0 １ 0 １ 0 １１１ 0 0 0 １１ 0 １ 0 １１１１１ 0 0 １ 0 A B C D E F G

SIMD Lane ID A B C D E F G warp実行順序０１２３１１１１ 0 0 １１ 0 １ 0 １
0 0 0 １ 0 0 １ 0 １１ 0 0 １ 0 １ 0 １１１ 0 warp実行順序 B C D E F G A ０１２３ SIMD Lane ID

Kernel GPU core 1 GPU core 2 GPU core 15 Application Thread Pool
GPGPU Application Kernel Kernel 0 CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA CTA GPU core 1 GPU core 2 GPU core 15 Thread Pool (up to 1536 Thread) Thread Pool (up to 1536 Thread) Thread Pool (up to 1536 Thread) CTA 0 CTA 1 CTA 2 CTA 3 CTA 28 CTA 29 CTA 90 CTA 91 CTA 92 CTA 93 CTA 118 CTA 119

Kernel GPU core 1 GPU core 2 GPU core 15 Application Thread Pool
GPGPU Application Kernel Kernel 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA CTA GPU core 1 GPU core 2 GPU core 15 Thread Pool (up to 1536 Thread) Thread Pool (up to 1536 Thread) Thread Pool (up to 1536 Thread) CTA 1 CTA 2 CTA 3 CTA 4 CTA 71 CTA 72 CTA 73 CTA 74

Kernel GPGPU Application GPU core 1 GPU core 1 Thread Pool
CTA 1 CTA 1 CTA CTA CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA CTA Thread Pool (up to 1536 Thread) CTA 1 GPU core 1 CTA 7 CTA 2 CTA 8 Thread Pool (up to 1536 Thread) CTA 1 GPU core 1 CTA 7 CTA 2 CTA 8

Kernel GPGPU Application GPU core 1 GPU core 2 GPU coreN Thread Pool
CTA 1 CTA 1 CTA CTA CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA 1 CTA CTA Thread Pool (up to 1536 Thread) CTA 1 GPU core 1 CTA 7 CTA 2 CTA 8 Thread Pool (up to 1536 Thread) CTA 1 GPU core 2 CTA 7 CTA 2 CTA 8 Thread Pool (up to 1536 Thread) GPU coreN

60%～100% 50%～75% 25%～50% 50%～75% 60%～100% 10%～35% 0%～25% 0%～25%
SIMDユニット２ SIMDユニット１ GPUコア(State-1) SIMDユニット２ SIMDユニット１ GPUコア(State-3) 25%～50% 50%～75% 60%～100% 0%～25% 60%～100% 0%～25% 10%～35% SIMDユニット２ SIMDユニット１ GPUコア(State-2) SIMDユニット２ SIMDユニット１ GPUコア(State-4) 35%～60% 35%～60% 0%～25%

関連研究 GPU上のPG GPUのスレッド発行制御 CPUにおける細粒度PG 30/31
Yue Wang , et al. Run-time power-gating in caches of GPUs for leakage energy savings. DATE12,pp ,2012. キャッシュのPGであり、演算器はPGの対象としてない GPUのスレッド発行制御 Minsoo Rhu , et al. CAPRI: Prediction of Compaction-Adequacy for Handling Control-Divergence in GPGPU Architectures. ISCA ’12, pp.61-71, 2012. 演算器使用効率の向上を目的としたスレッドコンパクションでGPUの性能を向上させる手法 CPUにおける細粒度PG 関直臣ら, “MIPS R3000 プロセッサにおける細粒度動的スリープ制御の実装と評価”, 電子情報通信学会論文誌, pp , 2010 年. MIPS R3000プロセッサ上で，OSやコンパイラがハードウェアによるPGを制御する手法 30/31

スレッド発行器スケジューラ W W W W A A B C 演算器演算器スレッドスレッド W W ｘ warp ｘ warp

W W W A B C 演算器スレッド W ｘ warp

W １ W ２ W １ W ２ W １ W ２ A A B B C C 演算器スレッド W ｘ warp

SIMD ユニットレベルPGの評価結果高削減低削減スレッド発行制御 BFS, CP, MUM 演算器の使用率が低いベンチマーク
normal に比べてリーク消費電力の削減効果は BFSで8ポイント，CPで6 ポイント，MUMで5 ポイントであった

SIMD ユニットレベルPGの評価結果高削減低削減スレッド発行制御リーク消費電力の削減効果が僅か
hotspot, LPB, LPS　演算器の使用率が高いベンチマークリーク消費電力の削減効果が僅か

SIMD ユニットレベルPGの評価結果高削減低削減スレッド発行制御 NN　もともと演算器の空きが多いリーク消費電力の削減効果が僅か

SIMD ユニットレベルPGの評価結果高削減低削減 BFS, MUM 全命令中の分岐命令の割合が多いスレッドコンパクション
normal に比べてそれぞれ16 ポイント，6 ポイント増加のリークエネルギー削減効果が得られたスレッドコンパクション

SIMD ユニットレベルPGの評価結果高削減低削減その他全命令中の分岐命令の割合が少ないスレッドコンパクション
　　　その他　　全命令中の分岐命令の割合が少ないスレッドコンパクションの効果がほとんど得られていないスレッドコンパクション

SIMD ユニットレベルPGの評価結果高削減低削減スレッド発行制御＋コンパクション
スレッド発行制御とコンパクションの相乗効果が見られたスレッド発行制御＋コンパクション

GPUにおける走行時パワーゲーティング向けスレッド発行制御手法に関する研究

Similar presentations

Presentation on theme: "GPUにおける走行時パワーゲーティング向けスレッド発行制御手法に関する研究"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

GPUにおける走行時パワーゲーティング向け スレッド発行制御手法に関する研究

Similar presentations

Presentation on theme: "GPUにおける走行時パワーゲーティング向け スレッド発行制御手法に関する研究"— Presentation transcript:

Similar presentations

About project

フィードバック

GPUにおける走行時パワーゲーティング向けスレッド発行制御手法に関する研究

Presentation on theme: "GPUにおける走行時パワーゲーティング向けスレッド発行制御手法に関する研究"— Presentation transcript: