エクサスケール計算とその要素技術としてのメモリアーキテクチャ

エクサスケール計算とその要素技術としてのメモリアーキテクチャ
東京大学情報理工学系研究科石井康雄

本日の発表内容 2018年のスーパーコンピュータアプリケーションとアーキテクチャ要素技術としてのメモリアーキテクチャ
予測性能とアーキテクチャを紹介アプリケーションとアーキテクチャメモリ性能と演算性能のバランスに関して要素技術としてのメモリアーキテクチャ DRAMの制御に関する研究 2012/03/16

エクサスケール計算に向けてアーキテクチャ検討
2011/10からのアップデート 2012/03/16

エクサマシンの検討の前提(2011/10) 稼働時期: 2018年ごろ目標: Linpackで1EFLOPS 電力: 20MW～30MW
「京」の100倍の実効性能を目指す Linpackは定量的議論の土台として活用電力: 20MW～30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ～500億円 2012/03/16

エクサマシンの検討の前提(2012/03) 稼働時期: 2018年ごろ目標: サイエンスロードマップの達成電力: 20MW～30MW
2020年のロードマップから達成すべき目標を定義おおよそ「京」の100倍の実効性能を目指す電力: 20MW～30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ～500億円 2012/03/16

2018年のPCクラスタ性能予想(2011/10) 電力20MWでの最大構成例プロセッサ性能システム性能演算: 3.0 TFLOPS
メモリ: 96 GB, 300 GB/s B/F = 0.1 ネットワーク: 25 GB/s B/F = 0.01 電力: 200W 価格: 25万円システム性能演算: 300 PFLOPS (10万CPU) メモリ: 9.6 PB, 30.0 PB/s Bisection BW: 5.0 PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16

2018年のPCクラスタ性能予想(2012/03) 電力20MWでの最大構成例プロセッサ性能システム性能演算: 3.0 TFLOPS
メモリ: GB, 300 GB/s B/F = 0.1 ネットワーク: 2532 GB/s B/F = 0.01 電力: 200W 価格: 25万円システム性能演算: 300 PFLOPS (10万CPU) メモリ: PB, 30.0 PB/s Bisection BW: PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16

エクサスケール計算に向けてアプリケーションとアーキテクチャ
メモリと演算のバランスの観点から 2012/03/16

メモリシステムとスーパーコンピュータメモリシステムは主要課題の１つ多様なメモリシステムが存在する大容量・高帯域、小容量・低帯域
メモリ性能と演算性能・電力・コストがトレードオフ GRAPE-DR NEC SX-9 Fujitsu FX10 2012/03/16

アプリケーションとメモリシステムメモリシステムはアプリにあわせて設計されるアプリケーションが多様な特性を持つ
SX-9 高気象・地震 FX10 x86 メモリ帯域第一原理計算 GDR N体問題低メモリ容量小大メモリシステムはアプリにあわせて設計されるアプリケーションが多様な特性を持つ容量・帯域・アクセスパターン（連続・ストライド） 2012/03/16

エクサの検討でのシステムの分類メモリのバランス別に4つのシステムを検討容量・帯域重視汎用型演算重視メモリ容量削減
演算器・コアキャッシュメモリI/F メモリ容量・帯域を増やしメモリ重視アプリを高速化バランスをとって多目的に利用メモリを減らして演算器を増やすオンチップメモリ(約100MB/chip)を主記憶に利用 DRAM NEC SX-9 PCクラスタ・京・ BG/Q など GRAPE-DR ClearSpeed 該当計算機なし 2012/03/16

システム性能予測（演算・メモリに関して）
演算性能 (PFlops) メモリ帯域 (PB/sec) メモリ容量 (PB) 汎用型 200～400 20～40 B/F = 0.1 容量・帯域 50～100 B/F = 1.0 演算重視 1000～2000 5～10 B/F = 0.005 容量削減 500～1000 250～500 0.1～0.2 B/F = 0.5 京(参考) 10 5 1.2 各構成でのシステム性能を予測 20MW・2500m2の制約下での予測 2012/03/16

アプリケーションの要求性能との相関各アプリケーション毎に向いている計算機が存在していることがわかる 10,000倍の差 1,000倍の差
容量・帯域汎用型演算重視容量削減 1,000倍の差各アプリケーション毎に向いている計算機が存在していることがわかる 2012/03/16

何故、バランスが変化したか Weak Scaling（より細かいメッシュでの計算) Strong Scaling （より長い時間の計算）
メモリ容量: 増加する１ステップあたりの計算時間: 変わらない Nノードで計算する場合、各ノードのメモリ帯域は同じ Strong Scaling （より長い時間の計算）メモリ容量: 変化なし１ステップあたりの計算時間: 短縮する各計算ノードは同じデータ量を短時間で読み書き 2012/03/16

Strong Scalingのボトルネックと対策
メモリ帯域 ← 本日紹介の例巨大なオンチップメモリの採用集合演算(集約演算・同期など) 専用HWで10倍以上の高速化の可能性通信レイテンシ強スケールのために<1usの通信が必要なアプリ通信方式の工夫で1/10までは短縮可能改善可能な点が多く、研究開発が必要 2012/03/16

エクサスケール計算に関してまとめ 2018年の計算機構成を検討各アーキテクチャとアプリをマッピング
アプリ毎のメモリ帯域・メモリ容量に関して調査調査結果に基づいて4つのアーキテクチャを検討各アーキテクチャとアプリをマッピング従来と異なる特性を示すアプリスケーリングから最適な構成が変化することもある「やりたい計算」が具体的ならば計算機は工夫が出来る可能性が高まる 2012年度には要素技術研究の予算がつく見込み 2012/03/16

エクサに向けたアーキテクチャ研究メモリシステム
2012/03/16

将来のスパコンに向けたメモリシステムの課題
性能: 演算性能に対するメモリ帯域の低下電力: DRAM/キャッシュの電力が全体の約30% 解決方法 ← 私の研究課題データプリフェッチによるレイテンシ隠蔽キャッシュ置換の改善による効率化 DRAM制御の改善による性能向上と電力削減 2012/03/16

Dynamic Random Access Memory
スパコンの主記憶はDRAMで構成される性能・電力・スケーラビリティの多くに関与特徴単純な機能(指定した場所のデータの読み書き) 高速化のための複雑な制御プロセッサ Addr Data ＤＲＡＭ #0 Data 0 #1 Data 1 #2 Data 2 #3 Data 3 #4 Data 4 #5 Data 5 #6 Data 6 #7 Data 7 2012/03/16

プロセッサはRow bufferのデータにのみアクセス可能
DDR3メモリのアーキテクチャメモリの記憶素子は行列の構造をとる行アクセスと列アクセスの2段階アクセス行・列のペア(Bank)を持ち独立に動作する DRAM chip DRAM cells プロセッサはRow bufferのデータにのみアクセス可能プロセッサ Row buffer Addr Data Bank #0 2012/03/16

DDR3のメモリアクセス(Read)の例 3フェーズでのリード処理
Activate(ACT) → Read(RD) → Precharge(PRE) 複数バンクを切り替えながらメモリアクセス ACT/RD/PREの各操作が電力を消費コマンドの回数を減らすことで電力削減が可能コマンド競合で次のコマンドが遅延 ACT→RD RD→PRE PRE→ACT RD→DATA アドレス ACT DATA ACT RD PRE ACT RD DATA PRE RD PRE ACT RD DATA 隙間が残るデータ DATA 2012/03/16

DRAM-Aware Prefetching
3フェーズでのリード処理 ACT→RDの後に積極的にプリフェッチを出力効果データパスの利用率改善による性能向上 ACT/PREの回数削減による電力改善データプリフェッチによる性能改善 RD プリフェッチを出力すぐにPREしない PRE アドレス ACT RD DATA DATA ACT PRE RD データ 2012/03/16

メモリスケジューリングの効果帯域の改善などで性能が13%向上電力は3.1%の削減データ転送が増加したためRD/WRが25%増加
ACT/PREの回数は28%削減 2012/03/16

要素技術研究の成果特に性能競争の激しい分野テーマ過去優勝者
JILP Computer Architecture Competitions (JWAC) テーマメモリ(キャッシュ置換・プリフェッチ) パイプライン制御(分岐予測) DRAM制御 ← 今年開催予定過去優勝者 Andre Seznec (Alpha architect) Gao Honliang (Intel x86 architect) 2012/03/16

まとめエクサスケールシステムの検討ターゲットアプリケーションの解析要素技術としてメモリアーキテクチャの研究
2011年10月から継続検討ターゲットアプリケーションの解析検討のベースとする4つのアーキテクチャを提示スケーリングと最適アーキテクチャの変化要素技術としてメモリアーキテクチャの研究低下するB/Fの性能への影響をDRAM制御の改善で最小限に抑える 2012/03/16

ご清聴ありがとうございました明日、ポスター発表も行います
本発表はメモリにフォーカスしていますが、ネットワーク・ストレージの話もWelcomeです 2012/03/16

エクサスケール計算とその要素技術としてのメモリアーキテクチャ

Similar presentations

Presentation on theme: "エクサスケール計算とその要素技術としてのメモリアーキテクチャ"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

エクサスケール計算と その要素技術としてのメモリアーキテクチャ

Similar presentations

Presentation on theme: "エクサスケール計算と その要素技術としてのメモリアーキテクチャ"— Presentation transcript:

Similar presentations

About project

フィードバック

エクサスケール計算とその要素技術としてのメモリアーキテクチャ

Presentation on theme: "エクサスケール計算とその要素技術としてのメモリアーキテクチャ"— Presentation transcript: