Download presentation
Presentation is loading. Please wait.
1
エクサスケール計算と その要素技術としてのメモリアーキテクチャ
東京大学 情報理工学系研究科 石井康雄
2
本日の発表内容 2018年のスーパーコンピュータ アプリケーションとアーキテクチャ 要素技術としてのメモリアーキテクチャ
予測性能とアーキテクチャを紹介 アプリケーションとアーキテクチャ メモリ性能と演算性能のバランスに関して 要素技術としてのメモリアーキテクチャ DRAMの制御に関する研究 2012/03/16
3
エクサスケール計算に向けて アーキテクチャ検討
2011/10からのアップデート 2012/03/16
4
エクサマシンの検討の前提(2011/10) 稼働時期: 2018年ごろ 目標: Linpackで1EFLOPS 電力: 20MW~30MW
「京」の100倍の実効性能を目指す Linpackは定量的議論の土台として活用 電力: 20MW~30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ~500億円 2012/03/16
5
エクサマシンの検討の前提(2012/03) 稼働時期: 2018年ごろ 目標: サイエンスロードマップの達成 電力: 20MW~30MW
2020年のロードマップから達成すべき目標を定義 おおよそ「京」の100倍の実効性能を目指す 電力: 20MW~30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ~500億円 2012/03/16
6
2018年のPCクラスタ性能予想(2011/10) 電力20MWでの最大構成例 プロセッサ性能 システム性能 演算: 3.0 TFLOPS
メモリ: 96 GB, 300 GB/s B/F = 0.1 ネットワーク: 25 GB/s B/F = 0.01 電力: 200W 価格: 25万円 システム性能 演算: 300 PFLOPS (10万CPU) メモリ: 9.6 PB, 30.0 PB/s Bisection BW: 5.0 PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16
7
2018年のPCクラスタ性能予想(2012/03) 電力20MWでの最大構成例 プロセッサ性能 システム性能 演算: 3.0 TFLOPS
メモリ: GB, 300 GB/s B/F = 0.1 ネットワーク: 2532 GB/s B/F = 0.01 電力: 200W 価格: 25万円 システム性能 演算: 300 PFLOPS (10万CPU) メモリ: PB, 30.0 PB/s Bisection BW: PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16
8
エクサスケール計算に向けて アプリケーションとアーキテクチャ
メモリと演算のバランスの観点から 2012/03/16
9
メモリシステムとスーパーコンピュータ メモリシステムは主要課題の1つ 多様なメモリシステムが存在する 大容量・高帯域、小容量・低帯域
メモリ性能と演算性能・電力・コストがトレードオフ GRAPE-DR NEC SX-9 Fujitsu FX10 2012/03/16
10
アプリケーションとメモリシステム メモリシステムはアプリにあわせて設計される アプリケーションが多様な特性を持つ
SX-9 高 気象・地震 FX10 x86 メモリ帯域 第一原理計算 GDR N体問題 低 メモリ容量 小 大 メモリシステムはアプリにあわせて設計される アプリケーションが多様な特性を持つ 容量・帯域・アクセスパターン(連続・ストライド) 2012/03/16
11
エクサの検討でのシステムの分類 メモリのバランス別に4つのシステムを検討 容量・帯域重視 汎用型 演算重視 メモリ容量削減
演算器・コア キャッシュ メモリI/F メモリ容量・帯域を増やしメモリ重視アプリを高速化 バランスをとって多目的に利用 メモリを減らして演算器を増やす オンチップメモリ(約100MB/chip)を主記憶に利用 DRAM NEC SX-9 PCクラスタ・京・ BG/Q など GRAPE-DR ClearSpeed 該当計算機なし 2012/03/16
12
システム性能予測(演算・メモリに関して)
演算性能 (PFlops) メモリ帯域 (PB/sec) メモリ容量 (PB) 汎用型 200~400 20~40 B/F = 0.1 容量・帯域 50~100 B/F = 1.0 演算重視 1000~2000 5~10 B/F = 0.005 容量削減 500~1000 250~500 0.1~0.2 B/F = 0.5 京(参考) 10 5 1.2 各構成でのシステム性能を予測 20MW・2500m2の制約下での予測 2012/03/16
13
アプリケーションの要求性能との相関 各アプリケーション毎に向いている計算機が 存在していることがわかる 10,000倍の差 1,000倍の差
容量・帯域 汎用型 演算重視 容量削減 1,000倍の差 各アプリケーション毎に向いている計算機が 存在していることがわかる 2012/03/16
14
何故、バランスが変化したか Weak Scaling(より細かいメッシュでの計算) Strong Scaling (より長い時間の計算)
メモリ容量: 増加する 1ステップあたりの計算時間: 変わらない Nノードで計算する場合、各ノードのメモリ帯域は同じ Strong Scaling (より長い時間の計算) メモリ容量: 変化なし 1ステップあたりの計算時間: 短縮する 各計算ノードは同じデータ量を短時間で読み書き 2012/03/16
15
Strong Scalingのボトルネックと対策
メモリ帯域 ← 本日紹介の例 巨大なオンチップメモリの採用 集合演算(集約演算・同期など) 専用HWで10倍以上の高速化の可能性 通信レイテンシ 強スケールのために<1usの通信が必要なアプリ 通信方式の工夫で1/10までは短縮可能 改善可能な点が多く、研究開発が必要 2012/03/16
16
エクサスケール計算に関してまとめ 2018年の計算機構成を検討 各アーキテクチャとアプリをマッピング
アプリ毎のメモリ帯域・メモリ容量に関して調査 調査結果に基づいて4つのアーキテクチャを検討 各アーキテクチャとアプリをマッピング 従来と異なる特性を示すアプリ スケーリングから最適な構成が変化することもある 「やりたい計算」が具体的ならば計算機は工夫が 出来る可能性が高まる 2012年度には要素技術研究の予算がつく見込み 2012/03/16
17
エクサに向けたアーキテクチャ研究 メモリシステム
2012/03/16
18
将来のスパコンに向けたメモリシステムの課題
性能: 演算性能に対するメモリ帯域の低下 電力: DRAM/キャッシュの電力が全体の約30% 解決方法 ← 私の研究課題 データプリフェッチによるレイテンシ隠蔽 キャッシュ置換の改善による効率化 DRAM制御の改善による性能向上と電力削減 2012/03/16
19
Dynamic Random Access Memory
スパコンの主記憶はDRAMで構成される 性能・電力・スケーラビリティの多くに関与 特徴 単純な機能(指定した場所のデータの読み書き) 高速化のための複雑な制御 プロセッサ Addr Data DRAM #0 Data 0 #1 Data 1 #2 Data 2 #3 Data 3 #4 Data 4 #5 Data 5 #6 Data 6 #7 Data 7 2012/03/16
20
プロセッサはRow bufferのデータにのみアクセス可能
DDR3メモリのアーキテクチャ メモリの記憶素子は行列の構造をとる 行アクセスと列アクセスの2段階アクセス 行・列のペア(Bank)を持ち独立に動作する DRAM chip DRAM cells プロセッサはRow bufferのデータにのみアクセス可能 プロセッサ Row buffer Addr Data Bank #0 2012/03/16
21
DDR3のメモリアクセス(Read)の例 3フェーズでのリード処理
Activate(ACT) → Read(RD) → Precharge(PRE) 複数バンクを切り替えながらメモリアクセス ACT/RD/PREの各操作が電力を消費 コマンドの回数を減らすことで電力削減が可能 コマンド競合で次のコマンドが遅延 ACT→RD RD→PRE PRE→ACT RD→DATA アドレス ACT DATA ACT RD PRE ACT RD DATA PRE RD PRE ACT RD DATA 隙間が残る データ DATA 2012/03/16
22
DRAM-Aware Prefetching
3フェーズでのリード処理 ACT→RDの後に積極的にプリフェッチを出力 効果 データパスの利用率改善による性能向上 ACT/PREの回数削減による電力改善 データプリフェッチによる性能改善 RD プリフェッチを出力 すぐにPREしない PRE アドレス ACT RD DATA DATA ACT PRE RD データ 2012/03/16
23
メモリスケジューリングの効果 帯域の改善などで性能が13%向上 電力は3.1%の削減 データ転送が増加したためRD/WRが25%増加
ACT/PREの回数は28%削減 2012/03/16
24
要素技術研究の成果 特に性能競争の激しい分野 テーマ 過去優勝者
JILP Computer Architecture Competitions (JWAC) テーマ メモリ(キャッシュ置換・プリフェッチ) パイプライン制御(分岐予測) DRAM制御 ← 今年開催予定 過去優勝者 Andre Seznec (Alpha architect) Gao Honliang (Intel x86 architect) 2012/03/16
25
まとめ エクサスケールシステムの検討 ターゲットアプリケーションの解析 要素技術としてメモリアーキテクチャの研究
2011年10月から継続検討 ターゲットアプリケーションの解析 検討のベースとする4つのアーキテクチャを提示 スケーリングと最適アーキテクチャの変化 要素技術としてメモリアーキテクチャの研究 低下するB/Fの性能への影響をDRAM制御の改善 で最小限に抑える 2012/03/16
26
ご清聴ありがとうございました 明日、ポスター発表も行います
本発表はメモリにフォーカスしていますが、 ネットワーク・ストレージの話もWelcomeです 2012/03/16
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.