エクサスケール計算と その要素技術としてのメモリアーキテクチャ

Slides:



Advertisements
Similar presentations
DATE : 11. メモリ 五島 正裕 今日の内容 メモリ  SRAM  DRAM  Flash Memory.
Advertisements

ディジタル回路 11. メモリ 五島 正裕 ディジタル回路 今日の内容 メモリ  SRAM  DRAM  Flash Memory.
第3回 並列計算機のアーキテクチャと 並列処理の実際
情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹
Webプロキシサーバにおける 動的資源管理方式の提案と実装
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
情報検索概説II 第8回 パソコン組み立てと記憶装置 1999/11/25.
計算機工学III オペレーティングシステム #14 ファイル: より進んだファイルシステム 2006/07/21 津邑 公暁
ヘテロジニアスマルチコアプロセッサ 環境を対象としたキャッシュシステム 自動生成ツールの開発
基本情報技術概論(第10回) 埼玉大学 理工学研究科 堀山 貴史
Chapter11-4(前半) 加藤健.
ノーマリ「オフ」と「オン」 九州大学 井上こうじ (ただのお友達).
Ibaraki Univ. Dept of Electrical & Electronic Eng.
10. メモリ 五島 正裕.
計算機システムⅡ 主記憶装置とALU,レジスタの制御
オペレーティングシステム 第11回 仮想記憶管理(2)
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
神奈川大学大学院工学研究科 電気電子情報工学専攻
最新技術でネットワーク設備を省エネ化!! Green IT をリードするルータ/スイッチ「AXシリーズ」
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
データベースとストレージ の最新動向 12.MAR.2015.
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
記 憶 管 理(2) オペレーティングシステム 第10回.
OSが乗っ取られた場合にも機能するファイルアクセス制御システム
高性能コンピューティング論2 第1回 ガイダンス
Ibaraki Univ. Dept of Electrical & Electronic Eng.
第5回 CPUの役割と仕組み3 割り込み、パイプライン、並列処理
Ibaraki Univ. Dept of Electrical & Electronic Eng.
基本情報技術概論(第8回) 埼玉大学 理工学研究科 堀山 貴史
パソコンの歴史 ~1970年 1970年代 1980年代 1990年~ ▲1946 ENIAC(世界最初の計算機、1,900加算/秒, 18,000素子) ▲1947 UNIVACⅠ(最初の商用計算機) ▲1964 IBM System/360(5.1MHz, 1MB, 2億円) ▲1974 インテル8080(8.
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
専門演習Ⅰ 国際経済学部 国際産業情報学科 2年 石川 愛
明星大学 情報学科 2010年度後期     コンピュータ設計論  
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
第6回 メモリの種類と特徴 主記憶装置、ROM、RAM
勉強会その5    2016/6/15 マルチコア/マルチプロセッサ キャッシュコヒーレンス 10 8分35秒.
コンピュータの歴史 〜計算速度の進歩〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
IaaS型クラウドにおける インスタンス構成の動的最適化手法
リモートホストの異常を検知するための GPUとの直接通信機構
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
九州大学情報基盤研究開発センター長 青柳 睦
仮想メモリを用いた VMマイグレーションの高速化
複数ホストに分割されたメモリを用いる仮想マシンの監視機構
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
コンピュータの基本構成について 1E16M001-1 秋田梨紗 1E16M010-2 梅山桃香 1E16M013-3 大津智紗子
航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
スーパーコンピュータ「京」 理化学研究所 計算科学研究センター
複数ホストにまたがって動作する仮想マシンの障害対策
目的:高速QR分解ルーチンのGPUクラスタ実装
コンピュータの仕組み 〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
ARM、IoT、AI 株式会社アプライド・マーケティング 大越 章司
明星大学 情報学科 2012年度前期     情報技術Ⅰ   第1回
Ibaraki Univ. Dept of Electrical & Electronic Eng.
コンピュータアーキテクチャ 第 9 回.
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
計算機アーキテクチャ1 (計算機構成論(再)) 第二回 命令の種類と形式
SpectreとMeltdown ITソリューション塾・第27期 2018年3月20日 株式会社アプライド・マーケティング 大越 章司
第4回 CPUの役割と仕組み2 命令の解析と実行、クロック、レジスタ
コンピュータアーキテクチャ 第 9 回.
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
複数ホストにまたがるVMの 高速かつ柔軟な 部分マイグレーション
BSPモデルを用いた 最小スパニング木 情報論理工学研究室 02-1-47-134 小林洋亮.
分散メモリ型並列計算機上での行列演算の並列化
明星大学 情報学科 2014年度前期     情報技術Ⅰ   第1回
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Presentation transcript:

エクサスケール計算と その要素技術としてのメモリアーキテクチャ 東京大学 情報理工学系研究科 石井康雄

本日の発表内容 2018年のスーパーコンピュータ アプリケーションとアーキテクチャ 要素技術としてのメモリアーキテクチャ 予測性能とアーキテクチャを紹介 アプリケーションとアーキテクチャ メモリ性能と演算性能のバランスに関して 要素技術としてのメモリアーキテクチャ DRAMの制御に関する研究 2012/03/16

エクサスケール計算に向けて アーキテクチャ検討 2011/10からのアップデート 2012/03/16

エクサマシンの検討の前提(2011/10) 稼働時期: 2018年ごろ 目標: Linpackで1EFLOPS 電力: 20MW~30MW 「京」の100倍の実効性能を目指す Linpackは定量的議論の土台として活用 電力: 20MW~30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ~500億円 2012/03/16

エクサマシンの検討の前提(2012/03) 稼働時期: 2018年ごろ 目標: サイエンスロードマップの達成 電力: 20MW~30MW 2020年のロードマップから達成すべき目標を定義 おおよそ「京」の100倍の実効性能を目指す 電力: 20MW~30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ~500億円 2012/03/16

2018年のPCクラスタ性能予想(2011/10) 電力20MWでの最大構成例 プロセッサ性能 システム性能 演算: 3.0 TFLOPS メモリ: 96 GB, 300 GB/s B/F = 0.1 ネットワーク: 25 GB/s B/F = 0.01 電力: 200W 価格: 25万円 システム性能 演算: 300 PFLOPS (10万CPU) メモリ: 9.6 PB, 30.0 PB/s Bisection BW: 5.0 PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16

2018年のPCクラスタ性能予想(2012/03) 電力20MWでの最大構成例 プロセッサ性能 システム性能 演算: 3.0 TFLOPS メモリ: 96300 GB, 300 GB/s B/F = 0.1 ネットワーク: 2532 GB/s B/F = 0.01 電力: 200W 価格: 25万円 システム性能 演算: 300 PFLOPS (10万CPU) メモリ: 9.630.0 PB, 30.0 PB/s Bisection BW: 5.02.0 PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16

エクサスケール計算に向けて アプリケーションとアーキテクチャ メモリと演算のバランスの観点から 2012/03/16

メモリシステムとスーパーコンピュータ メモリシステムは主要課題の1つ 多様なメモリシステムが存在する 大容量・高帯域、小容量・低帯域 メモリ性能と演算性能・電力・コストがトレードオフ GRAPE-DR NEC SX-9 Fujitsu FX10 2012/03/16

アプリケーションとメモリシステム メモリシステムはアプリにあわせて設計される アプリケーションが多様な特性を持つ SX-9 高 気象・地震 FX10 x86 メモリ帯域 第一原理計算 GDR N体問題 低 メモリ容量 小 大 メモリシステムはアプリにあわせて設計される アプリケーションが多様な特性を持つ 容量・帯域・アクセスパターン(連続・ストライド) 2012/03/16

エクサの検討でのシステムの分類 メモリのバランス別に4つのシステムを検討 容量・帯域重視 汎用型 演算重視 メモリ容量削減 演算器・コア キャッシュ メモリI/F メモリ容量・帯域を増やしメモリ重視アプリを高速化 バランスをとって多目的に利用 メモリを減らして演算器を増やす オンチップメモリ(約100MB/chip)を主記憶に利用 DRAM NEC SX-9 PCクラスタ・京・ BG/Q など GRAPE-DR ClearSpeed 該当計算機なし 2012/03/16

システム性能予測(演算・メモリに関して) 演算性能 (PFlops) メモリ帯域 (PB/sec) メモリ容量 (PB) 汎用型 200~400 20~40 B/F = 0.1 容量・帯域 50~100 B/F = 1.0 演算重視 1000~2000 5~10 B/F = 0.005 容量削減 500~1000 250~500 0.1~0.2 B/F = 0.5 京(参考) 10 5 1.2 各構成でのシステム性能を予測 20MW・2500m2の制約下での予測 2012/03/16

アプリケーションの要求性能との相関 各アプリケーション毎に向いている計算機が 存在していることがわかる 10,000倍の差 1,000倍の差 容量・帯域 汎用型 演算重視 容量削減 1,000倍の差 各アプリケーション毎に向いている計算機が 存在していることがわかる 2012/03/16

何故、バランスが変化したか Weak Scaling(より細かいメッシュでの計算) Strong Scaling (より長い時間の計算) メモリ容量: 増加する 1ステップあたりの計算時間: 変わらない Nノードで計算する場合、各ノードのメモリ帯域は同じ Strong Scaling (より長い時間の計算) メモリ容量: 変化なし 1ステップあたりの計算時間: 短縮する 各計算ノードは同じデータ量を短時間で読み書き 2012/03/16

Strong Scalingのボトルネックと対策 メモリ帯域 ← 本日紹介の例 巨大なオンチップメモリの採用 集合演算(集約演算・同期など) 専用HWで10倍以上の高速化の可能性 通信レイテンシ 強スケールのために<1usの通信が必要なアプリ 通信方式の工夫で1/10までは短縮可能 改善可能な点が多く、研究開発が必要 2012/03/16

エクサスケール計算に関してまとめ 2018年の計算機構成を検討 各アーキテクチャとアプリをマッピング アプリ毎のメモリ帯域・メモリ容量に関して調査 調査結果に基づいて4つのアーキテクチャを検討 各アーキテクチャとアプリをマッピング 従来と異なる特性を示すアプリ スケーリングから最適な構成が変化することもある 「やりたい計算」が具体的ならば計算機は工夫が 出来る可能性が高まる 2012年度には要素技術研究の予算がつく見込み 2012/03/16

エクサに向けたアーキテクチャ研究 メモリシステム 2012/03/16

将来のスパコンに向けたメモリシステムの課題 性能: 演算性能に対するメモリ帯域の低下 電力: DRAM/キャッシュの電力が全体の約30% 解決方法 ← 私の研究課題 データプリフェッチによるレイテンシ隠蔽 キャッシュ置換の改善による効率化 DRAM制御の改善による性能向上と電力削減 2012/03/16

Dynamic Random Access Memory スパコンの主記憶はDRAMで構成される 性能・電力・スケーラビリティの多くに関与 特徴 単純な機能(指定した場所のデータの読み書き) 高速化のための複雑な制御 プロセッサ Addr Data DRAM #0 Data 0 #1 Data 1 #2 Data 2 #3 Data 3 #4 Data 4 #5 Data 5 #6 Data 6 #7 Data 7 2012/03/16

プロセッサはRow bufferのデータにのみアクセス可能 DDR3メモリのアーキテクチャ メモリの記憶素子は行列の構造をとる 行アクセスと列アクセスの2段階アクセス 行・列のペア(Bank)を持ち独立に動作する DRAM chip DRAM cells プロセッサはRow bufferのデータにのみアクセス可能 プロセッサ Row buffer Addr Data Bank #0 2012/03/16

DDR3のメモリアクセス(Read)の例 3フェーズでのリード処理 Activate(ACT) → Read(RD) → Precharge(PRE) 複数バンクを切り替えながらメモリアクセス ACT/RD/PREの各操作が電力を消費 コマンドの回数を減らすことで電力削減が可能 コマンド競合で次のコマンドが遅延 ACT→RD RD→PRE PRE→ACT RD→DATA アドレス ACT DATA ACT RD PRE ACT RD DATA PRE RD PRE ACT RD DATA 隙間が残る データ DATA 2012/03/16

DRAM-Aware Prefetching 3フェーズでのリード処理 ACT→RDの後に積極的にプリフェッチを出力 効果 データパスの利用率改善による性能向上 ACT/PREの回数削減による電力改善 データプリフェッチによる性能改善 RD プリフェッチを出力 すぐにPREしない PRE アドレス ACT RD DATA DATA ACT PRE RD データ 2012/03/16

メモリスケジューリングの効果 帯域の改善などで性能が13%向上 電力は3.1%の削減 データ転送が増加したためRD/WRが25%増加 ACT/PREの回数は28%削減 2012/03/16

要素技術研究の成果 特に性能競争の激しい分野 テーマ 過去優勝者 JILP Computer Architecture Competitions (JWAC) テーマ メモリ(キャッシュ置換・プリフェッチ) パイプライン制御(分岐予測) DRAM制御 ← 今年開催予定 過去優勝者 Andre Seznec (Alpha architect) Gao Honliang (Intel x86 architect) 2012/03/16

まとめ エクサスケールシステムの検討 ターゲットアプリケーションの解析 要素技術としてメモリアーキテクチャの研究 2011年10月から継続検討 ターゲットアプリケーションの解析 検討のベースとする4つのアーキテクチャを提示 スケーリングと最適アーキテクチャの変化 要素技術としてメモリアーキテクチャの研究 低下するB/Fの性能への影響をDRAM制御の改善 で最小限に抑える 2012/03/16

ご清聴ありがとうございました 明日、ポスター発表も行います 本発表はメモリにフォーカスしていますが、 ネットワーク・ストレージの話もWelcomeです 2012/03/16