高性能コンピューティング論2 第13回 大型コンピュータ 高性能コンピューティング学講座 三輪 忍 miwa@is.uec.ac.jp
高性能コンピューティング論2 本日の講義内容 大型コンピュータの概要 性能 電力 信頼性
高性能コンピューティング論2 大型コンピュータの概要
大型コンピュータ スパコン,(クラウド)サーバ等のコンピュータ・システム 英語だと warehouse-scale computer 高性能コンピューティング論2 大型コンピュータ スパコン,(クラウド)サーバ等のコンピュータ・システム 例) 京コンピュータ,AWS (Amazon Web Services),Azure など 英語だと warehouse-scale computer クラウド・サーバがコンテナ型のデータセンターで運用されているため 適当な日本語訳がない(「大型」は曖昧) [ コンテナ型のデータセンター ] [ コンテナ内部のようす ]
スパコン 高い計算能力を持ったコンピュータ・システム 公的機関(大学・研究所等)に設置・運用されることが多い 高性能コンピューティング論2 スパコン 高い計算能力を持ったコンピュータ・システム 公的機関(大学・研究所等)に設置・運用されることが多い 大規模な並列計算を必要とする研究者によって主に利用 [ 京コンピュータ ]
(クラウド)サーバ 高い計算能力を持ったコンピュータ・システム 民間企業によって運用されることが多い 高性能コンピューティング論2 (クラウド)サーバ 高い計算能力を持ったコンピュータ・システム 民間企業によって運用されることが多い 大規模な並列計算を必要としない人々がターゲット 小規模な並列計算で十分な人 web, メール,データベース等のサーバを運用したい人 OS が仮想化されていることが多い
大型コンピュータのシステム構成 ラックマウント型のサーバを用いて機器を高密度に配置 大量の熱を発生するため,システムの冷却方法が重要 高性能コンピューティング論2 大型コンピュータのシステム構成 ラックマウント型のサーバを用いて機器を高密度に配置 大量の熱を発生するため,システムの冷却方法が重要 ラックマウント型サーバ (最大 48台/ラック) ネットワークスイッチ [ 大型コンピュータのシステム構成※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より
ストレージ NAS (Network Attached Storage) 分散ファイル・システム 高性能コンピューティング論2 ストレージ NAS (Network Attached Storage) ストレージをネットワーク接続し,ノード間で共有 データ管理が容易 ディスク I/O のバンド幅は低め 分散ファイル・システム 各ノードのローカル・ディスクをシステム・ソフトウェアにより仮想的に統合 データ管理が複雑 ディスク I/O の総バンド幅は高い (特にリード) ネットワーク ストレージ ラック [ Google File System (Wikipedia より) ]
ネットワーク 性能とコストのトレードオフ InfiniBand とギガビット・イーサネットが 8 割以上 高性能コンピューティング論2 ネットワーク 性能とコストのトレードオフ 高速&高次のネットワーク or 低速&低次のネットワーク InfiniBand とギガビット・イーサネットが 8 割以上 InfiniBand: 数十Gbps,高価 ギガビット・イーサネット: 1 Gbps,安価 [ TOP500 のネットワークの内訳(2012年6月)※ ] ※ K. P. Saravanan, et al., Power/Performance evaluation of Energy Efficient Ethernet (EEE) for High Performance Computing, ISPASS, 2013 より
記憶階層 ローカル DRAM とネットワーク・ストレージでは大きな性能差 データ参照の局所性を高めることが大事 高性能コンピューティング論2 記憶階層 ローカル DRAM とネットワーク・ストレージでは大きな性能差 レイテンシ: 100,000倍以上,バンド幅: 1,000倍以上 データ参照の局所性を高めることが大事 [ 大型コンピュータの記憶構成※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より
大型コンピュータの課題 性能 電力 信頼性(対故障性) コスト アプリケーション性能の向上に対する要求は根強い 消費電力量は運用コストに直結 高性能コンピューティング論2 大型コンピュータの課題 性能 アプリケーション性能の向上に対する要求は根強い 電力 消費電力量は運用コストに直結 電力資源の有効活用 信頼性(対故障性) システムのダウン・タイムをできるだけ短縮 コスト システム規模増 ⇒ コスト増(ポスト京の総事業費は1,300億円) 導入コスト + 運用コスト の抑制が必要
高性能コンピューティング論2 性能
大型コンピュータの性能の推移 次の目標は EFLOPS 京コンピュータが 世界最速を記録 現在の世界最速マシンは 33.86 PFLOPS 高性能コンピューティング論2 大型コンピュータの性能の推移 次の目標は EFLOPS 京コンピュータが 世界最速を記録 現在の世界最速マシンは 33.86 PFLOPS ※ TOP500(2015年11月)より
主な性能指標 FLOPS B/s 「フロップス」と読む 1秒間に何回の浮動小数点演算が可能か? コアの計算能力を表す 高性能コンピューティング論2 主な性能指標 FLOPS 「フロップス」と読む 1秒間に何回の浮動小数点演算が可能か? 10 PFLOPS = 10,000,000,000,000,000 回/秒 コアの計算能力を表す B/s 「バイト・パー・セック」と読む 1秒間に何バイトのデータ転送が可能か?(= バンド幅) ディスク,メモリ,ネットワークなどの性能を表す際に使用
システム性能を上げるには? FLOPS を増やす B/s を増やす 電力,コストとのトレードオフ コア・アーキテクチャを工夫する 高性能コンピューティング論2 システム性能を上げるには? FLOPS を増やす コア・アーキテクチャを工夫する コア数を増やす コアの動作周波数を上げる B/s を増やす 高バンド幅のメモリを使う 例) DDR4, GDDR5, HMC, HBM など 高バンド幅のネットワークを使う 例) InfiniBand, 6D-torus など 電力,コストとのトレードオフ
高性能計算分野におけるプログラム開発 目標: 与えられたシステムでなるべく速く動くプログラムを書く 意識しなければならないこと 高性能コンピューティング論2 高性能計算分野におけるプログラム開発 目標: 与えられたシステムでなるべく速く動くプログラムを書く 書き方次第でプログラムの性能は数倍変わる 例) シミュレーションに要する日数が 100 日から 10 日に短縮 システム毎にプログラムをチューニングするメリットが大きい 意識しなければならないこと システム構成によって定まる上限が存在 今のプログラムはハードウェアのポテンシャルを引き出せているのか?
計算強度とルーフライン・モデル 計算強度 (arithmetic intensity) ルーフライン・モデル 高性能コンピューティング論2 計算強度とルーフライン・モデル 計算強度 (arithmetic intensity) プログラムに占める演算とメモリ・アクセスの比率 プログラムの浮動小数点演算の総回数を総データ転送量で割ったもの 例) あるプログラムが 1 GFLOP の演算を実行し,メモリから 0.5 GB の データ転送が行われた場合,このプログラムの計算強度は 2 ルーフライン・モデル 各計算強度におけるシステム性能 の上限を表したもの 自身のプログラムの計算強度と性能 を当てはめてみれば,チューニングの 余地があるかどうかがわかる メモリバウンド 計算バウンド 演算性能 (FLOPS) コア性能によって 決まる性能の上限 メモリ性能によって 決まる性能の上限 計算強度
高性能コンピューティング論2 電力
大型コンピュータの電力 電気代が運用コストを圧迫 年間 1 MW の電気を消費すると,電気代は 1 億円 高性能コンピューティング論2 大型コンピュータの電力 電気代が運用コストを圧迫 年間 1 MW の電気を消費すると,電気代は 1 億円 世界最速のマシンは17.8 MW を消費 ※ TOP500(2015年11月)より
各ハードウェアのピーク電力 CPU とメモリで約 2/3 を占める ディスク + ネットワークで 15% CPU やメモリの省電力化が重要 高性能コンピューティング論2 各ハードウェアのピーク電力 CPU とメモリで約 2/3 を占める CPU やメモリの省電力化が重要 ディスク + ネットワークで 15% システム構成に依存 実際,京コンピュータはネットワーク 電力の比率がもっと高い CPU やメモリの省電力化が進む につれて,これらの省電力化の 重要性が相対的に増加 [ Google のデータセンターにおける各ハードウェアのピーク電力※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より
データセンターの消費電力 コンピュータ以外の周辺設備も電力を消費 周辺設備の消費電力も非常に大きい 冷却設備 電源系における電力損失 その他 高性能コンピューティング論2 データセンターの消費電力 コンピュータ以外の周辺設備も電力を消費 冷却設備 電源系における電力損失 その他 周辺設備の消費電力も非常に大きい 京コンピュータの場合 京本体の消費電力は施設全体の 消費電力の72%※1 Google のデータセンターの場合 IT 機器の消費電力はセンター全体の 消費電力の 30% [ Google のデータセンターにおける消費電力の内訳※2 ] ※1 山本啓二ほか,「スーパーコンピュータ「京」の運用状況」,情報処理,Vol.55, No.8 より ※2 L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より
大型コンピュータの冷却設備 冷えた空気を循環させることでコンピュータを冷却 高性能コンピューティング論2 大型コンピュータの冷却設備 [ 液浸冷却 ] 冷えた空気を循環させることでコンピュータを冷却 空気の通り道 (hot aisle, cold aisle) を作る 最近では液浸冷却技術が実用化しつつある CRAC (computer room air conditioning) [ データセンターの冷却方法※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より
大型コンピュータの電源系 複数回の電圧変換を経てコンピュータに電力供給 変換過程で約 11% の電力損失が発生 高性能コンピューティング論2 大型コンピュータの電源系 複数回の電圧変換を経てコンピュータに電力供給 変換過程で約 11% の電力損失が発生 [ 大型コンピュータの電源系とその電力損失※ ] ※ J. L. Hennessy and D. A. Patterson, Computer Architecture: a Quantitative Approach, 5th edition より
PUE (Power Utilization Effectiveness) 高性能コンピューティング論2 PUE (Power Utilization Effectiveness) PUE = (全設備の電力) / (IT機器の電力) データセンターの電力効率の評価指標として利用 1 に近い程,電力効率が良い [ 24のデータセンターの PUE 比較※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より
高性能コンピューティング論2 信頼性
データセンターの故障率 故障率=故障部品数 / 総部品数 部品数が多いと故障の 発生頻度も高い 総部品数は 20万点以上 高性能コンピューティング論2 データセンターの故障率 故障率=故障部品数 / 総部品数 総部品数は 20万点以上 部品数が多いと故障の 発生頻度も高い ジョブの異常停止を伴わ ない故障: ほぼ毎日 ジョブの異常停止を伴う 故障: 2-3日に 1 回 [ 京コンピュータにおけるハードウェアの故障率※ ] ※ K. Yamamoto, et al., The K computer operations: Experiences and statistics より
データセンターのクラス アメリカの民間団体 (Uptime Institute) が作成した基準 高性能コンピューティング論2 データセンターのクラス アメリカの民間団体 (Uptime Institute) が作成した基準 あくまで運用目標(認定される類のものではない) ユーザにとってはデータセンターを選ぶ際の指標となる クラス名 システム停止時間(分/年) システム稼働率(%) 備考 Tier 1 1,728 99.67 電源系,冷却系は1つ. 冗長な機器がない Tier 2 1,320 99.75 機器が冗長化されている Tier 3 96 99.98 複数の電源系,冷却系を有し,メンテナンス時にもサービスを継続可能 Tier 4 48 99.99 複数の電源系,冷却系を有しており,いくつかの機器で同時に障害が発生した場合でもサービスを継続可能
UPS (Uninterruptible Power Supply) 高性能コンピューティング論2 UPS (Uninterruptible Power Supply) UPS とは? 電力を安定供給するための機器 電源系統の途中に挿入 機能 障害発生時の供給元の切り替え Substation ⇒ Generator 停電発生時にバッテリーに蓄えて おいた電気を使って電力供給 ノイズの除去 [ 大型コンピュータの電源系とその電力損失※ ] ※ J. L. Hennessy and D. A. Patterson, Computer Architecture: a Quantitative Approach, 5th edition より
RAID (Redundant Array of Independent Disks) 高性能コンピューティング論2 RAID (Redundant Array of Independent Disks) RAID とは? 複数の物理ディスクにデータを冗長化して分散配置 ある物理ディスクが故障した場合でも,データが完全に壊れるのを防ぐ RAID レベル RAID 0: 冗長化なし RAID 1: ミラーリング RAID 4: パリティを一箇所に保存 RAID 5: パリティを分散配置 [ RAID レベル(Wikipedia より) ]
高性能コンピューティング論2 本日のまとめ
高性能コンピューティング論2 まとめ 大型コンピュータの概要 性能 電力 信頼性
レポート課題(1/2) 課題の内容 以下はレポート構成の一例 高性能コンピューティング論2 レポート課題(1/2) 課題の内容 「CPUで利用されているスカラ型のアーキテクチャとGPU/SSE/AVX等で利用されているSIMD型のアーキテクチャを比較し,それぞれの利点・欠点を述べよ」 最低でも A4 2ページ以上(上限なし) 以下はレポート構成の一例 スカラ型アーキテクチャ,SIMD型アーキテクチャそれぞれが得意なプログラム例を示し,それらのプログラムを実行した際に各アーキテクチャがどのように振る舞うかを説明しつつ,各アーキテクチャの利点・欠点を述べる スカラ版,SIMD版それぞれのプログラムを実機で実行した上で,それらの結果と考察が記載されているとなおよい
レポート課題(2/2) 締切 提出方法 2/19(金) (日付が変わるまで) レポートを PDF にしたものをメールで提出 高性能コンピューティング論2 レポート課題(2/2) 締切 2/19(金) (日付が変わるまで) 提出方法 レポートを PDF にしたものをメールで提出 宛先: miwa@hpc.is.uec.ac.jp 提出時はメールの subject を以下のようにすること 【HPC2レポート】 学籍番号 氏名