高性能コンピューティング論２第13回大型コンピュータ

高性能コンピューティング論２第13回大型コンピュータ
高性能コンピューティング学講座三輪　忍

高性能コンピューティング論２本日の講義内容大型コンピュータの概要性能電力信頼性

高性能コンピューティング論２大型コンピュータの概要

大型コンピュータスパコン，（クラウド）サーバ等のコンピュータ・システム英語だと warehouse-scale computer
高性能コンピューティング論２大型コンピュータスパコン，（クラウド）サーバ等のコンピュータ・システム例）京コンピュータ，AWS (Amazon Web Services)，Azure など英語だと warehouse-scale computer クラウド・サーバがコンテナ型のデータセンターで運用されているため適当な日本語訳がない（「大型」は曖昧） [ コンテナ型のデータセンター ] [ コンテナ内部のようす ]

スパコン高い計算能力を持ったコンピュータ・システム公的機関（大学・研究所等）に設置・運用されることが多い
高性能コンピューティング論２スパコン高い計算能力を持ったコンピュータ・システム公的機関（大学・研究所等）に設置・運用されることが多い大規模な並列計算を必要とする研究者によって主に利用 [ 京コンピュータ ]

（クラウド）サーバ高い計算能力を持ったコンピュータ・システム民間企業によって運用されることが多い
高性能コンピューティング論２（クラウド）サーバ高い計算能力を持ったコンピュータ・システム民間企業によって運用されることが多い大規模な並列計算を必要としない人々がターゲット小規模な並列計算で十分な人 web, メール，データベース等のサーバを運用したい人 OS が仮想化されていることが多い

大型コンピュータのシステム構成ラックマウント型のサーバを用いて機器を高密度に配置大量の熱を発生するため，システムの冷却方法が重要
高性能コンピューティング論２大型コンピュータのシステム構成ラックマウント型のサーバを用いて機器を高密度に配置大量の熱を発生するため，システムの冷却方法が重要ラックマウント型サーバ（最大 48台/ラック）ネットワークスイッチ [ 大型コンピュータのシステム構成※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

ストレージ NAS (Network Attached Storage) 分散ファイル・システム
高性能コンピューティング論２ストレージ NAS (Network Attached Storage) ストレージをネットワーク接続し，ノード間で共有データ管理が容易ディスク I/O のバンド幅は低め分散ファイル・システム各ノードのローカル・ディスクをシステム・ソフトウェアにより仮想的に統合データ管理が複雑ディスク I/O の総バンド幅は高い（特にリード）ネットワークストレージラック [ Google File System （Wikipedia より） ]

ネットワーク性能とコストのトレードオフ InfiniBand とギガビット・イーサネットが 8 割以上
高性能コンピューティング論２ネットワーク性能とコストのトレードオフ高速＆高次のネットワーク or 低速＆低次のネットワーク InfiniBand とギガビット・イーサネットが 8 割以上 InfiniBand：数十Gbps，高価ギガビット・イーサネット： 1 Gbps，安価 [ TOP500 のネットワークの内訳（2012年6月）※ ] ※ K. P. Saravanan, et al., Power/Performance evaluation of Energy Efficient Ethernet (EEE) for High Performance Computing, ISPASS, 2013 より

記憶階層ローカル DRAM とネットワーク・ストレージでは大きな性能差データ参照の局所性を高めることが大事
高性能コンピューティング論２記憶階層ローカル DRAM とネットワーク・ストレージでは大きな性能差レイテンシ： 100,000倍以上，バンド幅： 1,000倍以上データ参照の局所性を高めることが大事 [ 大型コンピュータの記憶構成※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

大型コンピュータの課題性能電力信頼性（対故障性）コストアプリケーション性能の向上に対する要求は根強い消費電力量は運用コストに直結
高性能コンピューティング論２大型コンピュータの課題性能アプリケーション性能の向上に対する要求は根強い電力消費電力量は運用コストに直結電力資源の有効活用信頼性（対故障性）システムのダウン・タイムをできるだけ短縮コストシステム規模増 ⇒ コスト増（ポスト京の総事業費は1,300億円）導入コスト＋運用コストの抑制が必要

高性能コンピューティング論２性能

大型コンピュータの性能の推移次の目標は EFLOPS 京コンピュータが世界最速を記録現在の世界最速マシンは 33.86 PFLOPS
高性能コンピューティング論２大型コンピュータの性能の推移次の目標は EFLOPS 京コンピュータが世界最速を記録現在の世界最速マシンは PFLOPS ※ TOP500（2015年11月）より

主な性能指標 FLOPS B/s 「フロップス」と読む 1秒間に何回の浮動小数点演算が可能か？コアの計算能力を表す
高性能コンピューティング論２主な性能指標 FLOPS 「フロップス」と読む 1秒間に何回の浮動小数点演算が可能か？ 10 PFLOPS = 10,000,000,000,000,000 回/秒コアの計算能力を表す B/s 「バイト・パー・セック」と読む 1秒間に何バイトのデータ転送が可能か？（＝バンド幅）ディスク，メモリ，ネットワークなどの性能を表す際に使用

システム性能を上げるには？ FLOPS を増やす B/s を増やす電力，コストとのトレードオフコア・アーキテクチャを工夫する
高性能コンピューティング論２システム性能を上げるには？ FLOPS を増やすコア・アーキテクチャを工夫するコア数を増やすコアの動作周波数を上げる B/s を増やす高バンド幅のメモリを使う例） DDR4, GDDR5, HMC, HBM など高バンド幅のネットワークを使う例） InfiniBand, 6D-torus など電力，コストとのトレードオフ

高性能計算分野におけるプログラム開発目標：与えられたシステムでなるべく速く動くプログラムを書く意識しなければならないこと
高性能コンピューティング論２高性能計算分野におけるプログラム開発目標：与えられたシステムでなるべく速く動くプログラムを書く書き方次第でプログラムの性能は数倍変わる例）シミュレーションに要する日数が 100 日から 10 日に短縮システム毎にプログラムをチューニングするメリットが大きい意識しなければならないことシステム構成によって定まる上限が存在今のプログラムはハードウェアのポテンシャルを引き出せているのか？

計算強度とルーフライン・モデル計算強度 (arithmetic intensity) ルーフライン・モデル
高性能コンピューティング論２計算強度とルーフライン・モデル計算強度 (arithmetic intensity) プログラムに占める演算とメモリ・アクセスの比率プログラムの浮動小数点演算の総回数を総データ転送量で割ったもの例）あるプログラムが 1 GFLOP の演算を実行し，メモリから 0.5 GB の　　データ転送が行われた場合，このプログラムの計算強度は 2 ルーフライン・モデル各計算強度におけるシステム性能の上限を表したもの自身のプログラムの計算強度と性能を当てはめてみれば，チューニングの余地があるかどうかがわかるメモリバウンド計算バウンド演算性能 (FLOPS) コア性能によって決まる性能の上限メモリ性能によって決まる性能の上限計算強度

高性能コンピューティング論２電力

大型コンピュータの電力電気代が運用コストを圧迫年間 1 MW の電気を消費すると，電気代は 1 億円
高性能コンピューティング論２大型コンピュータの電力電気代が運用コストを圧迫年間 1 MW の電気を消費すると，電気代は 1 億円世界最速のマシンは17.8 MW を消費 ※ TOP500（2015年11月）より

各ハードウェアのピーク電力 CPU とメモリで約 2/3 を占めるディスク＋ネットワークで 15% CPU やメモリの省電力化が重要
高性能コンピューティング論２各ハードウェアのピーク電力 CPU とメモリで約 2/3 を占める CPU やメモリの省電力化が重要ディスク＋ネットワークで 15% システム構成に依存実際，京コンピュータはネットワーク電力の比率がもっと高い CPU やメモリの省電力化が進むにつれて，これらの省電力化の重要性が相対的に増加 [ Google のデータセンターにおける各ハードウェアのピーク電力※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

データセンターの消費電力コンピュータ以外の周辺設備も電力を消費周辺設備の消費電力も非常に大きい冷却設備電源系における電力損失その他
高性能コンピューティング論２データセンターの消費電力コンピュータ以外の周辺設備も電力を消費冷却設備電源系における電力損失その他周辺設備の消費電力も非常に大きい京コンピュータの場合京本体の消費電力は施設全体の消費電力の72%※１ Google のデータセンターの場合 IT 機器の消費電力はセンター全体の消費電力の 30% [ Google のデータセンターにおける消費電力の内訳※２ ] ※１山本啓二ほか，「スーパーコンピュータ「京」の運用状況」，情報処理，Vol.55, No.8 より ※２ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

大型コンピュータの冷却設備冷えた空気を循環させることでコンピュータを冷却
高性能コンピューティング論２大型コンピュータの冷却設備 [ 液浸冷却 ] 冷えた空気を循環させることでコンピュータを冷却空気の通り道 (hot aisle, cold aisle) を作る最近では液浸冷却技術が実用化しつつある CRAC (computer room air conditioning) [ データセンターの冷却方法※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

大型コンピュータの電源系複数回の電圧変換を経てコンピュータに電力供給変換過程で約 11% の電力損失が発生
高性能コンピューティング論２大型コンピュータの電源系複数回の電圧変換を経てコンピュータに電力供給変換過程で約 11% の電力損失が発生 [ 大型コンピュータの電源系とその電力損失※ ] ※ J. L. Hennessy and D. A. Patterson, Computer Architecture: a Quantitative Approach, 5th edition より

PUE (Power Utilization Effectiveness)
高性能コンピューティング論２ PUE (Power Utilization Effectiveness) PUE = （全設備の電力） / （IT機器の電力）データセンターの電力効率の評価指標として利用 1 に近い程，電力効率が良い [ 24のデータセンターの PUE 比較※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

高性能コンピューティング論２信頼性

データセンターの故障率故障率＝故障部品数 / 総部品数部品数が多いと故障の発生頻度も高い総部品数は 20万点以上
高性能コンピューティング論２データセンターの故障率故障率＝故障部品数　　　　　　/ 総部品数総部品数は 20万点以上部品数が多いと故障の発生頻度も高いジョブの異常停止を伴わない故障：ほぼ毎日ジョブの異常停止を伴う故障： 2-3日に 1 回 [ 京コンピュータにおけるハードウェアの故障率※ ] ※ K. Yamamoto, et al., The　K computer operations: Experiences and statistics より

データセンターのクラスアメリカの民間団体 (Uptime Institute) が作成した基準
高性能コンピューティング論２データセンターのクラスアメリカの民間団体 (Uptime Institute) が作成した基準あくまで運用目標（認定される類のものではない）ユーザにとってはデータセンターを選ぶ際の指標となるクラス名システム停止時間（分/年）システム稼働率（%）備考 Tier 1 1,728 99.67 電源系，冷却系は1つ．冗長な機器がない Tier 2 1,320 99.75 機器が冗長化されている Tier 3 96 99.98 複数の電源系，冷却系を有し，メンテナンス時にもサービスを継続可能 Tier 4 48 99.99 複数の電源系，冷却系を有しており，いくつかの機器で同時に障害が発生した場合でもサービスを継続可能

UPS (Uninterruptible Power Supply)
高性能コンピューティング論２ UPS (Uninterruptible Power Supply) UPS とは？電力を安定供給するための機器電源系統の途中に挿入機能障害発生時の供給元の切り替え Substation ⇒ Generator 停電発生時にバッテリーに蓄えておいた電気を使って電力供給ノイズの除去 [ 大型コンピュータの電源系とその電力損失※ ] ※ J. L. Hennessy and D. A. Patterson, Computer Architecture: a Quantitative Approach, 5th edition より

RAID (Redundant Array of Independent Disks)
高性能コンピューティング論２ RAID (Redundant Array of Independent Disks) RAID とは？複数の物理ディスクにデータを冗長化して分散配置ある物理ディスクが故障した場合でも，データが完全に壊れるのを防ぐ RAID レベル RAID 0: 冗長化なし RAID 1: ミラーリング RAID 4: パリティを一箇所に保存 RAID 5: パリティを分散配置 [ RAID レベル（Wikipedia より） ]

高性能コンピューティング論２本日のまとめ

高性能コンピューティング論２まとめ大型コンピュータの概要性能電力信頼性

レポート課題（1/2）課題の内容以下はレポート構成の一例
高性能コンピューティング論２レポート課題（1/2）課題の内容「CPUで利用されているスカラ型のアーキテクチャとGPU/SSE/AVX等で利用されているSIMD型のアーキテクチャを比較し，それぞれの利点・欠点を述べよ」最低でも A4 2ページ以上（上限なし）以下はレポート構成の一例スカラ型アーキテクチャ，SIMD型アーキテクチャそれぞれが得意なプログラム例を示し，それらのプログラムを実行した際に各アーキテクチャがどのように振る舞うかを説明しつつ，各アーキテクチャの利点・欠点を述べるスカラ版，SIMD版それぞれのプログラムを実機で実行した上で，それらの結果と考察が記載されているとなおよい

レポート課題（2/2）締切提出方法 2/19（金）（日付が変わるまで）レポートを PDF にしたものをメールで提出
高性能コンピューティング論２レポート課題（2/2）締切 2/19（金）（日付が変わるまで）提出方法レポートを PDF にしたものをメールで提出宛先：提出時はメールの subject を以下のようにすること　【HPC2レポート】学籍番号氏名

高性能コンピューティング論２第13回大型コンピュータ

Similar presentations

Presentation on theme: "高性能コンピューティング論２第13回大型コンピュータ"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

高性能コンピューティング論２ 第13回 大型コンピュータ

Similar presentations

Presentation on theme: "高性能コンピューティング論２ 第13回 大型コンピュータ"— Presentation transcript:

Similar presentations

About project

フィードバック

高性能コンピューティング論２第13回大型コンピュータ

Presentation on theme: "高性能コンピューティング論２第13回大型コンピュータ"— Presentation transcript: