高性能コンピューティング論2 第13回 大型コンピュータ

Slides:



Advertisements
Similar presentations
Linuxを組み込んだマイコンによる 遠隔監視システムの開発
Advertisements

The Enterprise-class Monitoring Solution for Everyone
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
情報検索概説II 第8回 パソコン組み立てと記憶装置 1999/11/25.
CPUについて HN:セシル.
コンピュータプラクティス I 再現性 水野嘉明
Chapter11-4(前半) 加藤健.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
エクサスケール計算と その要素技術としてのメモリアーキテクチャ
セキュリティ機構のオフロードを考慮した仮想マシンへの動的メモリ割当
NORWAY ENGLAND AMERICA FRANCE
榮樂 英樹 LilyVM と仮想化技術 榮樂 英樹
クラウドにおける ネストした仮想化を用いた 安全な帯域外リモート管理
Windows Azure 仮想マシン 入門.
計算機システムⅡ 主記憶装置とALU,レジスタの制御
複数のコンピュータ(ノード)を一群にまとめて、信頼性や処理性能の向上を実現するシステム
報告 (2006/9/6) 高橋 慧.
Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ
神奈川大学大学院工学研究科 電気電子情報工学専攻
最新技術でネットワーク設備を省エネ化!! Green IT をリードするルータ/スイッチ「AXシリーズ」
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
ネットワークの基礎技術.
大きな仮想マシンの 複数ホストへのマイグレーション
高性能コンピューティング論2 第1回 ガイダンス
割 込 み(1) オペレーティングシステム No.5.
サーバ構成と運用 ここから私林がサーバ構成と運用について話します.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
政府情報システムのコスト削減の 取組状況について
サーバ負荷分散におけるOpenFlowを用いた省電力法
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
中堅・中小企業様、部門・ワークグループに最適なNAS
監視カメラシステムのバックアップ オムロンUPS導入シーン 自然災害よる停電や、人為的に電源供給をSTOPされても安心です!
『防犯対策』 オムロンUPS導入シーン 人為的に電源供給をSTOPされても安心です! UPS導入メリット ブレーカー/電線破壊
コンピュータを知る 1E16M009-1 梅津たくみ 1E16M017-8 小沢あきら 1E16M035-0 柴田かいと
1.コンピュータと情報処理 p.18 第1章第1節 2.コンピュータの動作のしくみ CPUと論理回路
他のプロセスに あたえる影響が少ない 実行時ミラーリングシステム
コンピュータの歴史 〜計算速度の進歩〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
ソフトウェア情報学総論 基盤ソフトウェア学講座
VM専用仮想メモリとの連携による VMマイグレーションの高速化
IaaS型クラウドにおける インスタンス構成の動的最適化手法
リモートホストの異常を検知するための GPUとの直接通信機構
仮想メモリを用いた VMマイグレーションの高速化
複数ホストに分割されたメモリを用いる仮想マシンの監視機構
仮想計算機を用いたサーバ統合に おける高速なリブートリカバリ
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
宇宙科学統合解析環境の構築とAstro-E2解析支援
クラウドにおけるVM内コンテナを用いた 自動障害復旧システムの開発
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
クラウドにおけるVM内コンテナを用いた 低コストで迅速な自動障害復旧
スーパーコンピュータ「京」 理化学研究所 計算科学研究センター
インターネット             サーバーの種類 チーム 俺 春.
軽量な仮想マシンを用いたIoT機器の安全な監視
複数ホストにまたがって動作する仮想マシンの障害対策
VMMのソフトウェア若化を考慮した クラスタ性能の比較
ネットワークをシンプルにする エンタープライズ NFV
コンピュータの仕組み 〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
レイドのドレイ 安物RAIDの誘惑 加速器センター 木村 博美.
コンピュータの仕組み ~ソフトウェア~ 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
仮想マシンの監視を継続可能なマイグレーション機構
第5回 メモリ管理(2) オーバレイ方式 論理アドレスとプログラムの再配置 静的再配置と動的再配置 仮想記憶とメモリ階層 セグメンテーション
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Presentation transcript:

高性能コンピューティング論2 第13回 大型コンピュータ 高性能コンピューティング学講座 三輪 忍 miwa@is.uec.ac.jp

高性能コンピューティング論2 本日の講義内容 大型コンピュータの概要 性能 電力 信頼性

高性能コンピューティング論2 大型コンピュータの概要

大型コンピュータ スパコン,(クラウド)サーバ等のコンピュータ・システム 英語だと warehouse-scale computer 高性能コンピューティング論2 大型コンピュータ スパコン,(クラウド)サーバ等のコンピュータ・システム 例) 京コンピュータ,AWS (Amazon Web Services),Azure など 英語だと warehouse-scale computer クラウド・サーバがコンテナ型のデータセンターで運用されているため 適当な日本語訳がない(「大型」は曖昧) [ コンテナ型のデータセンター ] [ コンテナ内部のようす ]

スパコン 高い計算能力を持ったコンピュータ・システム 公的機関(大学・研究所等)に設置・運用されることが多い 高性能コンピューティング論2 スパコン 高い計算能力を持ったコンピュータ・システム 公的機関(大学・研究所等)に設置・運用されることが多い 大規模な並列計算を必要とする研究者によって主に利用 [ 京コンピュータ ]

(クラウド)サーバ 高い計算能力を持ったコンピュータ・システム 民間企業によって運用されることが多い 高性能コンピューティング論2 (クラウド)サーバ 高い計算能力を持ったコンピュータ・システム 民間企業によって運用されることが多い 大規模な並列計算を必要としない人々がターゲット 小規模な並列計算で十分な人 web, メール,データベース等のサーバを運用したい人 OS が仮想化されていることが多い

大型コンピュータのシステム構成 ラックマウント型のサーバを用いて機器を高密度に配置 大量の熱を発生するため,システムの冷却方法が重要 高性能コンピューティング論2 大型コンピュータのシステム構成 ラックマウント型のサーバを用いて機器を高密度に配置 大量の熱を発生するため,システムの冷却方法が重要 ラックマウント型サーバ (最大 48台/ラック) ネットワークスイッチ [ 大型コンピュータのシステム構成※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

ストレージ NAS (Network Attached Storage) 分散ファイル・システム 高性能コンピューティング論2 ストレージ NAS (Network Attached Storage) ストレージをネットワーク接続し,ノード間で共有 データ管理が容易 ディスク I/O のバンド幅は低め 分散ファイル・システム 各ノードのローカル・ディスクをシステム・ソフトウェアにより仮想的に統合 データ管理が複雑 ディスク I/O の総バンド幅は高い (特にリード) ネットワーク ストレージ ラック [ Google File System (Wikipedia より) ]

ネットワーク 性能とコストのトレードオフ InfiniBand とギガビット・イーサネットが 8 割以上 高性能コンピューティング論2 ネットワーク 性能とコストのトレードオフ 高速&高次のネットワーク or 低速&低次のネットワーク InfiniBand とギガビット・イーサネットが 8 割以上 InfiniBand: 数十Gbps,高価 ギガビット・イーサネット: 1 Gbps,安価 [ TOP500 のネットワークの内訳(2012年6月)※ ] ※ K. P. Saravanan, et al., Power/Performance evaluation of Energy Efficient Ethernet (EEE) for High Performance Computing, ISPASS, 2013 より

記憶階層 ローカル DRAM とネットワーク・ストレージでは大きな性能差 データ参照の局所性を高めることが大事 高性能コンピューティング論2 記憶階層 ローカル DRAM とネットワーク・ストレージでは大きな性能差 レイテンシ: 100,000倍以上,バンド幅: 1,000倍以上 データ参照の局所性を高めることが大事 [ 大型コンピュータの記憶構成※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

大型コンピュータの課題 性能 電力 信頼性(対故障性) コスト アプリケーション性能の向上に対する要求は根強い 消費電力量は運用コストに直結 高性能コンピューティング論2 大型コンピュータの課題 性能 アプリケーション性能の向上に対する要求は根強い 電力 消費電力量は運用コストに直結 電力資源の有効活用 信頼性(対故障性) システムのダウン・タイムをできるだけ短縮 コスト システム規模増 ⇒ コスト増(ポスト京の総事業費は1,300億円) 導入コスト + 運用コスト の抑制が必要

高性能コンピューティング論2 性能

大型コンピュータの性能の推移 次の目標は EFLOPS 京コンピュータが 世界最速を記録 現在の世界最速マシンは 33.86 PFLOPS 高性能コンピューティング論2 大型コンピュータの性能の推移 次の目標は EFLOPS 京コンピュータが 世界最速を記録 現在の世界最速マシンは 33.86 PFLOPS ※ TOP500(2015年11月)より

主な性能指標 FLOPS B/s 「フロップス」と読む 1秒間に何回の浮動小数点演算が可能か? コアの計算能力を表す 高性能コンピューティング論2 主な性能指標 FLOPS 「フロップス」と読む 1秒間に何回の浮動小数点演算が可能か? 10 PFLOPS = 10,000,000,000,000,000 回/秒 コアの計算能力を表す B/s 「バイト・パー・セック」と読む 1秒間に何バイトのデータ転送が可能か?(= バンド幅) ディスク,メモリ,ネットワークなどの性能を表す際に使用

システム性能を上げるには? FLOPS を増やす B/s を増やす 電力,コストとのトレードオフ コア・アーキテクチャを工夫する 高性能コンピューティング論2 システム性能を上げるには? FLOPS を増やす コア・アーキテクチャを工夫する コア数を増やす コアの動作周波数を上げる B/s を増やす 高バンド幅のメモリを使う 例) DDR4, GDDR5, HMC, HBM など 高バンド幅のネットワークを使う 例) InfiniBand, 6D-torus など 電力,コストとのトレードオフ

高性能計算分野におけるプログラム開発 目標: 与えられたシステムでなるべく速く動くプログラムを書く 意識しなければならないこと 高性能コンピューティング論2 高性能計算分野におけるプログラム開発 目標: 与えられたシステムでなるべく速く動くプログラムを書く 書き方次第でプログラムの性能は数倍変わる 例) シミュレーションに要する日数が 100 日から 10 日に短縮 システム毎にプログラムをチューニングするメリットが大きい 意識しなければならないこと システム構成によって定まる上限が存在 今のプログラムはハードウェアのポテンシャルを引き出せているのか?

計算強度とルーフライン・モデル 計算強度 (arithmetic intensity) ルーフライン・モデル 高性能コンピューティング論2 計算強度とルーフライン・モデル 計算強度 (arithmetic intensity) プログラムに占める演算とメモリ・アクセスの比率 プログラムの浮動小数点演算の総回数を総データ転送量で割ったもの 例) あるプログラムが 1 GFLOP の演算を実行し,メモリから 0.5 GB の    データ転送が行われた場合,このプログラムの計算強度は 2 ルーフライン・モデル 各計算強度におけるシステム性能 の上限を表したもの 自身のプログラムの計算強度と性能 を当てはめてみれば,チューニングの 余地があるかどうかがわかる メモリバウンド 計算バウンド 演算性能 (FLOPS) コア性能によって 決まる性能の上限 メモリ性能によって 決まる性能の上限 計算強度

高性能コンピューティング論2 電力

大型コンピュータの電力 電気代が運用コストを圧迫 年間 1 MW の電気を消費すると,電気代は 1 億円 高性能コンピューティング論2 大型コンピュータの電力 電気代が運用コストを圧迫 年間 1 MW の電気を消費すると,電気代は 1 億円 世界最速のマシンは17.8 MW を消費 ※ TOP500(2015年11月)より

各ハードウェアのピーク電力 CPU とメモリで約 2/3 を占める ディスク + ネットワークで 15% CPU やメモリの省電力化が重要 高性能コンピューティング論2 各ハードウェアのピーク電力 CPU とメモリで約 2/3 を占める CPU やメモリの省電力化が重要 ディスク + ネットワークで 15% システム構成に依存 実際,京コンピュータはネットワーク 電力の比率がもっと高い CPU やメモリの省電力化が進む につれて,これらの省電力化の 重要性が相対的に増加 [ Google のデータセンターにおける各ハードウェアのピーク電力※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

データセンターの消費電力 コンピュータ以外の周辺設備も電力を消費 周辺設備の消費電力も非常に大きい 冷却設備 電源系における電力損失 その他 高性能コンピューティング論2 データセンターの消費電力 コンピュータ以外の周辺設備も電力を消費 冷却設備 電源系における電力損失 その他 周辺設備の消費電力も非常に大きい 京コンピュータの場合 京本体の消費電力は施設全体の 消費電力の72%※1 Google のデータセンターの場合 IT 機器の消費電力はセンター全体の 消費電力の 30% [ Google のデータセンターにおける消費電力の内訳※2 ] ※1 山本啓二ほか,「スーパーコンピュータ「京」の運用状況」,情報処理,Vol.55, No.8 より ※2 L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

大型コンピュータの冷却設備 冷えた空気を循環させることでコンピュータを冷却 高性能コンピューティング論2 大型コンピュータの冷却設備 [ 液浸冷却 ] 冷えた空気を循環させることでコンピュータを冷却 空気の通り道 (hot aisle, cold aisle) を作る 最近では液浸冷却技術が実用化しつつある CRAC (computer room air conditioning) [ データセンターの冷却方法※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

大型コンピュータの電源系 複数回の電圧変換を経てコンピュータに電力供給 変換過程で約 11% の電力損失が発生 高性能コンピューティング論2 大型コンピュータの電源系 複数回の電圧変換を経てコンピュータに電力供給 変換過程で約 11% の電力損失が発生 [ 大型コンピュータの電源系とその電力損失※ ] ※ J. L. Hennessy and D. A. Patterson, Computer Architecture: a Quantitative Approach, 5th edition より

PUE (Power Utilization Effectiveness) 高性能コンピューティング論2 PUE (Power Utilization Effectiveness) PUE = (全設備の電力) / (IT機器の電力) データセンターの電力効率の評価指標として利用 1 に近い程,電力効率が良い [ 24のデータセンターの PUE 比較※ ] ※ L. A. Barroso, et al., The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines より

高性能コンピューティング論2 信頼性

データセンターの故障率 故障率=故障部品数 / 総部品数 部品数が多いと故障の 発生頻度も高い 総部品数は 20万点以上 高性能コンピューティング論2 データセンターの故障率 故障率=故障部品数       / 総部品数 総部品数は 20万点以上 部品数が多いと故障の 発生頻度も高い ジョブの異常停止を伴わ ない故障: ほぼ毎日 ジョブの異常停止を伴う 故障: 2-3日に 1 回 [ 京コンピュータにおけるハードウェアの故障率※ ] ※ K. Yamamoto, et al., The K computer operations: Experiences and statistics より

データセンターのクラス アメリカの民間団体 (Uptime Institute) が作成した基準 高性能コンピューティング論2 データセンターのクラス アメリカの民間団体 (Uptime Institute) が作成した基準 あくまで運用目標(認定される類のものではない) ユーザにとってはデータセンターを選ぶ際の指標となる クラス名 システム停止時間(分/年) システム稼働率(%) 備考 Tier 1 1,728 99.67 電源系,冷却系は1つ. 冗長な機器がない Tier 2 1,320 99.75 機器が冗長化されている Tier 3 96 99.98 複数の電源系,冷却系を有し,メンテナンス時にもサービスを継続可能 Tier 4 48 99.99 複数の電源系,冷却系を有しており,いくつかの機器で同時に障害が発生した場合でもサービスを継続可能

UPS (Uninterruptible Power Supply) 高性能コンピューティング論2 UPS (Uninterruptible Power Supply) UPS とは? 電力を安定供給するための機器 電源系統の途中に挿入 機能 障害発生時の供給元の切り替え Substation ⇒ Generator 停電発生時にバッテリーに蓄えて おいた電気を使って電力供給 ノイズの除去 [ 大型コンピュータの電源系とその電力損失※ ] ※ J. L. Hennessy and D. A. Patterson, Computer Architecture: a Quantitative Approach, 5th edition より

RAID (Redundant Array of Independent Disks) 高性能コンピューティング論2 RAID (Redundant Array of Independent Disks) RAID とは? 複数の物理ディスクにデータを冗長化して分散配置 ある物理ディスクが故障した場合でも,データが完全に壊れるのを防ぐ RAID レベル RAID 0: 冗長化なし RAID 1: ミラーリング RAID 4: パリティを一箇所に保存 RAID 5: パリティを分散配置 [ RAID レベル(Wikipedia より) ]

高性能コンピューティング論2 本日のまとめ

高性能コンピューティング論2 まとめ 大型コンピュータの概要 性能 電力 信頼性

レポート課題(1/2) 課題の内容 以下はレポート構成の一例 高性能コンピューティング論2 レポート課題(1/2) 課題の内容 「CPUで利用されているスカラ型のアーキテクチャとGPU/SSE/AVX等で利用されているSIMD型のアーキテクチャを比較し,それぞれの利点・欠点を述べよ」 最低でも A4 2ページ以上(上限なし) 以下はレポート構成の一例 スカラ型アーキテクチャ,SIMD型アーキテクチャそれぞれが得意なプログラム例を示し,それらのプログラムを実行した際に各アーキテクチャがどのように振る舞うかを説明しつつ,各アーキテクチャの利点・欠点を述べる スカラ版,SIMD版それぞれのプログラムを実機で実行した上で,それらの結果と考察が記載されているとなおよい

レポート課題(2/2) 締切 提出方法 2/19(金) (日付が変わるまで) レポートを PDF にしたものをメールで提出 高性能コンピューティング論2 レポート課題(2/2) 締切 2/19(金) (日付が変わるまで) 提出方法 レポートを PDF にしたものをメールで提出 宛先: miwa@hpc.is.uec.ac.jp 提出時はメールの subject を以下のようにすること  【HPC2レポート】 学籍番号 氏名