スーパーコンピュータのネットワーク情報ネットワーク特論 2011年11月22日.

スーパーコンピュータのネットワーク情報ネットワーク特論 2011年11月22日

今日の講義内容スーパーコンピュータの構造スーパーコンピュータのネットワーク最新のスーパーコンピュータ事情

最近のスーパーコンピュータの構造ネットワーク多数（数千～数万）の"計算ノード"をネットワークで接続した大規模並列計算機
多数（数千～数万）の"計算ノード"をネットワークで接続した大規模並列計算機数台～数百台程度の、小～中規模な並列計算機よりネットワークに対する制約が厳しい CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア CPU コアメインメモリメインメモリメインメモリメインメモリネットワークネットワーク

スーパーコンピュータとは？ "スーパー"な計算機＝その時点で、一般的な計算機の性能をはるかに超える性能を持つ計算機
"スーパー"な計算機　＝　その時点で、一般的な計算機の性能をはるかに　　　　超える性能を持つ計算機スーパーコンピュータの用途　＝　主に科学技術計算例えば分子構造のシミュレーションによる創薬構造シミュレーション等による車の設計熱力学シミュレーション等による気候予測 ...

スーパーコンピュータの例）地球シミュレータ
スーパーコンピュータの例）　地球シミュレータ稼動開始時点（2002年3月）時点で，世界最高速のスーパーコンピュータ日本の計算機メーカ（主に NEC）が開発開発目標： 10km四方(赤道近辺)の精度で地球全体の大気循環をシミュレートそれまでは 100km四方例えば台風の発生過程： 100km四方だと台風が台風に見えない

地球シミュレータの成果台風進路予測台風発生予測 CO2の増加に伴う温暖化の予測
5.5km四方で地球全体をシミュレート（日本近辺は 2.78km四方）海底探査船「ちきゅう」に, 台風進路の予測結果を到達予定の3日前に提供台風発生予測過去10年間についてシミュレーションによる台風発生回数が実際の値とほぼ一致 CO2の増加に伴う温暖化の予測 2040年には年間の真夏日日数が約20日増加，平均気温が約2度上昇．

地球シミュレータが速い理由非常に高速なCPUを搭載した計算ノード：ベクトルプロセッサ 5120台の計算ノードによる並列計算
全ノードを接続する高速なネットワーク

基本的なCPUの構成メモリからデータが届くまで計算できない命令読み出し → 解釈 → データ読み出し → 計算 → 結果の出力
命令読み出し → 解釈 → データ読み出し　→ 計算 → 結果の出力入出力装置磁気ディスク, キーボード, ディスプレイ等処理装置（CPU) 制御装置演算装置メモリプログラム 3 100 1 3 200 2 1 1 2 データメモリからデータが届くまで計算できない

CPUとメモリの速度差の問題 CPU：１回の演算時間： 0.25～0.5ns メモリ：１回の読み書き時間：数ns～数十ns
ベクトルプロセッサ，スカラープロセッサ，それぞれ別の方法で解決

ベクトルプロセッサのメモリ連続データに対する単純な演算の繰り返しに有効パイプラインによる連続アクセスの高速化さらに、
パイプライン（＝バケツリレー) →　データが届き始めてからはメモリ遅延の影響なしさらに、複数のデータの同時転送ベクトル命令で効率良く実行一つの命令で複数のデータに対する演算を一括指示メモリ CPU a[8] a[7] a[6] a[5] a[4] a[3] a[2] a[1] a[0] メモリ CPU 非ベクトルベクトル add a(1) b(1) vadd a(1~100) b(1~100) add a(2) b(2) add a(3) b(3) 連続データに対する単純な演算の繰り返しに有効

ベクトルプロセッサの特徴利点：簡単に高速化できる欠点１）：用途が限定欠点２）：高価
利点：　簡単に高速化できる強力な自動ベクトル化コンパイラにより，プログラムをほとんど書き換えずに高性能を達成欠点　１）：　用途が限定科学技術計算以外では，ほとんど効果が無いメモリをランダムに参照する処理：　探索、ソート等欠点　２）：　高価高速なパイプラインの実現には複雑な回路設計が必要　⇒　開発費が高価用途が限定されるため、販売台数が少ない　⇒　スケールメリットが得られにくい

スカラープロセッサキャッシュメモリの利用速度に応じて階層化様々な種類の計算を無難にこなす CPUとメモリの間に置く高速メモリ
高速だが小容量速度に応じて階層化アクセスされた領域をCPUの近くにコピー小さい領域内での計算が非常に高速 CPU １次２次キャッシュメモリ階層遅延時間容量 1次キャッシュ１クロック 32KB 2次キャッシュ 5クロック 256KB 3次キャッシュ 12クロック 3MB～9MB メモリ数百クロック数GB～数百GB ３次メモリ様々な種類の計算を無難にこなす

ベクトルからスカラーへスカラープロセッサ：ある程度の性能を安価に提供可能プログラムの工夫が重要構造が比較的簡単 ⇒ 開発費が安価
スカラープロセッサ：ある程度の性能を安価に提供可能構造が比較的簡単　⇒　開発費が安価 PCやサーバ等にも搭載　⇒　スケールメリット大プログラムの工夫が重要キャッシュメモリの有効利用：一旦キャッシュにコピーしたデータの再利用等

計算機の高速化手段１：プロセッサ単体の性能を上げる２：プロセッサの数を増やす＝並列計算機
１：　プロセッサ単体の性能を上げる１．１　クロック周波数（＝計算機の基本的な処理速度）の向上１．２　プロセッサ内部の演算器を増やす２：　プロセッサの数を増やす　　　＝　並列計算機

手段１．１クロック周波数の向上今後も、大幅な周波数増は見込めない物理的，経済的な限界物理的な限界＝消費電力と熱
手段１．１　クロック周波数の向上物理的，経済的な限界物理的な限界　＝　消費電力と熱周波数に対して指数関数的に増加例えば x86系 CPU は 2004年の 3.8GHz以降、頭打ち状態経済的な限界　＝　開発コスト回路の微細化、複雑化電流漏れ，熱等の問題が深刻化今後も、大幅な周波数増は見込めない

手段１．２内部の演算器を増やす理想的な場合でも性能向上は２倍程度やはり、物理的、経済的な限界さらに、プログラム側の問題
手段１．２　内部の演算器を増やすやはり、物理的、経済的な限界集積度（チップに搭載可能な演算器数）の限界回路の複雑化にともなう開発コストさらに、プログラム側の問題演算器の数が増えると、それらを活用できるプログラムは減少大幅なアルゴリズム変更が求められる場合もある理想的な場合でも性能向上は２倍程度

手段２．プロセッサの数を増やすうまく分担できればプロセッサの数に応じて性能向上仕事を複数のプロセッサに分担させて高速化＝並列処理
仕事を複数のプロセッサに分担させて高速化　＝　並列処理並列処理をするには？　⇒　並列プログラムが必要普通の処理並列処理仕事１仕事１仕事２仕事３仕事２仕事３うまく分担できればプロセッサの数に応じて性能向上

並列プログラム普通のプログラム（＝並列じゃないプログラム）とどう違う? 並列処理に必要な事項を含むプログラム
各ＣＰＵコアへの仕事の分担のさせ方、相互の情報交換、 CPUコアの間の同期等普通のプログラム（＝並列じゃないプログラム）とどう違う?

普通のプログラムの例：２つのベクトルの和を計算
普通のプログラムの例：　２つのベクトルの和を計算０番目から９９番目までの要素を順に計算 ... 99 A = = = = = = = = = = = = = = = = = = = = B + + + + + + + + + + + + + + + + + + + + C プログラム double A[100], B[100], C[100]; ... for (i = 0; i < 100; i++) A[i] = B[i] + C[i];

並列プログラムの例：複数の「スレッド」で並列処理
並列プログラムの例：　複数の「スレッド」で並列処理スレッド：　同じ記憶空間を共有しながら進行する流れスレッド０スレッド１スレッド２スレッド３ ... ... ... ... 全スレッドが同じ配列を共有 24 25 49 50 74 75 99 A = = = = = = = = = = = = = = = = = = = = B + + + + + + + + + + + + + + + + + + + + C double A[100],B[100],C[100]; ... for (i=0; i<25; i++) A[i] = B[i] + C[i]; double A[100],B[100],C[100]; ... for (i=25; i<50; i++) A[i] = B[i] + C[i]; double A[100],B[100],C[100]; ... for (i=50; i<75; i++) A[i] = B[i] + C[i]; double A[100],B[100],C[100]; ... for (i=75; i<100; i++) A[i] = B[i] + C[i]; スレッド０スレッド１スレッド２スレッド３

スレッド並列プログラムの作り方１）　コンパイラにおまかせ２）　OpenMP等のスレッド並列化手法

コンパイラによる並列化複雑なプログラムの並列化は、人間の助けが必要
コンパイラの「自動並列化」機能を利用　＝　「お任せコース」の最適化の一部最近は、ほとんどのコンパイラで利用可能簡単なプログラムでは、それなりの効果複雑なプログラムの並列化は、人間の助けが必要

「OpenMP」による並列化並列化指示行簡単にスレッド並列プログラムを記述するための手法基本的に「並列化指示行」を追加するだけ
簡単にスレッド並列プログラムを記述するための手法基本的に「並列化指示行」を追加するだけ例）　前出のスレッド並列処理をOpenMPで記述 #include "omp.h" double A[100], B[100], C[100]; ... #pragma omp parallel for for (i = 0; i < 100; i++) A[i] = B[i] + C[i]; 並列化指示行

スレッドによる並列化の利点と欠点利点：簡単に並列化
利点：　簡単に並列化コンパイラにお任せ、もしくは　OpenMPの指示行追加だけ欠点：　基本的に「共有メモリ型並列計算機」向け　⇒　「分散メモリ型並列計算機」では使えない　　　　＝　大規模な計算機で利用できない

共有メモリ型並列計算機メインメモリ CPUコアからメインメモリへの経路が共有 ⇒ 規模（＝CPUコア数）に限界
１つのメインメモリを複数のＣＰＵコアで共有マルチCPUコアのＰＣ等 CPU コア CPU コア CPU コア CPU コア CPU コア CPU コアメインメモリ CPUコアからメインメモリへの経路が共有　⇒　規模（＝CPUコア数）に限界

分散メモリ型並列計算機規模に応じて経路の数も増加 ⇒ 大規模化が比較的容易複数の独立したメインメモリで構成 CPU コア CPU コア
メインメモリメインメモリメインメモリメインメモリネットワーク規模に応じて経路の数も増加 ⇒　大規模化が比較的容易

プロセス並列プログラム分散メモリ型並列計算機における並列処理に必要プロセス並列　独立した記憶空間をもつ「プロセス」を　単位とした並列処理

... ... ... ... 「プロセス並列」プログラムの特徴（１）処理だけでなくデータも分割各プロセスが別の配列を利用
「プロセス並列」プログラムの特徴　（１）各プロセスが別の配列を利用処理だけでなくデータも分割プロセス０プロセス１プロセス２プロセス３ ... ... ... ... 24 24 24 24 A A A A = = = = = = = = = = = = = = = = = = = = B B B B + + + + + + + + + + + + + + + + + + + + C C C C double A[25],B[25],C[25]; ... for (i=0;i<25;i++) A[i] = B[i] + C[i]; double A[25],B[25],C[25]; ... for (i=0;i<25;i++) A[i] = B[i] + C[i]; double A[25],B[25],C[25]; ... for (i=0;i<25;i++) A[i] = B[i] + C[i]; double A[25],B[25],C[25]; ... for (i=0;i<25;i++) A[i] = B[i] + C[i]; プロセス０プロセス１プロセス２プロセス３

X 「プロセス並列」プログラムの特徴（２）他のプロセスのデータは直接参照できない必要に応じてプロセス間通信受信送信プロセス０
「プロセス並列」プログラムの特徴　（２）他のプロセスのデータは直接参照できない必要に応じてプロセス間通信プロセス０ X プロセス１プロセス２プロセス３ A A A A 受信送信ネットワーク

ＭＰＩ (Message Passing Interface)
並列プログラム用に用意された通信関数群の定義例）　プロセス０からプロセス１にデータを転送 MPI_Comm_rank(MPI_COMM_WORLD, &myid); ... if (myid == 0) MPI_Send(&(a[5]), 1, MPI_DOUBLE, 1, ,　 MPI_COMM_WORLD); if (myid == 1) MPI_Recv(&(a[3]), 1, MPI_DOUBLE, 0, , MPI_COMM_WORLD, &status); 自分のプロセス番号を取得プロセス１に送信プロセス０から受信

並列化手段と並列計算機共有メモリ型分散メモリ型自動並列化、 OpenMP ○ × MPI
利用可能な並列化手段共有メモリ型分散メモリ型自動並列化、 OpenMP ○ × MPI MPIプログラムは、作るのに苦労するがどこでも実行できる

並列計算機の利点と欠点スーパーコンピュータの構成は、今のところ分散メモリ型並列計算機利点：理論的な性能は、比較的容易に向上
利点：　理論的な性能は、比較的容易に向上極端な話，単純に数を増やせば向上する欠点：　実質的な性能向上には工夫が必要並列プログラムの作成計算の分担データの分割計算結果の通信並列処理のための時間増加他のCPUとの同期待ちや通信スーパーコンピュータの構成は、今のところ分散メモリ型並列計算機

スーパーコンピュータのネットワークへの要求
他の通信に邪魔されたくない ⇒　congestion (通信路の競合)が発生しにくい形状数万～数十万ノードを接続したい ⇒　link や router がノード数に対して爆発的に　　　増えない形状 topology　（＝　ネットワークの形状）が重要

Bus / Ring Topology 大規模並列計算機では、まったく使い物にならない
CPU内のコア間接続等で使用。構成が簡単なので bandwidth を大きく、latencyを低くできる。 link と routerの数はノード数と同じなので理想的。全ての通信が同じlinkを共有するのでcongestion が頻発。大規模並列計算機では、まったく使い物にならない

Full Direct Connection
全ノード間で、congestion 無し、低 latency の通信を実現。 linkの数や、ノード毎の routerの規模が、ノード数に応じて爆発的に増加。大規模並列計算機では、まったく使い物にならない

Crossbar Switch 行列上の switchを介して全ノードを接続互いに独立した通信であれば congestion 無し
独立した通信　＝　送信ノードも受信ノードも別である通信ノード数 N の２乗に比例した link と router

Fat Tree 多段の crossbar switch による木構造で構成
上位層の link と switch を増やすことにより単純な木構造よりも　congestion を低減 Crossbar に比べ、link数は削減できるが、 congestionは増加

多次元メッシュ/トーラス多次元の格子状にノードを配置し、隣接ノード間を直接接続ノード数 N に比例した link数
通信のパターンによっては congestionが頻発

さらなる大規模化に向けて多段全対全結合 DragonFly
出典：　出典：

スーパーコンピュータの開発競争「計算機の性能」とは？より高い性能のスーパーコンピュータを持つ計算技術の向上経済的な競争力の向上：
汎用の計算機への応用ソフトウェア効率化の推進経済的な競争力の向上：創薬新素材の開発気候予測製品設計 etc. 「計算機の性能」とは？

計算機の理論的な演算性能一般に１秒間に実行できる演算の数　＝ OPS (Operations Per Second) 特に実数計算（Floating Operation)の性能の場合　＝ FLOPS (FLoating Operations Per Second) FLOPSの計算式：理論演算性能　＝　システム全体のプロセッサコア数　　　　　　　　　　　　x プロセッサコアの周波数　　　　　　　　　　　　x コア内の同時実行可能実数演算数例えば 4演算同時実行可能な1GHzのコア 1000個のシステム　⇒　4000GFLOPS = 4TFLOPS G: Giga, T: Tera(=1000G), P: Peta(=1000T), E: Exa(=1000P)

実際のプログラムの処理性能と理論演算性能の違い
実際のプログラムの処理性能と理論演算性能の違い理論演算性能：　全ての演算器が休むことなく働き続けることが前提実際のプログラム：　様々な要因で演算器が休止メモリからのデータ到着待ち他のプロセスの計算完了待ちプロセス間の負荷の不均衡通信の完了待ちファイル入出力待ち理論演算性能による比較は、ほとんど意味が無い

プログラム処理性能で比較する場合の問題どのプログラムを使って比較するか？プログラムによって傾向が変わる。例えば。。。
プログラムによって傾向が変わる。　例えば。。。行列の連続した要素に対する計算：　ベクトルプロセッサが圧倒的に高速不規則なメモリアクセスを行う計算：　スカラープロセッサが高速たくさんのプロセッサに分担させることができる計算：　大規模並列計算機の効果大　どのプログラムを使って比較するか？

Top500 List スーパーコンピュータ開発競争に利用スーパーコンピュータの性能比較サイト http://www.top500.org
スーパーコンピュータの性能比較サイト　　稼働中のスーパーコンピュータの上位500台を掲載。自己申告制 LINPACKベンチマークプログラムを使用 NxNの連立一次方程式の求解計算における実数演算数 2N3 を所要時間で割った FLOPS値で比較。 Nは任意に決めてよい。十分大きな N では理論演算性能に比較的近い性能が出やすい。キャッシュヒット率が高い、通信が少ない、負荷が均等他の計算機との比較や傾向の分析などが容易 1993年からほとんど同じ条件で更新を継続。世界中のほぼ全てのスーパーコンピュータが登録。スーパーコンピュータ開発競争に利用

Top500における地球シミュレータの性能米国の開発意欲に火を付けた
35 TFLOPS (Tera Floating Operations Per Second) 　＝　1秒あたりの 35兆回の実数計算断トツの 1位 2位から10位までの計算機の演算性能の合計を上回る性能(2002 年6月時点) “Computenik” 　= 「計算機分野でのスプートニクだ！」　 (in New York Times） by Jack　Dongarra教授　テネシー大学教授、Top500サイトの創始者米国の開発意欲に火を付けた

米国の逆襲（2004年）日本のすべてのスーパーコンピュータをかき集めても追いつかない規模になる
IBM Blue Gene/L (2004年11月～) 70TFLOPS ちなみに地球シミュレータ(35TFLOPS)は3位に後退「まだ完成形ではない」： 2005年前半に、さらに4倍高速化する計画日本のすべてのスーパーコンピュータをかき集めても追いつかない規模になる

米国の逆襲（2005年） IBM Blue Gene/L (2005年11月) 理論最高性能 280TFLOPS
地球シミュレータは7位に後退本当に日本のすべてのスーパーコンピュータをかき集めても追いつかない規模に世界500位に入った計算機の性能の国別合計：位米国 68.3% 位日本 5.68 % 位イギリス 5.41% 位ドイツ 3.10% 位中国 2.59% 以下、　オーストラリア、スイス、オランダ、韓国、…　

2010年までの経緯～2010年6月米国の時代 2010年11月中国の台頭
～2010年6月　米国の時代 2004～2007 IBM BlueGene/L 478 TFLOPS IBM RoadRunner 1.1 PFLOPS 2009～ Cray Jaguar PFLOPS 2010年11月　中国の台頭中国　Tianhe-1A PFLOPS　日本勢は東京工業大学のTSUBAME2.0が 1.2 PFLOPSで4位

2011年6月　スーパーコンピュータ ”京”の登場 1位　 K computer(日本) 8.2 PFLOPS 2位　 Tianhe-1A (中国) 2.6 PFLOPS 3位　 Jaguar(米国) 1.8 PFLOPS 国別合計： 1位米国 42.87% (25.3 PFLOPS) 2位日本 18.98% (11.2 PFLOPS) 3位中国 12.11% ( 7.1 PFLOPS) 4位ドイツ % ( 3.2 PFLOPS) 5位フランス 5.40% ( 3.2 PFLOPS) 以下，英国，ロシア，韓国，カナダ，...

最新情報：　2011年11月 1位　 K computer(日本) 10.5 PFLOPS 2位　 Tianhe-1A (中国) PFLOPS 3位　 Jaguar(米国) PFLOPS 国別合計： 1位米国 % (31.7 PFLOPS) 2位日本 % (14.2 PFLOPS) 3位中国 % (10.4 PFLOPS) 4位フランス % ( 3.7 PFLOPS) 5位ドイツ % ( 3.6 PFLOPS) 以下，英国，カナダ，ロシア，韓国，...

京 - K Computer - 理化学研究所と富士通が開発 http://www.aics.riken.jp
理化学研究所と富士通が開発当初の目標：　 2012年までに毎秒1京回の計算(=10PFLOPS) が可能な計算機を開発する例えば km平方で分割したアジア域の雲解像モデル解析（24時間分）を 1分で計算地球シミュレータでは 12時間必要出典：　

京の特徴的な技術世界最大規模低消費電力高信頼性高速ネットワーク約8万ノード x 8CPUコア＝約64万CPUコア
128GFLOPS / 58W 高信頼性水冷方式エラー検出、訂正機能高速ネットワーク 6次元トーラス少ない結線数で全体を接続 1台壊れても別ルートを使って運転を継続 SPARC64TM VIIIfxチップ Tofu インターコネクトネットワーク出典：　

地球シミュレータ、BlueGene/L、京の構成
階層構造：小～中規模の共有メモリ型並列計算機かマルチコア計算機で分散メモリ型並列計算機を構成 ... ... ... ... CPU CPU CPU CPU CPU CPU CPU CPU CPU ... CPU CPU CPU メモリメモリメモリメモリ地球シミュレータ BlueGene/L 京 CPUあたりのコア数 1 8 ノード当たりCPU数 2 ノード数 640 65,536 約8万

プロセッサのアーキテクチャベクトルからスカラーへ地球シミュレータ：ベクトルプロセッサ BlueGene/L, 京: スカラープロセッサ
地球シミュレータ：　ベクトルプロセッサ BlueGene/L,　京: スカラープロセッサ２０１１年１１月時点で、ベクトルプロセッサは地球シミュレータ２の１台のみベクトルからスカラーへ

最近の高速化のアプローチ：アクセラレータの追加
最近の高速化のアプローチ：　アクセラレータの追加特定の計算を高速化特に最近はグラフィックプロセッサの科学技術計算用途への流用に注目: GPGPU (General Purpose GPU) PC用のGPUカードを使用２位（中国）、４位（米国）、５位（日本東工大）で NVIDIAのGPU搭載安価かつ低消費電力で性能を大幅に向上

何故、グラフィックプロセッサ？実は基本的なグラフィック計算の主要部分は連続領域に対する演算の繰り返し
実は基本的なグラフィック計算の主要部分は　連続領域に対する演算の繰り返しベクトルプロセッサの得意な計算と同じ基本構造がベクトルプロセッサとほぼ同じ

何故、安くて低消費電力？グラフィック処理に特化した簡略化スケールメリットメモリ量を制限演算の種類を制限ほとんどのPCに搭載
１〜２GB程度演算の種類を制限主に加算，乗算の性能重視除算，平方根等はソフトウェアで計算複雑な処理は不可スケールメリットほとんどのPCに搭載

GPGPUの性能地球シミュレータの 1/80 の性能地球シミュレータの 1/30000 の電力
例）　NVIDIA Tesla C2075 演算性能（単精度） 1.03 TFLOPS 演算性能（倍精度） 515 GFLOPS GPUメモリ容量 6GB 消費電力 215W 価格 22万円前後地球シミュレータの 1/80 の性能地球シミュレータの 1/30000 の電力地球シミュレータの 1/ の価格

GPGPUの問題性能を活かすためには高度なチューニングが必要メモリからアクセラレータのメモリへのデータ転送が遅い
Tesla C2015で GFLOPSに対して　8GB/sec アクセラレータ上のメモリへのアクセスは 144GB/sec NECのベクトルプロセッサは　 100GFLOPSに対して　256GB/sec 京のスカラープロセッサは　　　 128GFLOPSに対して 64GB/sec 性能に対するメモリ量が少ない Tesla C2015で GFLOPS に対して 6GB NECのベクトルプロセッサは 100GFLOPS に対して 64GB 京のスカラープロセッサは　　　128GFLOPSに対して 16GB プログラムが複雑ホストPC側とアクセラレータ側双方のプログラムデータの移動も全てプログラムに明記性能を活かすためには高度なチューニングが必要

GPGPUの利点，欠点電力あたりの性能は高いが、実効性能比が低い 40 367 8773 2287 35.8 280.6 8162
地球シミュレータ BlueGene/L 京 TSUBAME2.0 総理論演算性能(TFLOPS) 40 367 8773 2287 Linpack性能(TFLOPS) 35.8 280.6 8162 1192 実効性能比 89.5% 76.5% 93.0% 52.1% 電力 6MW 0.2MW 10MW 1MW 電力対実効性能 TFLOPS/MW 5.96 1400 816 導入コスト 500億円 $1億 1200億円 32億円電力あたりの性能は高いが、実効性能比が低い

GPGPU: 今後の課題プログラムの対応計算の大規模化への対応科学技術計算向け拡張部分のビジネスモデル GPGPUは連続単純計算が得意
ゲームに必要ない部分（倍精度実数演算等）にどのくらい費用と時間をかけることが出来るか？

スーパーコンピュータ開発に関する問題膨大な開発費：京の場合，7年間で約1,200億円
膨大な開発費：　京の場合，7年間で約1,200億円事業仕分けでの指摘「2番じゃダメなんですか？」次の目標：　2018年に 1 Exa FLOPS を達成　　（1 Exa = 1,000 Peta) 予算は？？？

今後の開発計画富士通：　京の商用機発表 07/fujitsu_unveils_post-k_supercomputer.html NEC：　SX-9後継のベクトル計算機開発計画を発表 IBM：　BlueGene/Q で 100PFLOPSを狙う wer_775/ Cray:　Blue Water supercomputer/ Barcelona Supercomputing Center: Tegra + GPGPUでスーパーコンピュータ開発 supercomputer.html 中国：　自国製CPU ShenWey SW /china_s_indigenous_supercomputing_strategy_bears_first_fru it.html

米国の変化 PCAST (President’s Council of Advaisors on Science and Technology) の指摘 be-the-wrong-path-forward/ “an arms race that is very expensive and may not be a good use of funds.” ゲームのルールが変わる可能性

Top500に代わる指標 HPC Challenge http://icl.cs.utk.edu/hpcc/
複数の部門でそれぞれ順位づけ Linpack, Matrix Multiply, Memory Bandwidth, Matrix Transpose, Random Access, Fast Fourier Trans, Communication Bandwidth and Latency Graph500 組み合わせ最適化問題の計算性能比較 Green500 http’// Top500の性能を消費電力で割った電力対性能比を比較

実用面の評価 Gordon Bell賞実プログラムでの性能競争
2011年：　京を用いたシリコンナノワイヤのシミュレーションで理化学研究所、筑波大、東大、富士通のチームが受賞東工大もTSUBAME2.0を用いた新素材形成のシミュレーションで特別賞を受賞 8_ html

次のスーパーコンピュータ開発米国 http://www.exascale.org
米国ヨーロッパ日本予算が問題

スーパーコンピュータのネットワーク情報ネットワーク特論 2011年11月22日.

Similar presentations

Presentation on theme: "スーパーコンピュータのネットワーク情報ネットワーク特論 2011年11月22日."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

スーパーコンピュータの ネットワーク 情報ネットワーク特論 2011年11月22日.

Similar presentations

Presentation on theme: "スーパーコンピュータの ネットワーク 情報ネットワーク特論 2011年11月22日."— Presentation transcript:

Similar presentations

About project

フィードバック

スーパーコンピュータのネットワーク情報ネットワーク特論 2011年11月22日.

Presentation on theme: "スーパーコンピュータのネットワーク情報ネットワーク特論 2011年11月22日."— Presentation transcript: