「コアの数なんて どうでもいい」 五島 正裕(東大).

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

DATE : 11. メモリ 五島 正裕 今日の内容 メモリ  SRAM  DRAM  Flash Memory.
ディジタル回路 11. メモリ 五島 正裕 ディジタル回路 今日の内容 メモリ  SRAM  DRAM  Flash Memory.
FPGA 株式会社アプライド・マーケティング 大越 章司
第3回 並列計算機のアーキテクチャと 並列処理の実際
連続系アルゴリズム演習 第2回 OpenMPによる課題.
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
情報検索概説II 第8回 パソコン組み立てと記憶装置 1999/11/25.
CPUについて HN:セシル.
ヘテロジニアスマルチコアプロセッサ 環境を対象としたキャッシュシステム 自動生成ツールの開発
Chapter11-4(前半) 加藤健.
Intel AVX命令を用いた並列FFTの実現と評価
10. メモリ 五島 正裕.
Flashプレイヤーを使った動画配信 情報工学科 宮本 崇也.
SOIピクセル検出器用 Digital Libraryの開発
計算機システムⅡ 主記憶装置とALU,レジスタの制御
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
クラスタコンピューティングの 並列環境と性能
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
11. 省電力 五島 正裕.
首都大学東京 都市教養学部数理科学コース 関谷博之
高性能コンピューティング論2 第1回 ガイダンス
ディジタル回路 1. アナログ と ディジタル 五島 正裕.
ポストムーア時代とは 予想される課題 CMOSにおけるプロセス微細化 => 計算性能向上のサ イクルが止まる
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
宇宙線及びβ線源によるSilicon Microstrip Detectorの 動作検査
Yutaka Yasuda, 2004 spring term
組み込み向けCPU 小型デバイスに搭載されるCPU 特徴 携帯電話,デジタルカメラ,PDA,センサデバイスなど 小型 低消費電力 多機能
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
SpectreとMeltdown ITソリューション塾・第28期 2018年5月30日 株式会社アプライド・マーケティング 大越 章司
これからが面白いプロセッサアーキテクチャ
アドバンスト コンピュータ アーキテクチャ 五島.
CPUの仕組み 1E16M002-5 阿部知也 1E16M007-3 伊藤達哉 1E16M026-9 小島祥太郎 1E16M069-8 峰晴晃優 1E16M070-0 宮路暁久 1E14M070-5 南元喜.
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
高速剰余算アルゴリズムとそのハードウェア実装についての研究
MPIを用いた最適な分散処理 情報論理工学研究室 角 仁志
勉強会その5    2016/6/15 マルチコア/マルチプロセッサ キャッシュコヒーレンス 10 8分35秒.
11. マルチスレッド・プロセッサ 五島 正裕.
#6 性能向上、ブレイクスルー、集中と分散 Yutaka Yasuda.
コンピュータの歴史 〜計算速度の進歩〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
10. マルチスレッド・プロセッサ 五島 正裕.
ARMとIoT 株式会社アプライド・マーケティング 大越 章司
情報数学5 グループ課題(5/7) 1E16M007-3 伊藤達哉 1E16M002-5 阿部知也 1E14M070-5 南元喜 1E16M069-8 峰晴晃優.
仮想計算機を用いたサーバ統合に おける高速なリブートリカバリ
FPGA 株式会社アプライド・マーケティング 大越 章司
最新 IT トレンド ARM.
航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化
ARM 株式会社アプライド・マーケティング 大越 章司
インターネットの 長時間利用について 考えよう!
コンピュータの仕組み 〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
情報論理工学 研究室 研究テーマ 並列アルゴリズム.
Virtualizing a Multiprocessor Machine on a Network of Computers
ARM、IoT、AI 株式会社アプライド・マーケティング 大越 章司
並列処理プロセッサTPCOREの 組み込みシステムへの応用 理工学研究科数理情報科学専攻 福永 力,岩波智史,情報システム研究室.
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
パイプラインとは何か? マイクロプロセッサ(MPU)の高速化手法の一つのこと。
FPGA 株式会社アプライド・マーケティング 大越 章司
SpectreとMeltdown ITソリューション塾・第27期 2018年3月20日 株式会社アプライド・マーケティング 大越 章司
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
ARM 株式会社アプライド・マーケティング 大越 章司
情報論理工学 研究室 第1回:並列とは.
複数ホストにまたがるVMの 高速かつ柔軟な 部分マイグレーション
アーキテクチャパラメータを利用した並列GCの性能予測
Presentation transcript:

「コアの数なんて どうでもいい」 五島 正裕(東大)

今日の内容 メニー・コアは,実現可能か? No. アーキテクチャは「これからが面白い」か?

メニー・コアは,実現可能か?

メニー・コアの問題点 メニー・コア の 問題点: 主記憶バンド幅の不足 歩留まりの低下

問題点1:主記憶バンド幅の不足 コア数 n のメニー・コア: 主記憶バンド幅は 1/n 解決法: FB-DIMM 直結. 光? 混載 DRAM キャッシュ?

問題点2:歩留まりの低下 コア数 増加 歩留まりの低下 性能の低下 LSI の微細化 ばらつき (variation) 実例: Sony Cell BE SPE x8 を x7 に. Intel® Core™ Solo T1400 (2.33GHz) : Duo T2600 (2.16GHz)

現実的 な 解決法 「切って張る」 × メニー・コア ○ メニー・ダイ (die) 実装技術:SoS/SiS (System on/in Silicon) シリコン・インターポーザ 配線層のみの巨大なシリコン・ダイ 型落ちのプロセスで製造 3次元積層 シリコン貫通電極 マイクロ・バンプ

メニー・ダイ の イメージ プロセッサ SRAM キャッシュ シリコン インターポーザ DRAM セラミック? パッケージ

ダイ内コア数 性能 主記憶バンド幅 /コア コア数:少 > 多 動作周波数 コア数:少 > 多 共有キャッシュの容量効率 コア数:少 < 多 主記憶バンド幅 /コア コア数:少 > 多 動作周波数 コア数:少 > 多 共有キャッシュの容量効率 コア数:少 < 多 コスト ダイ・コスト(歩留まり) コア数:少 > 多 パッケージング・コスト コア数:少 < 多 最適コア数:2~4?

アーキテクチャは, 「これからが面白い」か?

メニー・ダイ の ブロック図 C P C P C P C P C P C P C P C P MM MM

クラスタ型 ccNUMA の ブロック図 C P C P C P C P C P C P C P C P MM MM

比較 C P C P C P C P C P C P C P C P MM MM

マルチコア の コア間通信 「マルチコアになると,コア間通信が高速になる」? 短期的,絶対的には Yes. チップ間通信より,チップ内通信のほうが高速. 数百nsec が 数十nsec に. 長期的,相対的には No. その分,プロセッサも速くなっている. コア間の通信は,いつの時も 数十サイクルかかる.

メニー・ダイ の アーキテクチャ 90年代の「クラスタ型 ccNUMA」と相似(スケーラブル)! 構造,構成 コア間通信レイテンシ 「マルチコア向け アーキテクチャ」は(ほとんど)ない 「クラスタ型 ccNUMA」の アーキテクチャ は やりつくされている 「マルチコア向け アーキテクチャ」は,90年代の焼き直しに!

「VLSI 技術により,できるようになった」 最近のイントロ: 「近年の VLSI 技術の進歩により,1チップ内に複数のコアを搭載したマルチコア・プロセッサが実現可能となった.」 90年代のイントロ: 「近年の VLSI 技術の進歩により,RISC プロセッサを多数接続したMPP が,次世代のスーパコンピュータとして注目されている.」

コアの数なんてどうでもいい 「コアの数なんてどうでもいい」 アーキテクチャにとっては,マルチコアは epoch-making ではない. ということはない. アーキテクチャは,「これからが面白い」か? No. アーキテクチャは,今までも面白く,これからも同様に面白い.

マルチコアは, 誰にとって「面白い」か?

マルチコアは,誰にとって「面白い」か? PRO の人: 並列プログラミング言語, 並列化コンパイラ, 並列プログラム開発環境 の研究者 でも… 彼らは嫌気がさしている. 90年代,やったけど,誰も使ってくれなかった. でもでも… 今度は違うかも

PRO の人にとっては,今度は違う マシン・モデル が安定している ほぼ SMP だと思ってよい アーキテクトは,トポロジを云々しないほうがいい. アーキテクトは,マルチ ISA について考えないほうがいい. アーキテクトは,ヘテロにしないほうがいい. コア数が現実的 128コアくらいまで考えておけばいい デュアル・コア の 普及 が 確定している(?) 「普通の人が,複数コアを持っている」 ユーザ,プログラマが違う.

ユーザ,プログラマ が違う 80~90年代の並列処理研究 ユーザ: HPC 分野の人 ≒ 理学部の人 プログラマ の インセンティブ 低い: 「いいプログラムを書けば,論文が通る」という訳ではない! マルチコア時代 ユーザ: 普通の人 プログラマ: プロ プログラマ の インセンティブ 高い: 「いいプログラムを書けば,儲かる」!

一番大事なこと マルチコアの価格: コア数に比例する(?) Core™ Duo の価格は Core™ Solo の倍. コア数に比例する性能が必要なキラー・アプリケーションが必須! さもないと,みんな シングル・コアしか買わない. 「Core™ 2 Solo が欲しいよね?」 ゲーム以外にあるのか?

ゲームと言えば… Xbox 360: High-Def はきれいです. きれいなことは「善」です. PS3: 買うと思います. 初期ロットは怖いですが. あと100倍くらいの性能は,普通においしくいただけそうです.