情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹

Slides:



Advertisements
Similar presentations
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Advertisements

Windows HPC Server を使ってみる
グローバルコンピューティング環境における遺伝的アルゴリズムの検討
第3回 並列計算機のアーキテクチャと 並列処理の実際
第2回 プロセス管理 ジョブ、プロセスとは? プロセスの状態遷移 プロセス制御ブロック スケジューリング.
Webプロキシサーバにおける 動的資源管理方式の提案と実装
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
メモリコンシステンシモデル memory consistency model
クラスタの構成技術と クラスタによる並列処理
07. 値予測 五島 正裕.
ヘテロジニアスマルチコアプロセッサ 環境を対象としたキャッシュシステム 自動生成ツールの開発
Chapter11-4(前半) 加藤健.
セキュリティ機構のオフロードを考慮した仮想マシンへの動的メモリ割当
Capter9 Creating an Embedded Test Bench ( )
Orbifold Family Unification in SO(2N) Gauge Theory
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
クラスタコンピューティングの 並列環境と性能
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
報告 (2006/9/6) 高橋 慧.
Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ
オペレーティングシステムJ/K 2004年10月7日
ネットワーク構成法 スケール 第6回 11月19日.
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
Explorations in Symbiosis on two Multithreaded Architectures
記 憶 管 理(2) オペレーティングシステム 第10回.
高性能コンピューティング論2 第1回 ガイダンス
LogStructuredFileSystem Servey
Ibaraki Univ. Dept of Electrical & Electronic Eng.
第5回 CPUの役割と仕組み3 割り込み、パイプライン、並列処理
VLSI設計論 慶應義塾大学 理工学部 情報工学科 山﨑 信行
モバイルP2Pを用いた携帯電話 動画配信手法の提案 第3回
サーバ負荷分散におけるOpenFlowを用いた省電力法
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
京都大学大学院医学研究科 画像応用治療学・放射線腫瘍学 石原 佳知
Occam言語による マルチプリエンプティブシステムの 実装と検証
SpectreとMeltdown ITソリューション塾・第28期 2018年5月30日 株式会社アプライド・マーケティング 大越 章司
これからが面白いプロセッサアーキテクチャ
アドバンスト コンピュータ アーキテクチャ 五島.
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
Lazy Release Consistency
高速剰余算アルゴリズムとそのハードウェア実装についての研究
全体ミーティング 金田憲二.
11. マルチスレッド・プロセッサ 五島 正裕.
10. マルチスレッド・プロセッサ 五島 正裕.
Advanced Computer Architecture
循環式に関して より微粒化が求められる昨今、ビーズミルを複数回通過させる粉砕、分散処理が多くなっている。
オペレーティングシステム イントロダクション
Ibaraki Univ. Dept of Electrical & Electronic Eng.
動的データ依存関係解析を用いた Javaプログラムスライス手法
メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討
コンピュータの仕組み 〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
第5回 メモリ管理(2) オーバレイ方式 論理アドレスとプログラムの再配置 静的再配置と動的再配置 仮想記憶とメモリ階層 セグメンテーション
坂井 修一 東京大学 大学院 情報理工学系研究科 電子情報学専攻 東京大学 工学部 電気工学科
Ibaraki Univ. Dept of Electrical & Electronic Eng.
コンピュータアーキテクチャ 第 9 回.
マイグレーションを支援する分散集合オブジェクト
福岡工業大学 情報工学部 情報工学科 種田研究室 于 聡
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
「マイグレーションを支援する分散集合オブジェクト」
Mondriaan Memory Protection の調査
BSPモデルを用いた 並列計算の有用性の検証
理工学部情報学科 情報論理工学研究室 延山 周平
SpectreとMeltdown ITソリューション塾・第27期 2018年3月20日 株式会社アプライド・マーケティング 大越 章司
コンピュータアーキテクチャ 第 9 回.
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
BSPモデルを用いた 最小スパニング木 情報論理工学研究室 02-1-47-134 小林洋亮.
アーキテクチャパラメータを利用した並列GCの性能予測
情報システム基盤学基礎1 コンピュータアーキテクチャ編
Presentation transcript:

情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹 uejima@is.s.u-tokyo.ac.jp Exploring the Benefits of Multiple Hardware Contexts in a Multiprocessor Architecture: Preliminary Results 情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹 uejima@is.s.u-tokyo.ac.jp

概要 multiple hardware contextsにより, メモリー操作の高いlatencyの悪影響を抑えることが出来るかの探求。 効果はアプリケーションの性質,context switch overhead,latencyに依存する。 context switch overheadが小さいとき,2, 4 contextsで1 contextより効果があった。

アーキテクチャ(1/2)

アーキテクチャ(2/2) direct-map方式でline size 16 bytesのキャッシュ・メモリーは64 Kbytes。 context switchの基準 キャッシュ・ミスの発生 共有読み込みデータへの書き込みの発生 contextはround-robin schedulingで選択。

アプリケーション LocusRoute (standard cellのglobal router): 荒い粒度のタスク,細かい粒度のデータ構造共有。 MP3D (3次元の粒子シミュレーション): 並列のための分散ループを使った,典型的な科学計算。 P-Thor (並列論理シミュレーション): Chandy-Misraの分散シミュレーションアルゴリズム。

予備実験の結果 Application Run Length Read Latency Write Latency MP3D 16 (16) 32 (44) 42 (57) P-Thor 50 (50) 25 (33) 55 (72) Locus Route 156 (154) 22 (29) 99 (128) 4プロセッサで,各プロセッサに1 context ネットワーク遅延が1の場合(5の場合)

いくつかの論点 contextはいくつがいいか? context switch overheadの影響は? ネットワーク遅延の影響は? キャッシュ干渉の影響は? いつcontext switchをするべきか? アプリケーションによってパフォーマンスはどう変わるか? processor efficiency: 全cycle数のうち,意味のある仕事に費やされたcycle数の割合。

Contextの数 contextを増やすことによって得られる利益は,contextの数が大きくなると少なくなる。 contextが少ない方がハードウェアを簡単化でき,overheadも小さくできる。 overheadが大きい場合にcontextを増やすと,かえってパフォーマンスが落ちる。(キャッシュ干渉のため) 数contextで十分効果をあげることができる。

Context switch overhead overheadが大きくなるとmultiple contextsによる効果が少なくなる。 overheadは数cycleのオーダーにしておくことが望ましい。

ネットワークのlatency 複数のcontextを設けることにより,ネットワークのlatencyの悪影響を少なくすることができる。 ネットワークのlatencyはアーキテクチャ(crossbar switch, grid network)や プロセッサの数に依存する。

キャッシュの干渉 複数のcontextが1つのキャッシュを使うことによる正の干渉,負の干渉。 複数contextを持つプロセッサのキャッシュが少なすぎると,極端にパフォーマンスが落ちることがある。(P-Thor, 4 contexts, cache size 16Kbytes)

Context switchのタイミング switchのoverheadがlatencyより小さいときにswitchするのが理想。 watchdog counterによるswitch

アプリケーションによる違い MP3D (Global traffic 大): contextを増やすことによる効果が大きい。ただしキャッシュ干渉も大きいのでネットワーク遅延の悪影響を受けやすい。 P-Thor (Global traffic 中): 複数contextによる効果があり,latencyの増加による影響も受けにくくなる。 LocusRoute (Global traffic 小): キャッシュも効いているのでcontextを増やすことによる効果が小さい。

他のプロセッサの multiple hardware contexts Alto: time criticalな入出力処理を行えるように。 HEP: latencyを克服できているが,最低8プロセスでパイプラインを満たす必要がある。 Hybrid data-flow/von Neumann machine: registerがcontext switchの際に保存されない。多くのcontextを保持する。次にどのcontextを実行するかの決定が複雑。 MASA: 1つのプロセスについて,前の命令が完了しない限り次の命令を発行できない。

議論 multiple contextsの意義は? multiple contextsをどう実装すべきか? 高価なプロセッサとlatencyの大きいネットワークを複数のcontextで共有する。 multiple contextsをどう実装すべきか? 1つのchipにするより複数chipにした方がいい。 ある1つのプロセッサに対してどのプロセスを割り当てるか? 重要な問題である。

結論(1/2) 1 contextのプロセッサと比べると,一定の少数のcontextでも十分大きな効果を上げることがでる。 以下の状況で最良の効果をあげる。 読み書きのlatencyが大きい。(大規模なmultiprocessor) context switch overheadが小さい。(contextの数が固定で少なく,context switchの基準が単純) multiple contextsによるキャッシュ干渉が少ない。(大きなキャッシュ)

結論(2/2) context switchの仕組みがsubtask管理の仕組みと分離している。 単純で高速なハードウェアを実現。 高い柔軟性を持ち,アプリケーションに依存したパフォーマンスのチューニングが可能。

参考文献 W.-D. Weber and A. Gupta, “Exploring the Benefits of Multiple Hardware Contexts in a Multiprocessor Architecture: Preliminary Results,” Proc. 16th Int. Symp. on Computer Architecture, pp. 273-280, 1989.