Explorations in Symbiosis on two Multithreaded Architectures

Slides:

Advertisements

Similar presentations

G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマンス測定用のツール使い方： exe ファイルのパスと作業ディレクトリ指定して実行するだけ注意点 : GPU のコード実行後にプログラム終了前に,

Advertisements

P2P 技術を応用した分散システムの排他制御機構の試作九州工業大学情報科学センター山之上卓.

VLIW（Very Long Instruction Word）& マルチスレッドプロセッサ（Multi-Thread Processor） Super Scalarのような命令レベル並列処理 Parallel processing with Instruction level like Super.

5 弾力性とその応用.

第2回　プロセス管理ジョブ、プロセスとは？プロセスの状態遷移プロセス制御ブロックスケジューリング.

情報理工学系研究科コンピュータ科学専攻上嶋裕樹

07. 値予測五島正裕.

キャッシュ付ＰＲＡＭ上の並列クィックソートと並列マージソート

キャッシュヒント自動付加を用いたソフトウェア高速化

クラスタの構成技術とクラスタによる並列処理

07. 値予測五島正裕.

ヘテロジニアスマルチコアプロセッサ環境を対象としたキャッシュシステム自動生成ツールの開発

Chapter11-4(前半) 加藤健.

データベース構造劣化による OLTP性能低下に関する一考察

原子核物理学第３講原子核の存在範囲と崩壊様式

SAP システムにおける SQL Server 運用ノウハウ

Aided Eyes: Eye Activity Sensing for Daily Life

THE CONTINUOUS IMPROVEMENT MODEL called ADEC

超並列計算研究会 PCクラスタにおけるベンチマークと並列ツールの紹介廣安知之三木光範大向一輝吉田純一.

Step-by-Step Guide on How to Start ALICE Analysis

キャッシュ頻繁にアクセスされるデータを入れておく小規模高速なメモリ当たる(ヒット）、はずれる（ミスヒット）マッピング（割り付け）

RIKEN software meeting

仮想マシンの並列処理性能に対するCPU割り当ての影響の評価

全体ミーティング (6/13) 村田雅之.

分散遺伝的アルゴリズムによる各種クラスタのベンチマーク

記憶管理（２）オペレーティングシステム第10回.

輪講：詳解TCP/IP ACE B3 suzuk.

無線LANにおけるスループット低下の要因の分析

Tohoku University Kyo Tsukada

メソッド名とその周辺の識別子の相関ルールに基づくメソッド名変更支援手法

CONCURRENT PROGRAMMING

Progressive User Profiling in Recommendation Systems

ー第1日目ー確率過程について抵抗の熱雑音の測定実験

学習管理ファイル画面 P-1 ・学習機能の仕組み「ＯＦ９Ｘ」の検索例（ﾒｲﾝ画面での検索時）の流れ

サーバ負荷分散におけるOpenFlowを用いた省電力法

過負荷時のWebアプリケーションの性能劣化を改善する Page-level Queue Scheduling

文献名 “Performance Tuning of a CFD Code on the Earth Simulator”

進捗 Javaバイトコード変換による細粒度CPU資源管理

過負荷時の分散ソフトウェアの性能劣化を改善するスケジューリングの提案

P4-21 ネットワーク上の経路に対する回帰問題について

コードクローンに含まれるメソッド呼び出しの変更度合の調査

アドバンストコンピュータアーキテクチャ RISC と命令パイプライン

非レイテンシ指向レジスタ・キャッシュ・システム

11. マルチスレッド・プロセッサ五島正裕.

マルチスレッド処理マルチプロセス処理について

最適化の方法中田育男著コンパイラの構成と最適化朝倉書店, 1999年第１１章.

Java Virtual Machine 高速化のためのbyte code 解析 An analysis of byte code to improve the performance of Java Virtual Machine 鈴木タカハル谷研究室 Feb, 2003.

10. マルチスレッド・プロセッサ五島正裕.

Advanced Computer Architecture

Andrew Brzezinski, Gil Zussman, and Eytan Modiano

実行時情報に基づく OSカーネルのコンフィグ最小化

Advanced Computer Architecture

Anja von Heydebreck et al. 発表：上嶋裕樹

通信機構合わせた最適化をおこなう並列化ンパイラ

Exchange Server 2010 Outlook 階層型アドレス帳活用術展開～トラブルシュートまで

東京工業大学情報理工学研究科数理・計算科学専攻千葉研究室栗田亮

メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討

Diffservにおける絶対的な品質保証法

進捗報告金田憲二.

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

全体ミーティング (5/23) 村田雅之.

For Master’s Students 修士学生

OSI7層に関係する機器、仕様、機能など物理層データリンク層ネットワーク層トランスポート層セッション層プレゼンテーション層

Mondriaan Memory Protection の調査

Cluster EG Face To Face meeting

７月１３日の演習問題・解答例についてネットワーク長が 18、22、26、28 の場合の

Apply sound transmission to soundproofing

全体ミーティング(9/15) 村田雅之.

<PC48> エゾマツ・トドマツ稚樹群の動態に環境条件が与える影響

Presentation transcript:

Explorations in Symbiosis on two Multithreaded Architectures 輪講担当：上嶋　裕樹(16001) uejima@is.s.u-tokyo.ac.jp

概要複数のアプリケーションをマルチスレッド計算機で並行に実行したときのスループット増加をsymbiosisと定義して探求した。その性質の考察実験結果 Tera MTA SMT machine (via simulation)

symbiosisの定義 Throughput rate Symbiosis TM is a measure of how good symbiosis could possibly be. If TR=TM, symbiosis is 1. Symbiosis is between 0 and 1, or arbitrarily negative.

symbiosisの性質複数の資源を独立に並行にスケジュールし，互いのlatencyをカバーしあうことによる。プログラムの資源の要求がどれくらい相補的か。共有資源で助け合うことによりsymbiosisが1より大きくなる例(実験では扱っていない) データのprepageをするキャッシュを埋める

使用したbenchmark 5つのNAS 2.3 Parallel Benchmark kernel Conjugate Gradient Embarrassingly Parallel Fourier Transform Integer Sort Multigrid grind section: benchmarkが計測している部分(←→initialization section) phantom: プログラムによって使われていないissue slot

Tera MTAでのSymbiosisの測定 5つのNAS 2.3 Parallel Benchmark kernelの15通りの組み合わせ。(同じもの同士もあり) MTAのコンパイラーで自動的に並列化。メモリーの参照頻度が重要である。

Symbiosis of Vanilla Class W NPB on MTA

Symbiosis of Tuned Class W NPB on MTA

Symbiosis of Tuned “long run” NPB on MTA

Tera MTA実験結果 tuningをして(ILPを高めて)phantomを少なくすると，symbiosisは全般的に低下した。 grind sectionの割合を長くすると，symbiosisはさらに低下した。 parallel sectionとserial sectionの重なっている部分でのsymbiosisの影響が小さくなったため。高いphantomの割合，低いメモリー参照頻度，長いinitialization sectionで高いsymbiosis。

SMTでのSymbiosisの測定 5つのNAS 2.3 Parallel Benchmark kernelの15通りの組み合わせ。(同じもの同士もあり) 各ベンチマークはシングルスレッド。(マルチスレッドは今後の課題) キャッシュはdirect-mappedの場合と2-way set associativeの場合で行った。 (MTAの場合と異なり)キャッシュ内のデータ再利用パターンが重要になってくるかもしれない。

Symbiosis of Vanilla Class W NPB on SMT (2 way assoc. I-cache)

SMTの実験結果 CG+CG: 2-way assoc. キャッシュのヒット率が上がったが，floating-point queueがボトルネックに。 IS+IS: integer registerがボトルネックに。 MG: キャッシュのヒット率も上がらず，floating-point registerがボトルネックに。 EP: ILPが低いため，大変よいsymbiosisを示す。 CG+MG: floating-point registerがボトルネックに。 FT+MG: floating-point register, floating-point issue slotがボトルネック。 ILP = Instruction Level Prallelism ISは他のfloating-point intensiveなものとのSymbiosisが高い。

まとめと今後の課題マルチスレッド計算機での複数プログラムの同時実行で，symbiosisがあることが示せた。 symbiosisに従ったバッチスケジューリングができれば，マルチスレッド計算機でsuperlinearなthroughputを実現できるかもしれない。 parallel section同士，またはparallel sectionとserial sectionが重なっている部分でのsymbiosisを正確に特徴付けたい。 throughputとsymbiosisは短い時間間隔で計算できるような定義になっている。

参考文献 A. Snavely, N. Mitchell, L. Carter, J. Ferrante and D. Tullsen, “Explorations in Symbiosis on two Multithreaded Architectures”, Proc. MTEAC 99, Jan. 1999.