Explorations in Symbiosis on two Multithreaded Architectures

Slides:



Advertisements
Similar presentations
G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマン ス測定用のツール 使い方: exe ファイルのパスと作業ディレクトリ指定して実 行するだけ 注意点 : GPU のコード実行後にプログラム終了前に,
Advertisements

P2P 技術を応用した 分散システムの排他制御機構の試作 九州工業大学 情報科学センター 山之上 卓.
VLIW(Very Long Instruction Word)& マルチスレッドプロセッサ (Multi-Thread Processor) Super Scalarのような命令レベル並列処理 Parallel processing with Instruction level like Super.
5 弾力性とその応用.
第2回 プロセス管理 ジョブ、プロセスとは? プロセスの状態遷移 プロセス制御ブロック スケジューリング.
情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹
07. 値予測 五島 正裕.
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
キャッシュヒント自動付加を用いたソフトウェア高速化
クラスタの構成技術と クラスタによる並列処理
07. 値予測 五島 正裕.
ヘテロジニアスマルチコアプロセッサ 環境を対象としたキャッシュシステム 自動生成ツールの開発
Chapter11-4(前半) 加藤健.
データベース構造劣化による OLTP性能低下に関する 一考察
原子核物理学 第3講 原子核の存在範囲と崩壊様式
SAP システムにおける SQL Server 運用ノウハウ
Aided Eyes: Eye Activity Sensing for Daily Life
THE CONTINUOUS IMPROVEMENT MODEL called ADEC
超並列計算研究会 PCクラスタにおける ベンチマークと並列ツールの紹介 廣安 知之 三木 光範 大向 一輝 吉田 純一.
Step-by-Step Guide on How to Start ALICE Analysis
キャッシュ 頻繁にアクセスされるデータを入れておく小規模高速なメモリ 当たる(ヒット)、はずれる(ミスヒット) マッピング(割り付け)
RIKEN software meeting
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
全体ミーティング (6/13) 村田雅之.
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
記 憶 管 理(2) オペレーティングシステム 第10回.
輪講: 詳解TCP/IP ACE B3 suzuk.
無線LANにおけるスループット低下の要因の分析
Tohoku University Kyo Tsukada
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
CONCURRENT PROGRAMMING
Progressive User Profiling in Recommendation Systems
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
学習管理ファイル画面 P-1 ・学習機能の仕組み 「OF9X」の検索例(メイン画面での検索時)の流れ
サーバ負荷分散におけるOpenFlowを用いた省電力法
過負荷時のWebアプリケーションの 性能劣化を改善する Page-level Queue Scheduling
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
進捗 Javaバイトコード変換による 細粒度CPU資源管理
過負荷時の分散ソフトウェアの 性能劣化を改善する スケジューリングの提案
P4-21 ネットワーク上の経路に対する 回帰問題について
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
アドバンスト コンピュータ アーキテクチャ RISC と 命令パイプライン
非レイテンシ指向 レジスタ・キャッシュ・システム
11. マルチスレッド・プロセッサ 五島 正裕.
マルチスレッド処理 マルチプロセス処理について
最適化の方法 中田育男著 コンパイラの構成と最適化 朝倉書店, 1999年 第11章.
Java Virtual Machine 高速化のためのbyte code 解析 An analysis of byte code to improve the performance of Java Virtual Machine 鈴木タカハル 谷研究室 Feb, 2003.
10. マルチスレッド・プロセッサ 五島 正裕.
Advanced Computer Architecture
Andrew Brzezinski, Gil Zussman, and Eytan Modiano
実行時情報に基づく OSカーネルのコンフィグ最小化
Advanced Computer Architecture
Anja von Heydebreck et al. 発表:上嶋裕樹
通信機構合わせた最適化をおこなう並列化ンパイラ
Exchange Server 2010 Outlook 階層型アドレス帳 活用術 展開 ~ トラブルシュートまで
東京工業大学 情報理工学研究科 数理・計算科学専攻 千葉研究室 栗田 亮
メモリ投機を支援する CMPキャッシュコヒーレンスプロトコルの検討
Diffservにおける 絶対的な品質保証法
進捗報告 金田憲二.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
全体ミーティング (5/23) 村田雅之.
For Master’s Students 修士学生
OSI7層に関係する機器、仕様、機能など 物理層 データリンク層 ネットワーク層 トランスポート層 セッション層 プレゼンテーション層
Mondriaan Memory Protection の調査
Cluster EG Face To Face meeting
7月13日の演習問題・解答例 について ネットワーク長が 18、22、26、28 の場合の
Apply sound transmission to soundproofing
全体ミーティング(9/15) 村田雅之.
<PC48> エゾマツ・トドマツ稚樹群の動態に 環境条件が与える影響
Presentation transcript:

Explorations in Symbiosis on two Multithreaded Architectures 輪講担当:上嶋 裕樹(16001) uejima@is.s.u-tokyo.ac.jp

概要 複数のアプリケーションをマルチスレッド計算機で並行に実行したときのスループット増加をsymbiosisと定義して探求した。 その性質の考察 実験結果 Tera MTA SMT machine (via simulation)

symbiosisの定義 Throughput rate Symbiosis TM is a measure of how good symbiosis could possibly be. If TR=TM, symbiosis is 1. Symbiosis is between 0 and 1, or arbitrarily negative.

symbiosisの性質 複数の資源を独立に並行にスケジュールし,互いのlatencyをカバーしあうことによる。 プログラムの資源の要求がどれくらい相補的か。 共有資源で助け合うことによりsymbiosisが1より大きくなる例(実験では扱っていない) データのprepageをする キャッシュを埋める

使用したbenchmark 5つのNAS 2.3 Parallel Benchmark kernel Conjugate Gradient Embarrassingly Parallel Fourier Transform Integer Sort Multigrid grind section: benchmarkが計測している部分(←→initialization section) phantom: プログラムによって使われていないissue slot

Tera MTAでのSymbiosisの測定 5つのNAS 2.3 Parallel Benchmark kernelの15通りの組み合わせ。(同じもの同士もあり) MTAのコンパイラーで自動的に並列化。 メモリーの参照頻度が重要である。

Symbiosis of Vanilla Class W NPB on MTA

Symbiosis of Tuned Class W NPB on MTA

Symbiosis of Tuned “long run” NPB on MTA

Tera MTA実験結果 tuningをして(ILPを高めて)phantomを少なくすると,symbiosisは全般的に低下した。 grind sectionの割合を長くすると,symbiosisはさらに低下した。 parallel sectionとserial sectionの重なっている部分でのsymbiosisの影響が小さくなったため。 高いphantomの割合,低いメモリー参照頻度,長いinitialization sectionで高いsymbiosis。

SMTでのSymbiosisの測定 5つのNAS 2.3 Parallel Benchmark kernelの15通りの組み合わせ。(同じもの同士もあり) 各ベンチマークはシングルスレッド。(マルチスレッドは今後の課題) キャッシュはdirect-mappedの場合と2-way set associativeの場合で行った。 (MTAの場合と異なり)キャッシュ内のデータ再利用パターンが重要になってくるかもしれない。

Symbiosis of Vanilla Class W NPB on SMT (2 way assoc. I-cache)

SMTの実験結果 CG+CG: 2-way assoc. キャッシュのヒット率が上がったが,floating-point queueがボトルネックに。 IS+IS: integer registerがボトルネックに。 MG: キャッシュのヒット率も上がらず,floating-point registerがボトルネックに。 EP: ILPが低いため,大変よいsymbiosisを示す。 CG+MG: floating-point registerがボトルネックに。 FT+MG: floating-point register, floating-point issue slotがボトルネック。 ILP = Instruction Level Prallelism ISは他のfloating-point intensiveなものとのSymbiosisが高い。

まとめと今後の課題 マルチスレッド計算機での複数プログラムの同時実行で,symbiosisがあることが示せた。 symbiosisに従ったバッチスケジューリングができれば,マルチスレッド計算機でsuperlinearなthroughputを実現できるかもしれない。 parallel section同士,またはparallel sectionとserial sectionが重なっている部分でのsymbiosisを正確に特徴付けたい。 throughputとsymbiosisは短い時間間隔で計算できるような定義になっている。

参考文献 A. Snavely, N. Mitchell, L. Carter, J. Ferrante and D. Tullsen, “Explorations in Symbiosis on two Multithreaded Architectures”, Proc. MTEAC 99, Jan. 1999.