演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

Slides:

Advertisements

Similar presentations

CPU/GPUを協調利用するソフトウェア開発環境

Advertisements

シーケンス図の生成のための実行履歴圧縮手法

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

ヘテロジニアスマルチコアプロセッサ環境を対象としたキャッシュシステム自動生成ツールの開発

ノーマリ「オフ」と「オン」九州大学　井上こうじ（ただのお友達）.

最新ファイルの提供を保証する代理FTPサーバの開発

セキュリティ機構のオフロードを考慮した仮想マシンへの動的メモリ割当

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上

クラウドにおけるネストした仮想化を用いた安全な帯域外リモート管理

計算機システムⅡ 主記憶装置とALU，レジスタの制御

全体ミーティング (4/25) 村田雅之.

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

フィードバック制御に基づく定在波型熱音響エンジンにおける自励発振条件の特徴付け

神奈川大学大学院工学研究科電気電子情報工学専攻

仮想マシンの並列処理性能に対するCPU割り当ての影響の評価

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

記憶管理（２）オペレーティングシステム第10回.

オペレーティングシステム第12回仮想記憶管理(3)

高性能コンピューティング論２第１回ガイダンス

ネストした仮想化を用いた VMの安全な帯域外リモート管理

リファクタリングのための変更波及解析を利用したテスト支援ツールの提案

2016年度プログラミングⅠ ～内部構造と動作の仕組み（１）～.

専門演習Ⅰ 国際経済学部国際産業情報学科 2年石川愛

アスペクト指向プログラミングを用いたIDSオフロード

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

プログラム実行履歴を用いたトランザクションファンクション抽出手法

過負荷時の分散ソフトウェアの性能劣化を改善するスケジューリングの提案

静的情報と動的情報を用いたプログラムスライス計算法

高速剰余算アルゴリズムとそのハードウェア実装についての研究

オブジェクト指向プログラムにおけるエイリアス解析手法の提案と実現

VM専用仮想メモリとの連携による VMマイグレーションの高速化

IaaS型クラウドにおけるインスタンス構成の動的最適化手法

リモートホストの異常を検知するための GPUとの直接通信機構

実行時情報に基づく OSカーネルのコンフィグ最小化

仮想メモリを用いた VMマイグレーションの高速化

複数ホストに分割されたメモリを用いる仮想マシンの監視機構

巡回冗長検査CRC３２のハード/ソフト最適分割の検討

オペレーティングシステムJ/K (仮想記憶管理)

「コアの数なんてどうでもいい」五島正裕（東大）.

通信機構合わせた最適化をおこなう並列化ンパイラ

SPE Observer: Cell/B.E.のSPEを用いたOS監視システム

Cell/B.E.のSPEを利用した安全なOS監視システム

先進的計算基盤システムシンポジウム SACSIS2007併設企画マルチコアプログラミングコンテスト「Cellスピードチャレンジ2007」

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

Intel SGXを用いた仮想マシンの安全な監視機構

軽量な仮想マシンを用いたIoT機器の安全な監視

複数ホストにまたがって動作する仮想マシンの障害対策

VMMのソフトウェア若化を考慮したクラスタ性能の比較

目的：高速QR分解ルーチンのGPUクラスタ実装

コンピュータの仕組み〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀

VMが利用可能なCPU数の変化に対応した並列アプリケーション実行の最適化

コードクローン分類の詳細化に基づく集約パターンの提案と評価

Cell/B.E.のSPE Isolationモードを用いた監視システム

2010年度情報科学序論～内部構造と動作の仕組み（２）～.

第5回メモリ管理（２）オーバレイ方式論理アドレスとプログラムの再配置静的再配置と動的再配置仮想記憶とメモリ階層セグメンテーション

第４回　メモリ管理主記憶（メインメモリ）の管理固定区画方式と可変区画方式空き領域の管理スワッピング.

2017年度プログラミングⅠ ～内部構造と動作の仕組み（１）～.

設計情報の再利用を目的とした UML図の自動推薦ツール

Cell/B.E. のSPE上で動作する安全なOS監視システム

VMリダイレクト攻撃を防ぐための安全なリモート管理機構

メソッドの同時更新履歴を用いたクラスの機能別分類法

Cソースコード解析によるハード／ソフト最適分割システムの構築

エイリアス関係を考慮した Javaプログラム用静的スライシングツール

プログラムの一時停止時に将来の実行情報を提供するデバッガ

IPmigrate：複数ホストに分割されたVMのマイグレーション手法

2014年度プログラミングⅠ ～内部構造と動作の仕組み（１）～.

複数ホストにまたがるVMの高速かつ柔軟な部分マイグレーション

2008年度情報科学序論～内部構造と動作の仕組み（２）～.

情報システム基盤学基礎１コンピュータアーキテクチャ編

Presentation transcript:

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法 ○福本尚人, 井上弘士，村上和彰九州大学

マルチコア・プロセッサ 1チップに複数のプロセッサコアを搭載複数コアによる並列処理により高性能化性能だけでなく、消費エネルギーも重要並列プログラム Core i7 (Intel) Core i7 (Intel) Cell/B.E.(ソニー/東芝/IBM) IBM:http://domino.research.ibm.com/comm/research_projects.nsf/pages/multicore.CellBE.html http://ascii.jp/elem/000/000/124/124281/img.html

マルチコアにおけるメモリウォール問題 × メモリ性能によるトータル性能の抑制 ○ 大きな主記憶アクセスレイテンシオフチップメモリバンド幅の不足プログラム：Barnes 256KB private memory Ideal memory プログラム：Cholesky 256KB private memory Ideal memory ○ Idealとの差が小さい × コア数に見合う性能が得られない

提案手法の狙い用途に応じてコアを使い分けコア同士で協調実行メインコア：並列プログラム実行用ヘルパーコア：メモリ性能向上用演算性能とメモリ性能のバランシングプログラム: Cholesky Ideal memory メインコア 6並列実行＋2サポート実行ヘルパーコアコア本研究のねらい 256KB private memory 従来の8並列実行本手法を実装し、評価した結果、最大、46%の実行時間、32%の消費エネルギーを削減ハードウェアコストなし

発表手順マルチコアにおけるメモリウォール問題演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法評価基本アイディア詳細な実装（ソースコードの自動変換）貸与メモリのデータ割当て決定ヘルパーコア数決定評価まとめと今後の課題

対象マルチコア・プロセッサ並列プログラムチップコア SPM オンチップ接続ソフトウェア制御オンチップメモリ主記憶

メモリ性能改善効果＞演算性能低下効果となるようにヘルパーコア数を決定マルチコア向けオンチップメモリ貸与法メインコア並列プログラムを実行ヘルパーコアメインコアに自身のメモリを提供（階層メモリとして活用される）アイドルヘルパーコアを増やすと ○メモリ性能が向上 ○消費電力が減少 ×演算性能が低下並列プログラムメインコアヘルパーコア Idle コア SPM オンチップ接続ロード　　主記憶メモリ性能改善効果＞演算性能低下効果となるようにヘルパーコア数を決定

プログラムの特徴に応じたコアの使い分けプログラムの特徴に応じて適切なコアの配分を決定オンチップ接続オンチップ接続プログラム: Barnes 256KB private memory Ideal memory プログラム: Cholesky Ideal memory 256KB private memory コア SPM オンチップ接続全てメインコアコア SPM オンチップ接続メインコア数3 ヘルパーコア数1 SPM ○メモリ性能向上による性能向上大 ○演算性能低下による性能低下小 ○コアの消費電力の削減 ○従来の全コア実行により高性能化プログラムの特徴に応じて適切なコアの配分を決定

発表手順マルチコアにおけるメモリウォール問題演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法評価基本アイディア詳細な実装（ソースコードの自動変換）貸与メモリのデータ割当て決定ヘルパーコア数決定評価まとめと今後の課題

提案手法の適用手順コア数1で事前実行 DMA転送トレース逐次処理時間の割合・・・入力プロファイル情報事前実行並列化ソースコード事前実行プロファイル情報メインコアソースコードヘルパーコアソースコード貸与メモリのデータ割当て決定コア配分決定貸与メモリデータ割当てコア配分入力ソースコード生成ハードウェア情報コア数1で事前実行 DMA転送トレース逐次処理時間の割合・・・

貸与メモリのデータ割当て決定法目標：メインコアの主記憶アクセス回数が最小となる貸与メモリのデータ割当ての算出決定手順プロファイル情報を元に各データごとのアクセス回数を集計アクセス回数の多い順にデータを貸与メモリへ配置プロファイル情報貸与メモリデータ割当て 1.アクセス回数の集計 2.保持するデータの選択 DMA転送トレース

ヘルパーコア数決定法目標: 最も高性能となるヘルパーコア数の算出決定手順性能モデルにプロファイル情報を代入することで全てのコア配分の実行時間を予測最も実行時間の短いコア配分を選択 DMA転送に関する情報搭載コア数・・・ハードウェア情報予測実行時間コア配分プロファイル情報性能予測実行時間の比較逐次実行時間の割合　　　　　　　・・・

メモリ貸与法適用時にプログラマが行う作業元ソースコードの並列実行部の前後に目印の挿入スレッド生成部の修正他は全て自動で適用されるプロファイル情報取得用の関数の挿入主記憶アクセス数最小となる割当て決定性能モデルによる実行時間の予測アドレス変換処理の挿入実行コア数の変更貸与メモリのデータ入替え

発表手順マルチコアにおけるメモリウォール問題演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法評価基本アイディア詳細な実装（ソースコードの自動変換）貸与メモリのデータ割当て決定ヘルパーコア数決定評価まとめと今後の課題

評価環境 Cell/B.E.の実機（Cell reference set）で評価実行プログラム SPEの実行時間を計測 HIMENO, LU (SPLASH-2), FFT (CellSDK), Matrix_mul (CellSDK) SPEの実行時間を計測 7個のSPEに対して、オンチップメモリ貸与法を適用適切なコアの配分の算出法性能モデルを用いて予測　(PB-PREDICT) 事前実行を全パタン行い予測　(PB-MEASURE) 【最適な配分】

実行時間メインコア数6 ヘルパーコア数1 1 1 3 3 1 1 2 2 1 1 最大で46%の実行時間の削減

実行時間主記憶アクセス削減によるストール時間の削減 > 従来実行が最も性能が高いと予測した場合メインコア数6 ヘルパーコア数1 1 1 3 3 1 1 2 2 1 1 主記憶アクセス削減によるストール時間の削減　> メインコア減少による演算時間増加+アドレス変換時間増加従来実行が最も性能が高いと予測した場合

実行時間ヘルパーコア数を正しく予測できていないが、最適なヘルパーコア数を予測することで性能向上従来実行と比較して性能は低下していないメインコア数6 ヘルパーコア数1 1 1 3 3 1 1 2 2 1 1 ヘルパーコア数を正しく予測できていないが、従来実行と比較して性能は低下していない最適なヘルパーコア数を予測することで性能向上

実行時間メインコア数6 ヘルパーコア数1 1 1 3 3 1 1 2 2 1 1 最大で46%の実行時間の削減

消費エネルギー評価方法消費エネルギーモデルを用いて評価 SPU, LS, 主記憶の動的消費エネルギーメモリ貸与法の適用により、　　：非ストール時の消費電力　　：ストール時の消費電力　　：非ストール時の実行時間　　：ストール時間　　　　　　　　　とする（α=0～1）ヘルパーコアの　　　は読込み完了までの時間とする消費電力*実行時間アクセス回数*アクセス当たりの消費エネルギーメモリ貸与法の適用により、動作コア数減少、ストール時間削減→SPUの消費エネルギー削減　　（ストール時の消費電力が大きいほど、削減効果大）主記憶アクセスがLS間転送へ→DMA転送の消費エネルギー削減

αに対する消費エネルギーの変化 (α: ストール時の消費電力の割合/通常実行時の消費電力) αに対する消費エネルギーの変化 (α: ストール時の消費電力の割合/通常実行時の消費電力) 性能向上が大きいプログラムではαに対する変化が大きいヘルパーコア実行ならびにアドレス変換による処理の増加＞DMA転送のエネルギー削減 α=1のとき、最大52%の消費エネルギー削減 α=0のとき、最大12%の消費エネルギー削減

消費エネルギー (α=0.4) 最大で32%の消費エネルギーの削減実行コア数減少、実行時間削減→SPUの消費エネルギー削減 1 1 1 1 3 3 2 2 1 1 実行コア数減少、実行時間削減→SPUの消費エネルギー削減主記憶アクセスがLS間転送に置き換え→DMA転送の消費エネルギー削減最大で32%の消費エネルギーの削減

まとめと今後の課題プログラムの特徴に応じて演算性能とメモリ性能のバランスをとるマルチコア向けオンチップメモリ貸与法今後の課題適切なヘルパーコア数と貸与メモリのデータ割当てを決定自動ソースコード変換により実装最大で、46%の実行時間の削減と32%の消費エネルギーの削減を達成今後の課題詳細な消費エネルギー評価コア、オンチップメモリ、主記憶のエネルギー比を変更消費エネルギーを考慮したヘルパーコア数決定法の考案

Backup slides

主記憶アクセス削減率 1 1 2 2 1 3 3 1 1 1

使用メモリ量

既存研究との比較 3 3 1 1 1 1 1 2 2 1 1