実行時の情報を用いて通信を最適化するコンパイラ

Slides:

Advertisements

Similar presentations

HBSP モデル上での行列積を求めるアルゴリム情報論理工学吉岡健太.

Advertisements

Web アプリをユーザー毎にカスタマイズ可能にする AOP フレームワーク

MPIを用いたグラフの並列計算情報論理工学研究室藤本　涼一.

第3回並列計算機のアーキテクチャと並列処理の実際

連続系アルゴリズム演習第2回 OpenMPによる課題.

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

クラスタの構成技術とクラスタによる並列処理

コンピュータプラクティスＩ再現性水野嘉明

ＰＣクラスタにおける２個体分散遺伝的アルゴリズムの高速化

DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価

キャンパスクラウドによる実験環境の構築情報ネットワーク特論講義資料.

分散遺伝的アルゴリズムによる各種クラスタのベンチマーク

侵入検知システム（IDS）停止 IDS サーバへの不正アクセスが増加している

プログラミング演習Ⅰ 課題2 10進数と2進数 2回目.

第５回 CPUの役割と仕組み３割り込み、パイプライン、並列処理

ネットワーク性能評価.

データベース設計第９回 Webインタフェースの作成（１）

Flyingware : バイトコード変換による安全なエージェントの実行

サーバ負荷分散におけるOpenFlowを用いた省電力法

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

京都大学大学院医学研究科画像応用治療学・放射線腫瘍学石原佳知

計算物理学基礎第１回ＵＮＩＸの基礎Ｃ言語の基本.

型付きアセンブリ言語を用いた安全なカーネル拡張

ネットワークプログラミング中村　修.

IPv6 ネットワークにおけるエニーキャスト通信実現のためのプロトコル設計と実装

OpenMPハードウェア動作合成システムの検証(Ⅰ)

ネットワークアプリケーションとセキュリティ

特定ユーザーのみが利用可能な仮想プライベート・ネットワーク

XenによるゲストOSの監視に基づくパケットフィルタリング

分散IDSの実行環境の分離による安全性の向上

最適化の方法中田育男著コンパイラの構成と最適化朝倉書店, 1999年第１１章.

インターネットにおける真にプライベートなネットワークの構築

実行時情報に基づく OSカーネルのコンフィグ最小化

キャンパスクラウドによる実験環境の構築情報ネットワーク特論講義資料.

Linux リテラシ 2006 第5回 SSH と SCP CIS RAT.

社会シミュレーションのためのモデル作成環境

私の立場ＯＳカーネルを手がけるエンジニア大阪市立大学創造都市研究科の学生

通信機構合わせた最適化をおこなう並列化ンパイラ

オープンソース開発支援のためのソースコード及びメールの履歴対応表示システム

オープンソース開発支援のためのリビジョン情報と電子メールの検索システム

実行時情報を用いて通信を最適化するPCクラスタ上の並列化コンパイラ

Webプロキシ HTTP1.0 ヒント CS-B3　ネットワークプログラミング　＆情報科学科実験I.

アナライザパケットを収集測定用のマシン通信.

実行時の情報を用いてプロセッサ間の通信を最適化するコンパイラ

Step.1 LinuxとIPコマンド ifconfig [-a] [インタフェース名] arp [-n]

アスペクト指向言語のための独立性の高いパッケージシステム

最低限インターネットネットワークにつなぎましょ!

VMが利用可能なCPU数の変化に対応した並列アプリケーション実行の最適化

InTriggerクラスタ環境の構築 i-explosion 支援班クラスタ環境の概要研究に使える「共有資源」を提供

Ibaraki Univ. Dept of Electrical & Electronic Eng.

コンパイラ 2012年10月1日

計算機アーキテクチャ１（計算機構成論（再））第一回計算機の歴史、基本構成、動作原理

仮想マシンに対する高いサービス可用性を実現するパケットフィルタリング

OSI7層に関係する機器、仕様、機能など物理層データリンク層ネットワーク層トランスポート層セッション層プレゼンテーション層

「マイグレーションを支援する分散集合オブジェクト」

理工学部情報学科情報論理工学研究室延山周平

ユビキタスコンピューティングのためのハンドオーバー機能付きRMIの実装

システムプログラミング第１0回プロセス間通信３簡易Web server（準備） Chat プログラム担当：青木義満、篠埜功

MPIを用いた並列処理計算情報論理工学研究室金久英之

CO-Client Opeartion 1.1 利用履歴データベースの設計 (スキーマバージョン対応)

ネットワークプロトコル.

プログラムの一時停止時に将来の実行情報を提供するデバッガ

異種セグメント端末による分散型仮想LAN構築機構の設計と実装

特定ユーザーのみが利用可能な仮想プライベート・ネットワーク

MPIを用いた並列処理情報論理工学研究室 06‐1‐037‐0246　杉所　拓也.

アーキテクチャパラメータを利用した並列GCの性能予測

並列処理プロセッサへの実数演算機構の開発

ソケットの拡張によるJava用分散ミドルウエアの高信頼化

ユーザ認証の盗聴 2002/9/10 峯肇史牧之内研究室「インターネット実習」Webページ

Presentation transcript:

実行時の情報を用いて通信を最適化するコンパイラ横田大輔 (筑波大) 千葉滋 (東工大) 板野肯三 (筑波大)

計算物理で望まれる環境実行時間の短縮容易にプログラムを記述できる超並列計算書き手は計算機の専門家ではない時間がかかる金がかかる実行に数日～数週間かかる金がかかる日立SR2201は月500万円容易にプログラムを記述できる書き手は計算機の専門家ではない

対象にするプログラムの特徴ある特定の処理を莫大な回数繰り返すある程度規則性があるシミュレーション時間核になる処理の最適化に時間をかけられるある程度規則性がある各プロセッサのアクセスパターンは比較的簡単（コード中に通信命令を展開できる）核になる計算の中で必要になる通信は繰り返しても変わらない

本研究のコンパイラ特定個所を時間かけてでも最適化書きやすく習得が容易な言語実行時の情報を最適化に利用ハードウェアの機能を利用 CP-PACS / Pilot-3のRDMA(Remote DMA) 書きやすく習得が容易な言語 HPF(High Performance Fortran)のサブセット FORTRAN+並列化のためのヒント明示的に通信命令を書かなくてよい

実行時の情報を最適化に利用プロファイルを取るためだけのコードを生成(インスペクタ-エグゼキュータ方式を改良) インスペクタエグゼキュータ方式得られた情報をコンパイル時に利用できない不規則なデータアクセスを並列化するときに使うインスペクタをコンパイル時に処理 PCクラスタでコンパイルコンパイル時間の増加

インスペクタ-エグゼキュータ先にプログラムの一部を実行して通信が必要になる個所を把握(インスペクタ) 把握された情報を元に通信を行いながら実際に実行(エグゼキュータ)

本方式の処理の流れ

通信機構RDMA ブロックストライド通信 TCW再利用型通信片側通信等間隔に並んだデータを一度に送信同じ通信(アドレス、通信相手、その他)が繰り返される場合高速要事前セッティング片側通信 RECVいらず

行った最適化ブロックストライドの利用 TCW再利用型通信の利用テーブル参照の除去ループの最適な分配通常のインスペクタ-エグゼキュータではインスペクタの解析結果を参照しながら動作するループの最適な分配ループを多プロセッサで手分けして実行する場合、どのように分けたら最適だろう

行った最適化(ブロックストライド) 通信回数を減らす(ブロック→ブロックストライド) 同時に実行できる通信を探すインスペクタの結果から必要になる通信を求める INDEPENDENT命令をヒントにする

行った最適化(TCW再利用) 通信のオーバーヘッドを減らす TCW再利用型通信を利用する設定 do I=1,… end do 送信送信パラメータが定数通常の通信 TCW再利用型通信

行った最適化(テーブル参照) インスペクタ-エグゼキュータ方式に発生するテーブル参照を除く IF(TABLE_ISSEND(I)) 　　　　SEND(TABLE_PARAM(I)) IF(I==定数) 　　　　SEND(定数パラメータ)

行った最適化(ループの分配1) ループの繰り返しをプロセッサで手分けして実行 $HPF! DISTRIBUTE AR(BLOCK,*) 計算に必要なデータを他のプロセッサが持っている可能性があるデータの配置はHPF命令でユーザが指定通信でやりとり $HPF! DISTRIBUTE　AR(BLOCK,*)

行った最適化(ループの分配2) 通信量が少なくなるようにループのくり返しを分配ループのくり返しごとに発生する通信量をインスペクタで調べる不連続な反復にも対応 P E 2 必要な通信量 P E 1 ループのくり返し P E 1 P E 1 P E 2 P E 2 受け持つプロセッサ

実験ベンチマーク実行環境コンパイル環境 Nas parallel benchmarks FT-a BT-a Genesis distributed memory benchmarks pde1(N=7) 実行環境 Pilot3上の1～16ノードコンパイル環境 PCクラスタ : PIII733Mhz, 512Mbytes, 100Base, Linux Redhat7.1 1～16ノード

実行時間(pde1) 20 15 本方式日立 10 線形スピードアップ 5 I-E 1 2 4 8 16 プロセッサ数 249秒 262秒 10 線形スピードアップ 5 I-E 137,100秒 1 2 4 8 16 プロセッサ数

実行時間(FT-a) 20 15 本方式 46秒日立 10 スピードアップ線形 5 4,898秒 1 2 4 8 16 プロセッサ数

実行時間(BT-a) 20 15 本方式 10 日立スピードアップ線形 5 1 2 4 8 16 プロセッサ数 1,430秒 1,370,000秒 1 2 4 8 16 プロセッサ数

コンパイル時間(pde1)

コンパイル時間(FT-a)

コンパイル時間(BT-a)

まとめシミュレーションプログラムのうち、実行時間の支配的な部分を最適化した最適化のための解析は動的に行ったコンパイル時間を含めて実行速度の向上を得るには十分な反復回数が必要 Pde1: 1000→9400 BTはコンパイル時間が爆発したインスペクタの解析結果が膨大になってしまった。

関連研究コードを書き換える実行時の情報で判断実行時にオブジェクトを配置するプロセッサを変更するリモートのデータのコピー M. Philippsen, B. Haumacher 実行時の情報で判断リモートのデータのコピー R. Ponnusamy, J. Saltz, A. Choudary, Y. S. Hwang, G. Fox

今後の課題コンパイル時間のスケーラビリティの改善より物理シミュレーションに近い実験通信パターンが変るプログラムは？インスペクタの解析結果の爆発(BT) ソースコードの膨張より物理シミュレーションに近い実験通信パターンが変るプログラムは？

おまけ(Binbo VPN) 貧しい貧しい環境のVPN

エンドユーザでもVPNしたいぞプライベートIPしか持ってないよ相手もプライベートIPだよ端末以外、勝手にソフトも入れられないよ「当プロバイダはシェルは公開していません」グローバルIPを持っているマシンが1台だけあるけどウェブ専用だよレンタルサーバ/プロバイダのウェブスペース

どうやってつなげようか？ CGIでリレーソケットのラッパ関数を作る listenやreadはプライベートからポーリング現在はTCPのみ内部ではHTTP listenやreadはプライベートからポーリング外から届かないので中から相手はプロバイダのwebサーバだ。無茶な周期はだめだぞ

Binbo VPNのしくみ

実験 netkit-telnet-0.17でリモートのファイルを表示 1000,000桁の円周率のテキスト使用したマシンは特に断りがなければPIII733Mhz,512Mバイト,i810のオンボードLinuxRedhat7.1,100Base BinboVPNのポーリング周期は1秒

結果(1/2) 接続処理時間ローカル表示 0.77 秒通常のtelnet 0.78 秒 Binbo VPN 288.38秒

結果(2/2) 接続処理時間多段ssh 1.86秒 Binbo VPN 555.93秒筑波大HLLA研究室プライベートIPマシンネットエイジの普通のウェブページ東工大CSG研究室プライベートIPマシン telnet PIII566Mhz512Mバイト ATI Mach64 PIII1.2Ghz 接続処理時間多段ssh 1.86秒 Binbo VPN 555.93秒新城靖先生＠筑波大学に感謝ネットエイジさんにごめんなさい

まとめ今後の課題最悪の環境でもVPNできた速度の面はだめだこりゃ速くしたい Selectの例外を再現したい pop3(+SMTP)やFTPならどうだ!? プロバイダに怒られないギリギリのポーリング周期を求める（笑