並列処理実用? 並列処理により、 現在時間がかかって実用しづらい処理を、 早くして実用にする 1時間 =1/10⇒ 6分

Slides:



Advertisements
Similar presentations
エンジニアから見る Mac OS X. Mac のイメージ お洒落、かっこいいマシン デザイナーさんが使うマシン DTP に強いマシン 実は、 Developer のためにある!・・・は ず.
Advertisements

Linuxを組み込んだマイコンによる 遠隔監視システムの開発
MPIを用いたグラフの並列計算 情報論理工学研究室 藤本 涼一.
第3回 並列計算機のアーキテクチャと 並列処理の実際
連続系アルゴリズム演習 第2回 OpenMPによる課題.
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
CPUについて HN:セシル.
クラスタの構成技術と クラスタによる並列処理
Chapter11-4(前半) 加藤健.
Intel AVX命令を用いた並列FFTの実現と評価
榮樂 英樹 LilyVM と仮想化技術 榮樂 英樹
RoboVision e-nuvo IMAGEシリーズ リアルタイム画像認識モジュール
Docker.
超並列計算研究会 PCクラスタにおける ベンチマークと並列ツールの紹介 廣安 知之 三木 光範 大向 一輝 吉田 純一.
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
解析サーバの現状と未来 2006/07/18 衛星データ処理勉強会 村上 弘志 現状のシステム構成など 統合解析環境としての整備
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
担当:青木義満 情報工学科 3年生対象 専門科目 システムプログラミング 第1回 イントロダクション 担当:青木義満
ファイルシステムキャッシュを 考慮した仮想マシン監視機構
メモリ暗号化による Android端末の盗難対策
講 義 ガ イ ダ ン ス オペレーティングシステム 第1回.
侵入検知システム(IDS) 停止 IDS サーバへの不正アクセスが増加している
TCPソケットプログラミング ソケットプログラミング TCP-echoのデータ通信手順
ネストした仮想化を用いた VMの安全な帯域外リモート管理
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
C言語システムプログラミング C Language System Programming
Ibaraki Univ. Dept of Electrical & Electronic Eng.
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
OpenMPハードウェア動作合成システムの検証(Ⅰ)
RT-Linuxを用いた 多入力パルス波高分析システムの開発
全体ミーティング 金田憲二.
読み出し回路のアップグレードに向けた研究
序章 第2節 教育機器とコンピュータ 1 パーソナルコンピュータ
仮想計算機を用いて OSを介さずに行う安全な ファイルアクセス制御
MPIとOpenMPを用いた Nクイーン問題の並列化
梅澤威志 隣の芝は茶色いか 梅澤威志
リモートホストの異常を検知するための GPUとの直接通信機構
実行時情報に基づく OSカーネルのコンフィグ最小化
オペレーティングシステム イントロダクション
複数ホストに分割されたメモリを用いる仮想マシンの監視機構
クラウドにおけるIntel SGXを用いた VMの安全な監視機構
Optimized C++! 最適化の手法集めました
Intel SGXを用いた仮想マシンの 安全な監視機構
目的:高速QR分解ルーチンのGPUクラスタ実装
C言語を用いたマシン非依存な JITコンパイラ作成フレームワーク
同志社大学工学研究科 知的システムデザイン研究室 修士2年 中尾昌広
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
InTriggerクラスタ環境の構築 i-explosion 支援班 クラスタ環境の概要 研究に使える「共有資源」を提供
Virtualizing a Multiprocessor Machine on a Network of Computers
Cell/B.E.のSPE Isolationモードを用いた監視システム
総合講義B:インターネット社会の安全性 第7回 情報システムの信頼性
並列処理プロセッサTPCOREの 組み込みシステムへの応用 理工学研究科数理情報科学専攻 福永 力,岩波智史,情報システム研究室.
全体ミーティング (5/23) 村田雅之.
Cell/B.E. のSPE上で動作する 安全なOS監視システム
社会の情報インフラストラクチャとして、高性能コンピュータおよびネットワークの重要性はますます増大しています。本研究室では、コンピュータおよびネットワークの高速化を狙いとする並列・分散情報処理の科学と技術に関する研究に取り組んでいます。効率のよいシステムの実現を目指して、下記の項目を追求しています。 ◇コンピュータアーキテクチャ.
卒業研究 JCSPを用いたプログラム開発  池部理奈.
理工学部情報学科 情報論理工学研究室 延山 周平
ゼロコピー・マイグレーションを 用いた軽量なソフトウェア若化手法
6.5 セマフォ セマフォ(semaphore): 複数のタスク(もしくはスレッド)が「同期」または「相互排除」の制御のために取得(acquire)・リリース(release)できるカーネルオブジェクトの総称.
ネットワーク・プログラミング デバイスドライバと環境変数.
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
強制パススルー機構を用いた VMの安全な帯域外リモート管理
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
特定ユーザーのみが利用可能な仮想プライベート・ネットワーク
L4-Linux のメモリ管理における問題点とその解決策
並列処理プロセッサへの 実数演算機構の開発
ソケットの拡張によるJava用分散ミドルウエアの高信頼化
東京2020大会公式Webサイト 東京2020大会ソーシャルメディア Alibaba Cloud公式Webサイト
Presentation transcript:

並列処理実用? 並列処理により、 現在時間がかかって実用しづらい処理を、 早くして実用にする 1時間 =1/10⇒ 6分 1時間 =1/10⇒ 6分 8時間 =1/10⇒ 48分 「ちょっと計算して試す」が可能になる

背景 マルチコアのCPUが入手可能になった PC教室に並んだPCを使える Intel Xeon  4コア⇒近々8コアに AMD 8コアに PC教室に並んだPCを使える 夜や休暇期間などは空いている 個々のPCは「並み」でも、90台×4教室 ソフト環境(プラットフォーム・コンパイラ)も  徐々に整備されてきている

先行研究~山のようにある 2つのモデル ~ メモリ共有vsメッセージ プログラムもデータも共有できる 別CPUへのデータ受け渡し早い プログラムもデータも共有しない 別CPUへのデータ受け渡し遅い 多CPUも可(数百~数千)

先行研究~山のようにある CPU×N台でも、N倍早くはならない 自明な問題もある ~ それを対象にしたい (本質的に)どうしても直列部分がある 並列化の腕が悪いと、直列部分が増える N倍に近づける努力は大変 自動並列化は未だ課題が多い 今までは並列化するよりCPU高速化が安かった 自明な問題もある ~ それを対象にしたい

オープンな並列インタフェース? メモリ共有型 ⇒ OpenMP メッセージパシング型 ⇒ MPICH2 ライブラリが提供される、カーネルはLinux組み込み済み 自動コンパイラもいくつか存在(Intelなど) メッセージパシング型 ⇒ MPICH2 TCP/IPを使う ⇒ どうしてもオーバーヘッド大 ライブラリが提供される 自動は見かけない(無理?)

最初の実験環境 HPのサーバー:Xeon 4コア×2CPUで  8並列が可能なはず Linuxをインストールし利用可能 単純な並列度テスト

最初の実験環境(続) #!/bin/csh set N = 100000000 # Case of 1 process #echo "" | pipebody $N #Case of 8 processes echo "" | pipebody $N | pipebody $N | pipebody $N | pipebody $N | pipebody $N | pipebody $ N | pipebody $N | pipebody $N

最初の実験環境(続) for (i=0; i<255; i++) bufin[i]='\0'; x = 0.0; for (i=0; i<maxi; i++) { x = x + sin( (double) i/maxi ); } read(0, bufin, 256); printf("%s", strcat(bufin, "a")); fprintf(stderr, "%s", strcat(bufin, "a"));

最初の実験環境(結果) user system elapsed PCPU プロセス1つ:   9.720u 0.028s 0:09.74 100.0% 0+0k 0+0io 0pf+0w プロセス4つ:  38.814u 0.036s 0:09.75 398.3% 0+0k 0+0io 0pf+0w プロセス8つ:  77.476u 0.020s 0:09.76 793.9% 0+0k 0+0io 0pf+0w プロセス9つ:  87.301u 0.040s 0:14.62 597.4% 0+0k 0+0io 0pf+0w プロセス12:  116.407u 0.028s 0:15.93 730.8% 0+0k 0+0io 0pf+0w プロセス16:  155.189u 0.044s 0:19.54 794.3% 0+0k 0+0io 0pf+0w