斎藤卓也 中村純 広島大学・情報メディア教育研究センター

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

UNIX利用法.
UNIX利用法 情報ネットワーク特論資料.
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
現在完了形 (present perfect tense)
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
UNIXマシン間のファイル転送 2002年10月20日 海谷 治彦.
計算科学演習 第6回 講義 「OpenMP並列処理」
第1回レポートの課題 6月15日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
日本語の文法 文型(ぶんけい)をおぼえよう!
Chapter 11 Queues 行列.
日本語... ジェパディー! This is a template for you to use in your classroom.
Recognise, ask about and talk about purpose
サポート力&フィードバック力 をつけよう ~OpenOffice.orgの場合~
ひな祭り.
システムプログラミング 第5回 情報工学科 篠埜 功 ヒアドキュメント レポート課題 main関数の引数 usageメッセージ
What did you do, mate? Plain-Past
Only One Flower in the World
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
Japanese verbs informal forms
There are 5 wearing verbs in Japanese depending on the part of body or the item being worn.
INSERTを高速化したPostgreSQL
Goal: I can present how to make a food item I like in Japanese.
How do you talk about Positions/ Locations?
にほんご 111 (11/09/2006) Chapter 4 Quiz #1 〜は…です。 は vs. が えいが.
スーパーコンの概要 日本物理学会(首都大学) 2007年3月25日 大阪大学核物理研究センター 計算機室  外川浩章.
A 02 I like sushi! I like origami!
スパコンとJLDG HEPの計算環境 HEPnet-J
にほんご JPN101 Sep. 23, 2009 (Wednesday).
Reasonので + Consequence clause
Licensing information
Chapter 4 Quiz #2 Verbs Particles を、に、で
The Sacred Deer of 奈良(なら)
Who Is Ready to Survive the Next Big Earthquake?
Did he/she just say that? Get your head out of the gutter! Oh wait….
“You Should Go To Kyoto”
know / knows(s) / ___________
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
計算物理学基礎 第1回 UNIXの基礎 C言語の基本.
Students’ reactions to Japanese and foreign teachers’ use of L1/L2
情報処理概論Ⅰ 2007 第4回 2018/11/30 情報処理概論Ⅰ 第4回.
PGIコンパイラーによる ディレクティブベースのGPGPU
KISSMEコード開発 完成まであと一歩。。かな?
-Get test signed and make corrections
実行時情報に基づく OSカーネルのコンフィグ最小化
My Favorite Movie I will introduce my favorite movie.
WELCOME TO THE WORLD OF DRAGON BALL
Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
ゲーム開発モデルの基礎.
コンピュータ概論B ー ソフトウェアを中心に ー #02 システムソフトウェアと アプリケーションソフトウェア
日本語113 5月29日(木) 〜でしょう てんきよほう.
Part time jobs in restaurant
Question Words….
実践ロボットプログラミング LEGO Mindstorms EV3 で目指せロボコン!
UNIX演習 情報ネットワーク特論.
宇宙科学統合解析環境の構築とAstro-E2解析支援
スーパーコンピュータ講習会 全体構成 ファイアーウオール経由での使用方法 ディスクの構成 バッチキュー 運用、その他.
スーパーコンピュータ講習会 全体構成 ファイアーウオール経由での使用方法 ディスクの構成 バッチキュー 運用、その他.
シミュレーション物理2 プログラミングの基本
UNIX演習 情報ネットワーク特論資料.
gate登録システム: 設計ポリシーから使い方まで
UNIX演習 情報ネットワーク特論資料.
UNIX演習 情報ネットワーク特論資料.
ー生命倫理の授業を通して生徒の意識に何が生じたかー
英語音声学(7) 音連結.
川島 朋尚 (国立天文台)、朝比奈 雄太 (国立天文台)、工藤祐己 (千葉大) supervised by 松本 洋介 (千葉大)
SNS内のワームの早期検知システムの考案
Grammar Point 2: Describing the locations of objects
へいせい二十七ねん 二がつにち ここのか・げつようび
Presentation transcript:

斎藤卓也 中村純 広島大学・情報メディア教育研究センター SX5@RCNP超入門 斎藤卓也 中村純 広島大学・情報メディア教育研究センター RCNPワークショップ「高速計算機を用いた研究の現状と将来」 2004年11月10日(水) http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura/RCNP-SX5.ppt (出来れば英語版も準備したい)

このTalkで訴えたいこと or 真のHPCを目指して SX5 at RCNP すばらしいハードウェア 是非研究に有効に役立てましょう 2.ボロボロのソフトウエア 我々の知識不足が原因? どうやってうまく使うか できれば何とか次期システムでしてほしい

国外ユーザーからのメッセージ One complaint about SX5 is that there is no good and up to date help web page (at least in English) for the users. They have changed now the commands for submitting jobs etc. I have received e-mails concerning those changes but the main body is in Japanese. It would be helpful if there would be a web page with such info. in English (perhaps there is and I don‘t know) It is also not clearly stated anywhere which are the available disks and their characteristics, it seems that in some of them data is removed if not used for a certain time.  Anyway, SX5 works much better than any of the systems I have used in Spain so I don't want to complain too much. SX5について不満に思うことは、どこにもユーザーに対するきちんとした最新のHELPウェブページが(少なくとも英語では)無いことです。ジョブをサブミットするコマンドなどが最近変更されました。この変更に関するE-メールを受け取りましたが本文は日本語でした。もし、このような情報に関する英語のウェブページがあれば、とても助けになります。(おそらく存在していて私が知らないだけなのででょう) どれが使用可能なディスクで、その条件がどうなっているのか、どこにも記述が見当たりません。ディスクのいくつかは、一定時間使用されないと、データが消されるようです。 しかし、SX5は私が自国でこれまで使ったどのシステムよりも、はるかによく動くので、あまり不満をいいたいとは思いません。

目次 SX5 (中村) アカウントの取得まで (中村) ログイン、ジョブのサブミット(SX57) (中村) SX上でのコンパイル (斎藤) 要望 (斎藤)

アカウントの取得まで 利用資格:素粒子・原子核の研究者 RCNP理論部・保坂淳先生にメールでお願いする 有職、無職を問わない 国外の人も利用可(これは大英断!大計センターは駄目) RCNP理論部・保坂淳先生にメールでお願いする  http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/apply/apply_com.html からUNIXマシーン(senri.rcnp.osaka-u.ac.jp)のアカウントをWebで申請。 このページだけ英語だが実際の申請ページ、説明は日本語なので、日本語の読めない人は誰かに頼む  http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/super/apply.html を読んで、UNIXマシーンからメールでスーパーコンピュータ(SX5)のアカウントを申請 返事はsenriに来る

ログイン、ジョブのサブミット(SX57) senri.rcnp.osaka-u.ac.jpにまずログイン そこからsx5.rcnp.osaka-u.ac.jpへssh (telnetもOK) sx5上のUNIXは非常に使いにくいので、コンパイル、サブミット(とキューの確認)以外はできるだけsenriの上で senri上の/home.sx5/rcnpXXXX にsx5のホームがマウントされている (rcnpXXXXはsx5上のアカウント名)

SX5 ベクトル機 1ノード=10GFLOPS/CPU × 16 + 128GBメモリー (1GFLOPS=1秒間に109回の和差積計算) 長いDOループ(繰り返しループ)のある科学技術計算なら、PCクラスターよりはるかに高い実行スピード、容易なプログラミング 1ノード=10GFLOPS/CPU × 16      + 128GBメモリー      (1GFLOPS=1秒間に109回の和差積計算) CMC(大阪大学サイバーメディアセンター) 全体では8ノード RCNPが1ノード、 レーザー核融合研究センターが1ノード

多分配置はこうなっている SX50 SX52 SX54 SX56 (ILE) SX51 SX53 SX55 SX57 (RCNP) front02 (login.hpc.cmc.osaka-u.ac.jp) senri (senri.rcnp.osaka-u.ac.jp)

ログイン、ジョブのサブミット(続き) コンパイルは(pathは/usr/bin) 投げるキューは fortran → f90 C → cc RS 5 min 2GB(最大16GB) RM 2 hours 2GB(最大8GB) RL 8 hours 2GB(最大16GB)

ログイン、ジョブのサブミット(続き) キューの状態を見る キュー上のジョブをキャンセル NQSII(新しいNQSコマンド)一覧表 qstat -u rcnpXXXX (自分のジョブの状態)  qstat -Q  (すべての状態) キュー上のジョブをキャンセル  qdel request.id NQSII(新しいNQSコマンド)一覧表 英語版はどこ?

簡単なサブミットの例 qsub –q RM script-file script-fileの中身の例 #!/bin/csh -f setenv F_PROGINF DETAIL cd /sx/rcnp/home/rcnpXXXX ./a.out > out mv fort.2 fort.1 qsub -q RM goNEXT 終了後、XXX.oYYY, XXX.eYYYというファイルができる (XXX:スクリプトファイル名、YYY:ジョブID)

SX5上でのコンパイル % ftrace -f ftrace.out (sxftrace, login02 ) On sx57 ( Super-UX UNIX), % f90 program.f On login02 ( Linux ), % sxf90 program.f よく使うオプション % f90 -C hopt –Wf”-a dbl4” –ftrace -C hopt : 最適化オプション     -Wf”-a dbl4” : 単精度実数→倍精度実数     -ftrace : 実行性能の測定 プログラム実行サイズの概算 % size ./a.out 4151696 + 237456 + 441659328 = 446048480 ( cmc上では、sizeではなく、sxsize(バグあり?) ) % ftrace -f ftrace.out (sxftrace, login02 )

Ftrace ? 略 *--------------------------* FLOW TRACE ANALYSIS LIST Execution : Fri Oct 1 18:20:26 2004 Total CPU : 1:09'01"691 PROG.UNIT FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR I-CACHE O-CACHE BANK  CONF prodlink 1055803 1254.936( 30.3) 1.189 12945.6 5829.0  99.97 507.2 1254.300 0.1561 0.0530 520.8865 copylink 938136 791.739( 19.1) 0.844 1496.2 0.0     99.76 507.1 791.204 0.0466 0.0346 224.3939 dudxi 117317 655.447( 15.8) 5.587 4122.1 745.3     99.87 507.1 655.111 0.1700 0.0535 226.9930 grotat 117267 402.203( 9.7) 3.430 2573.5 0.0      99.90 507.1 400.673 0.3391 0.1071 73.5016 gprojct 117267 338.031( 8.2) 2.883 12490.8 5547.6    99.86 507.4 337.143 0.5163 0.1420 15.4681 sgfix 117267 160.532( 3.9) 1.369 614.4 204.5      99.85 507.1 159.665 0.6046 0.0935 73.9506                       略 init3 1 0.001( 0.0) 0.628 446.2 0.0 2.60 260.5 0.000 0.0000 0.0000 0.0000 cinit3 1 0.000( 0.0) 0.003 30.3 0.0 0.00 0.0 0.000 0.0000 0.0000 0.0000 ---------------------------------------------------------------------------------------------------------- total 3168865 4141.692(100.0) 1.307 6722.5 2567.4 99.91 507.0 4111.186 2.2417 0.7822 1311.3879 ?

並列プログラムのコンパイル MPIを使うとき、 並列キューの書き方 On sx57 #!/usr/bin/csh % mpif90 mpi-test.f On login02(cmcノード) % sxmpif90 mpi-test.f 並列キューの書き方 #!/usr/bin/csh #PBS -q P4A@cmc cd /xxx/xxxx mpirun -np 4 ./a.out

並列プログラムのコンパイル 自動並列化を 使うとき % f90 –P auto OpenMPを使うとき % f90 –P openmp 並列キューの 書き方 #!/usr/bin/csh #PBS -q P4A@cmc setenv OMP_NUM_THREADS 4 cd /xxx/xxx ./a.out 並列キュー(cmcノードのみ) P4A, P4, P8, P16(同ノード内) MPI32、MPI64

ハードディスク 使用できおもなハードディスク: MP(sx57)  MP(cmc) hosted speed(sx57) speed(cmc)   size     quota /sx/rcnp/home /sx/rcnp/home sx57 high     mid    1TB 5GB/user /sx/rcnp/work /sx/rcnp/work   sx57 high    mid     2TB none /sxshort/rcnp /sxshort/rcnp CMC mid     high    8TB none /sx/rcnp/data       ibm   slow        3TB none /sx/rcnp/data2      fss  slow        2TB none

ハードディスク ホームディレクトリ 2週間で削除 ワークディレクトリ 現在の使用状況: sx57:/sx/rcnp/home 1.0T 330G 734G 31% /sx/rcnp/home sx5g0:/sxshort/cmc 8.3T 7.3T 1.0T 88% /sxshort/cmc sx5g0:/sxshort/ile 8.3T 7.3T 1.0T 88% /sxshort/ile sx5g0:/sxshort/rcnp 8.3T 7.3T 1.0T 88% /sxshort/rcnp sx54:/sx/cmc 1.0T 436G 588G 43% /sx/cmc sx56:/sx/ile/local 1.0T 150G 914G 15% /sx/ile/local sx56:/sx/ile/home 1.0T 150G 914G 15% /sx/ile/home sx56:/sx/ile/temp 2.1T 868G 1.2T 41% /sx/ile/temp sx57:/sx/rcnp/work 2.1T 2.1T 60G 98% /sx/rcnp/work ホームディレクトリ 2週間で削除 ワークディレクトリ

計算結果の一例(SX5による) 格子QCDシミュレーションによる有限温度QCD電場・磁場遮蔽質量の計算。 並列キューP16、P8、などを使い正味6ヶ月程の計算

要望1:コンパイラーについて Fortran90 は、Fortran77より遅い。 F90の自動並列化では、Fortran90のモジュールが並列化されない。自動並列化したとき、やけに実行ファイルが大きくなる。 OpenMP(要素並列用インターフェース)でも、モジュールを含むとき並列化されない。(ひょっとしてOpenMPの問題?実行ファイルは大きくならない。) コールしないサブルーティンもメモリーを必要とする?モジュールを含んでいるせい?

要望2:ハードディスクについて ユーザー個人(自分)専用のHDをもてないか?お金は自分ではらうので(300GBあたり3万円程度)。 SX5上で生成されたバイナリーファイルを、じかにlogin02(linux), senri上で読み込むことはできないか? もしくは、データ転送した後自分のパソコンで。 RCNPとCMC間の転送速度やお互いのHDの参照。(大変だとは思いますが・・・。)

要望3:実行するとき RCNPではインタラクティブにプログラム実行がOK(CMCでは駄目)。とても便利、しかしフロントエンドの挙動が遅くなるので、制限を付ける? RCNPノードにおいてRLキューでも最大16Gバイトであり、上限を増やしたキューがほしい。これ以上のプログラムは要素並列化をしないといけない。 P4なら60Gバイト CMCでは50Gバイト(p1L)、これはRCNPユーザーは使用不可。 MPIで並列化してもWall Clock time (戻ってくるまでの実時間)は早いとは限らない。良いのか悪いのか???

要望4:その他 ヘルプデスクのFAQは、2001年度から何も更新されていない。また、RCNPからのヘルプデスクのリンクは切れている。 Super-UXはとにかく使いにくい。RCNP側にもLinuxのフロントエンドが欲しい。 いままでの細かく更新された内容(クォーターコマンド、バッファーサイズ(F_SETBU)などに関すること)を、どこかにまとめて欲しい。現状では、以前にメールで流れた情報を探すのに苦労する。また、新参者はそもそもわからない。(たとえば、CMCノードにある“osirase”コマンドは便利。) 日本語を理解しない外国人ユーザーについては?

次期コンピュータとしては ⇒次のステップへの計算のため 200TFLOPS欲しい