Download presentation
Presentation is loading. Please wait.
1
斎藤卓也 中村純 広島大学・情報メディア教育研究センター
斎藤卓也 中村純 広島大学・情報メディア教育研究センター RCNPワークショップ「高速計算機を用いた研究の現状と将来」 2004年11月10日(水) (出来れば英語版も準備したい)
2
このTalkで訴えたいこと or 真のHPCを目指して
SX5 at RCNP すばらしいハードウェア 是非研究に有効に役立てましょう 2.ボロボロのソフトウエア 我々の知識不足が原因? どうやってうまく使うか できれば何とか次期システムでしてほしい
3
国外ユーザーからのメッセージ One complaint about SX5 is that there is no good and up to date help web page (at least in English) for the users. They have changed now the commands for submitting jobs etc. I have received s concerning those changes but the main body is in Japanese. It would be helpful if there would be a web page with such info. in English (perhaps there is and I don‘t know) It is also not clearly stated anywhere which are the available disks and their characteristics, it seems that in some of them data is removed if not used for a certain time. Anyway, SX5 works much better than any of the systems I have used in Spain so I don't want to complain too much. SX5について不満に思うことは、どこにもユーザーに対するきちんとした最新のHELPウェブページが(少なくとも英語では)無いことです。ジョブをサブミットするコマンドなどが最近変更されました。この変更に関するE-メールを受け取りましたが本文は日本語でした。もし、このような情報に関する英語のウェブページがあれば、とても助けになります。(おそらく存在していて私が知らないだけなのででょう) どれが使用可能なディスクで、その条件がどうなっているのか、どこにも記述が見当たりません。ディスクのいくつかは、一定時間使用されないと、データが消されるようです。 しかし、SX5は私が自国でこれまで使ったどのシステムよりも、はるかによく動くので、あまり不満をいいたいとは思いません。
4
目次 SX5 (中村) アカウントの取得まで (中村) ログイン、ジョブのサブミット(SX57) (中村) SX上でのコンパイル (斎藤)
要望 (斎藤)
5
アカウントの取得まで 利用資格:素粒子・原子核の研究者 RCNP理論部・保坂淳先生にメールでお願いする
有職、無職を問わない 国外の人も利用可(これは大英断!大計センターは駄目) RCNP理論部・保坂淳先生にメールでお願いする からUNIXマシーン(senri.rcnp.osaka-u.ac.jp)のアカウントをWebで申請。 このページだけ英語だが実際の申請ページ、説明は日本語なので、日本語の読めない人は誰かに頼む を読んで、UNIXマシーンからメールでスーパーコンピュータ(SX5)のアカウントを申請 返事はsenriに来る
6
ログイン、ジョブのサブミット(SX57) senri.rcnp.osaka-u.ac.jpにまずログイン
そこからsx5.rcnp.osaka-u.ac.jpへssh (telnetもOK) sx5上のUNIXは非常に使いにくいので、コンパイル、サブミット(とキューの確認)以外はできるだけsenriの上で senri上の/home.sx5/rcnpXXXX にsx5のホームがマウントされている (rcnpXXXXはsx5上のアカウント名)
7
SX5 ベクトル機 1ノード=10GFLOPS/CPU × 16 + 128GBメモリー (1GFLOPS=1秒間に109回の和差積計算)
長いDOループ(繰り返しループ)のある科学技術計算なら、PCクラスターよりはるかに高い実行スピード、容易なプログラミング 1ノード=10GFLOPS/CPU × 16 + 128GBメモリー (1GFLOPS=1秒間に109回の和差積計算) CMC(大阪大学サイバーメディアセンター) 全体では8ノード RCNPが1ノード、 レーザー核融合研究センターが1ノード
8
多分配置はこうなっている SX50 SX52 SX54 SX56 (ILE) SX51 SX53 SX55 SX57 (RCNP)
front02 (login.hpc.cmc.osaka-u.ac.jp) senri (senri.rcnp.osaka-u.ac.jp)
9
ログイン、ジョブのサブミット(続き) コンパイルは(pathは/usr/bin) 投げるキューは fortran → f90 C → cc
RS 5 min 2GB(最大16GB) RM 2 hours 2GB(最大8GB) RL 8 hours 2GB(最大16GB)
10
ログイン、ジョブのサブミット(続き) キューの状態を見る キュー上のジョブをキャンセル NQSII(新しいNQSコマンド)一覧表
qstat -u rcnpXXXX (自分のジョブの状態) qstat -Q (すべての状態) キュー上のジョブをキャンセル qdel request.id NQSII(新しいNQSコマンド)一覧表 英語版はどこ?
11
簡単なサブミットの例 qsub –q RM script-file script-fileの中身の例 #!/bin/csh -f
setenv F_PROGINF DETAIL cd /sx/rcnp/home/rcnpXXXX ./a.out > out mv fort.2 fort.1 qsub -q RM goNEXT 終了後、XXX.oYYY, XXX.eYYYというファイルができる (XXX:スクリプトファイル名、YYY:ジョブID)
12
SX5上でのコンパイル % ftrace -f ftrace.out (sxftrace, login02 )
On sx57 ( Super-UX UNIX), % f90 program.f On login02 ( Linux ), % sxf90 program.f よく使うオプション % f90 -C hopt –Wf”-a dbl4” –ftrace -C hopt : 最適化オプション -Wf”-a dbl4” : 単精度実数→倍精度実数 -ftrace : 実行性能の測定 プログラム実行サイズの概算 % size ./a.out = ( cmc上では、sizeではなく、sxsize(バグあり?) ) % ftrace -f ftrace.out (sxftrace, login02 )
13
Ftrace ? 略 *--------------------------* FLOW TRACE ANALYSIS LIST
Execution : Fri Oct 1 18:20: Total CPU : 1:09'01"691 PROG.UNIT FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR I-CACHE O-CACHE BANK CONF prodlink ( 30.3) copylink ( 19.1) dudxi ( 15.8) grotat ( 9.7) gprojct ( 8.2) sgfix ( 3.9) 略 init ( 0.0) cinit ( 0.0) total (100.0) ?
14
並列プログラムのコンパイル MPIを使うとき、 並列キューの書き方 On sx57 #!/usr/bin/csh
% mpif90 mpi-test.f On login02(cmcノード) % sxmpif90 mpi-test.f 並列キューの書き方 #!/usr/bin/csh #PBS -q cd /xxx/xxxx mpirun -np 4 ./a.out
15
並列プログラムのコンパイル 自動並列化を 使うとき % f90 –P auto OpenMPを使うとき % f90 –P openmp
並列キューの 書き方 #!/usr/bin/csh #PBS -q setenv OMP_NUM_THREADS 4 cd /xxx/xxx ./a.out 並列キュー(cmcノードのみ) P4A, P4, P8, P16(同ノード内) MPI32、MPI64
16
ハードディスク 使用できおもなハードディスク:
MP(sx57) MP(cmc) hosted speed(sx57) speed(cmc) size quota /sx/rcnp/home /sx/rcnp/home sx high mid 1TB 5GB/user /sx/rcnp/work /sx/rcnp/work sx high mid 2TB none /sxshort/rcnp /sxshort/rcnp CMC mid high 8TB none /sx/rcnp/data ibm slow 3TB none /sx/rcnp/data fss slow 2TB none
17
ハードディスク ホームディレクトリ 2週間で削除 ワークディレクトリ 現在の使用状況:
sx57:/sx/rcnp/home T 330G 734G 31% /sx/rcnp/home sx5g0:/sxshort/cmc T 7.3T 1.0T 88% /sxshort/cmc sx5g0:/sxshort/ile T 7.3T 1.0T 88% /sxshort/ile sx5g0:/sxshort/rcnp T 7.3T 1.0T 88% /sxshort/rcnp sx54:/sx/cmc T 436G 588G 43% /sx/cmc sx56:/sx/ile/local T 150G 914G 15% /sx/ile/local sx56:/sx/ile/home T 150G 914G 15% /sx/ile/home sx56:/sx/ile/temp T 868G 1.2T 41% /sx/ile/temp sx57:/sx/rcnp/work T 2.1T G 98% /sx/rcnp/work ホームディレクトリ 2週間で削除 ワークディレクトリ
18
計算結果の一例(SX5による) 格子QCDシミュレーションによる有限温度QCD電場・磁場遮蔽質量の計算。
並列キューP16、P8、などを使い正味6ヶ月程の計算
19
要望1:コンパイラーについて Fortran90 は、Fortran77より遅い。
F90の自動並列化では、Fortran90のモジュールが並列化されない。自動並列化したとき、やけに実行ファイルが大きくなる。 OpenMP(要素並列用インターフェース)でも、モジュールを含むとき並列化されない。(ひょっとしてOpenMPの問題?実行ファイルは大きくならない。) コールしないサブルーティンもメモリーを必要とする?モジュールを含んでいるせい?
20
要望2:ハードディスクについて ユーザー個人(自分)専用のHDをもてないか?お金は自分ではらうので(300GBあたり3万円程度)。
SX5上で生成されたバイナリーファイルを、じかにlogin02(linux), senri上で読み込むことはできないか? もしくは、データ転送した後自分のパソコンで。 RCNPとCMC間の転送速度やお互いのHDの参照。(大変だとは思いますが・・・。)
21
要望3:実行するとき RCNPではインタラクティブにプログラム実行がOK(CMCでは駄目)。とても便利、しかしフロントエンドの挙動が遅くなるので、制限を付ける? RCNPノードにおいてRLキューでも最大16Gバイトであり、上限を増やしたキューがほしい。これ以上のプログラムは要素並列化をしないといけない。 P4なら60Gバイト CMCでは50Gバイト(p1L)、これはRCNPユーザーは使用不可。 MPIで並列化してもWall Clock time (戻ってくるまでの実時間)は早いとは限らない。良いのか悪いのか???
22
要望4:その他 ヘルプデスクのFAQは、2001年度から何も更新されていない。また、RCNPからのヘルプデスクのリンクは切れている。
Super-UXはとにかく使いにくい。RCNP側にもLinuxのフロントエンドが欲しい。 いままでの細かく更新された内容(クォーターコマンド、バッファーサイズ(F_SETBU)などに関すること)を、どこかにまとめて欲しい。現状では、以前にメールで流れた情報を探すのに苦労する。また、新参者はそもそもわからない。(たとえば、CMCノードにある“osirase”コマンドは便利。) 日本語を理解しない外国人ユーザーについては?
23
次期コンピュータとしては ⇒次のステップへの計算のため 200TFLOPS欲しい
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.