全天X線監視装置 MAXI 地上データ処理システムの開発 Ⅱ ー 世界初のX線光子データベースの実現に向けた高速データ処理技術 ー

Slides:



Advertisements
Similar presentations
天文分野における教材開発 太陽熱学習キットと全天モニター 自然環境教育課程 4 年 松本 歩.
Advertisements

Web アプリをユーザー毎に カスタマイズ可能にする AOP フレームワーク
観測手法と望遠鏡の 仕様について 矢野太平(理研) ●大角度はなれた同時サーベイについて ●サーベイ方法について ●観測精度について
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
情報理工学部 情報システム工学科 ラシキアゼミ 3年 H 井奈波 和也
最新ファイルの提供を保証する代理FTPサーバの開発
第6回 仮想記憶とページング ページング ページ取り出し方式 ページ置き換え方式 中間テスト(40分)
3-1 MySQLについて 発表者:藤村元彦 自然言語処理研究室.
~補助記憶装置~  主記憶装置に記憶されるデータは,パソコンの電源を切ると記憶内容が消えてしまう。また,容量にも限界があるので,補助記憶装置にデータを記憶させる。補助記憶装置はパソコンの電源を切っても記憶内容は消えない。補助記憶装置の内容は主記憶装置上で利用することができる。 電源OFF 電源OFF.
全体ミーティング (4/25) 村田雅之.
JavaによるCAI学習ソフトウェアの開発
Accessによるデータベース(3) Ver /11.
SQL J2EE I 第3回 /
地理情報システム論 第3回 コンピュータシステムおける データ表現(1)
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
全天X線監視装置(MAXI)の 地上処理システムの現状 小浜 光洋、三原 建弘(理化学研究所)、佐藤俊宏、小笠原 直進、
3-2.データを取り出す 2004年 5月20日(木) 01T6074X 茂木啓悟.
みさと8m電波望遠鏡の性能評価 8m (野辺山太陽電波観測所より) (New Earより) 和歌山大学教育学部 天文ゼミ  宮﨑 恵 1.
岩井 儀雄 コンピュータ基礎演習  ー探索、整列ー 岩井 儀雄
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
最短路問題のための LMS(Levelwise Mesh Sparsification)
(B2) 親: minami, kazuki 多様な認証機器に対応する 認証システム (B2) 親: minami, kazuki.
パフォーマンスチューニング on Rails
マイクロソフト Access での SQL 演習 第1回 SQL問い合わせ(クエリ)
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
High-amplitude, long-term X-ray variability in the solar-type star HD 81809: The beginning of an X-ray activity cycle? F. Favata, G. Micela, S.L. Baliunas,
拡張ボリューム 搭載NASのご紹介。 + の悩みを解決する データ管理 筐体台数の増加 全体の50% ディスク管理方法に見る
CGと形状モデリング 授業資料 長井 超慧(東京大学)
C 言語について 補足資料 資料および授業の情報は :
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
世界初のX線光子データベース「MAXI地上データベース」の 実現に向けた性能試験
メモリとHDD.
すざく衛星による、2005年9月の太陽活動に起因する太陽風と地球大気の荷電交換反応の観測
SQL パフォーマンス チューニング ~ カバーリングインデックス/クエリヒントの利用~
ソースコードの変更履歴における メトリクス値の変化を用いた ソフトウェアの特性分析
3-10. MySQLシステムの管理  2004年6月10日  大北高広                01T6010F.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
新たなバックアップソリューション「クローン機能」はここがスゴイ 新たなバックアップ方法「クローン機能」なら全て解決!
高感度全天X線監視による 巨大バイナリーブラックホールの探査
新たなバックアップソリューション「クローン機能」はここがスゴイ 新たなバックアップ方法「クローン機能」なら全て解決!
VM専用仮想メモリとの連携による VMマイグレーションの高速化
仮想メモリを用いた VMマイグレーションの高速化
山形大学理学部物理4年 特殊講義F 「宇宙X線」
3-6.インデックスについて 3-7.関数と併用されることの 多いMySQLコマンド
マイクロソフト Access での SQL 演習 第4回 並べ替え(ソート)
全天X線監視装置 MAXI 地上データ処理システムの開発 I ー 地上データ処理システムの開発状況 ー
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
講義ノート共有データベース NoteTotter?
全天X線監視装置(MAXI)搭載用CCDカメラのエンジニアリングモデルの性能
宇宙科学統合解析環境の構築とAstro-E2解析支援
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
数独の解生成と 解に対する番号付け 理学部 情報科学科 渡辺研究室 戸神星也.
小型JASMINE計画の状況       矢野太平(国立天文台)       丹羽佳人(京大).
複数ホストにまたがって動作する仮想マシンの障害対策
ソフトウェア保守のための コードクローン情報検索ツール
3.リレーショナルデータベース,主キー, SQL
第5回 メモリ管理(2) オーバレイ方式 論理アドレスとプログラムの再配置 静的再配置と動的再配置 仮想記憶とメモリ階層 セグメンテーション
全天X線監視装置 MAXI 地上データ処理システムの開発 Ⅲ ー 突発天体発見システムの開発 ー
ISO23950による分散検索の課題と その解決案に関する検討
メソッドの同時更新履歴を用いたクラスの機能別分類法
スターバースト銀河NGC253の 電波スーパーバブルとX線放射の関係
GSTOS コマンド計画検証ソフトウェアの開発
CO-Client Opeartion 1.1 利用履歴データベースの設計 (スキーマ バージョン 対応)
国際宇宙ステーション搭載 全天X線監視装置搭載用CCDカメラ開発の現状
全天X線監視装置(MAXI)搭載 X線CCDカメラの開発の現状2
ASTRO-E2搭載CCDカメラ(XIS)校正システムの改良及び性能評価
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
分散メモリ型並列計算機上での行列演算の並列化
CGと形状モデリング 授業資料 1,2限: 大竹豊(東京大学) 3,4限: 俵 丈展(理化学研究所)
「図書系職員のための アプリケーション開発講習会」
Presentation transcript:

全天X線監視装置 MAXI 地上データ処理システムの開発 Ⅱ ー 世界初のX線光子データベースの実現に向けた高速データ処理技術 ー 〇小笠原 直進 高橋 知義 福田 知枝  根来 均(日本大学)

1.概要  全天X線監視装置MAXIは、国際宇宙ステーションに2008年から搭載予定のX線観測装置である。そのMAXIの全データ量は、HKデータ等も含め、2年間のミッションで約0.1T(テラ)レコード、約1TBにも達し、通常の検索方法だと、データを走査するだけで数時間を要する。しかし、X線新星などの突発天体の過去の強度履歴情報や、データの公開に向けた各天体毎のデータを取得するためには、毎日の更新で1天体につき約100sec以内、毎時間の更新で約3sec以内の検索速度が必要である。そこで、地上データ処理システムでは、任意の天球領域のデータを素早く検索できるように、取得したデータをリレーショナルデータベースにX線光子毎に格納する(Negoro et al.2003)。このデータベースへの検索速度を向上させるために、ハード面や検索方法の面で様々な改良を 行った。                               

・MAXIとこれまでの観測衛星の違いについて以下にまとめたものを示す。 Table.1 MAXIと他観測衛星との比較 通常のPointing 観測衛星 MAXI これまでの 全天観測装置 視野方向 固定 常時変化 X線の飛来 方向の決定 各X線毎 まとめて処理 データ量 大 小 データ保存 単位 観測単位 光子単位 スキャン単位 世界初の

矢印の方向に1周約90分で走査していく。二つの視野の角度は約90°である。 2. 研究の目的 MAXIが突発天体現象を捉えた時に、次の観測(1300sec以内)までに、これまでにも同様な現象がないかを調べられるような、過去のデータに対する検索処理速度   が必要である。(Fig.1参照)。 約1000個の天体のLight CurveやEnergy   Spectrumを毎時間更新していくために、   各天体のデータを3sec以内(1h/1000天体)   に検索できるようにする必要がある。 以上2つの条件をクリアするため、用いる   データベースの性能調査、改良を行った。 ISS(MAXI) ※1 Fig.1 MAXIの視野 ※1. 1時間で約1000個の天体情報を更新していくため、 1h(3,600sec)/1000天体のデータの更新のためには1つの 天体に対して約3sec以内に終わらせる必要がある。 矢印の方向に1周約90分で走査していく。二つの視野の角度は約90°である。

[先に、水色の正方領域の 箇所を上の図のように絞り、 その中で円領域(赤い領域) を検索する。] 3. 試験環境 ・RDBMS : postgreSQL(ver.8.0.6) ・クライアントからのデータ取得方法   →ECPG(C言語での埋め込みSQL)  ・検索領域の指定方法   →正方領域 : 天球座標上の角度を表す(alpha,delta)を             用いて決定する。   →円領域 : 先に、正方領域である程度の範囲に絞って             から、円領域での検索を行う(Fig.2 参照)。             この方法によってindexを有効に使用し、             正方領域と同じ検索時間が実現できた(05秋)。 ・使用機器(PC)スペック  ①汎用サーバーPC CPU:インテル®Xeon™デュアルプロセッサ3.06GHz メモリ:1GB(256MB×4)DDR-SDRAM PC2100 40MHz ECC    ハードディスク:120GB Ultra ATA-100 7,200回転 HDD  ②RAID50サーバー(Xserve G5 サーバモデルM9745J/A) CPU:デュアル2.3GHz PowerPC G5   メモリ:1GB PC3200 DDR(400MHz) ECC ハードディスク:ストレージ容量→7TB(使用可能領域:約6TB) Ultra ATA 7200rpm delta alpha Fig. 2 円領域の取り方。 [先に、水色の正方領域の   箇所を上の図のように絞り、 その中で円領域(赤い領域)  を検索する。]

取る領域の範囲が大きいとIndexを作成しない時より余計に検索時間がかかってしまう。 4. 試験結果 4.1 レコード数1e7(約1日分)と1e8(約10日分)の比較 以下に示す通り、検索の結果得られるデータ量が多くなると必ずしもIndexが効果的であるとは言えなくなる。 1゜×1゜ 3゜×3゜ 5゜×5゜ 取る領域の範囲が大きいとIndexを作成しない時より余計に検索時間がかかってしまう。 Fig.3 レコード数1e7、1e8の時の、正方領域で絞った割合-検索時間の比較図

1e8イベント 正方領域 Cluster Index使用 検索速度を向上させる手段としてテーブルのCluster化がある。これは、指定したIndexの情報を元にしてテーブル本体を並べ替える手法である。Cluster化を施すことで以下のように、検索時間が大幅に改善された。 1゜×1゜ 3゜×3゜ 5゜×5゜ Cluster Index により、 検索時間を 桁違いに 早くする ことができた。 1e8イベント 正方領域 Indexなし 1e8イベント 正方領域 Indexあり 1e8イベント 正方領域 Cluster Index使用 Fig.4 Cluster Indexの有無による検索時間の比較 (データ量は1e8[イベント数])

4.3 複合テーブルを対象とした検索時間の調査 ・ 天体の位置情報から得られたDPTCを元にして、同じDPTCの他のテーブルの   該当するデータ(HK等)を同時に検索する必要がある。                  検索方法は以下の2種類がある。 ① 検索時のSQL文で結合条件などを提示する。                     SQL → SELECT * FROM (位置情報を保有するテーブル)                               JOIN (他の情報を保有するテーブル) USING(DPTC )                                 WHERE (位置情報を保有するテーブルに対する天体の                               位置情報での検索); ② あらかじめ、あるテーブルとテーブルの結合条件で                    設定したビューを用意する。                                 SQL → CREATE VIEW (作成するビューの名前) AS (結合条件); 結合条件に従う データの検索 位置情報 の入った テーブル HKデータ の入った テーブル 位置情報を元に検索 検索結果のoutput SQL発行 クライアント ①②どちらの方法でも、単一テーブルからの 検索に比べて10倍以上の時間がかかってしまう。 Fig.5 複合テーブルからの検索のイメージ 頻繁に使用するデータは、位置情報と同じテーブルに入れておくことが望ましい。

Fig.6 RAID50を用いたサーバーでの検索試験の結果 (青:1゜×1゜ 緑:3゜×3゜ 紫:5゜×5゜) 4.4 RAID50を用いたサーバーでの試験結果(1e6~1e9イベント) RAIDサーバーを用いた試験結果を以下の図にまとめる。正方領域、 円領域ともほぼ同じ検索時間を示しているため、正方領域のみ示す。 1day 10days 100days Fig.6  RAID50を用いたサーバーでの検索試験の結果 (青:1゜×1゜ 緑:3゜×3゜ 紫:5゜×5゜) Fig.7 本研究で用いたRAIDサーバー

4.5 RAIDサーバーと汎用サーバーとの比較 これです 汎用サーバーからRAIDサーバーに変えたことで、検索時間が全体的に約半分程度に短縮された。(下図参照 青:汎用サーバー 赤:RAIDサーバー) 1day 10days 100days Indexのみの検索 1e6イベント 1e7イベント 1e8イベント 1e9イベント Cluster Indexを用いた検索 Fig.9 本研究で用いた汎用サーバー Fig.8 3゜×3゜のRAIDシステムと前回まで用いていたサーバーとの比較 Indexの有無に限らず、検索量の増加に伴う、ハードディスクのシークタイム の増加が検索時間の増加に影響を与えていると考えられる。

4.6 RAIDサーバーでの、検索時間短縮のための工夫 目標とする検索時間達成のための手段として以下に示す2通りの検索方法を試験した。 元のデータを領域毎にテーブルを分割する   [1e9イベント数のデータを100分割したうちの一つにアクセスした場合] 元のデータを1日分のイベント数まで減らした後に検索する   [1e9イベント数のデータを1e7まで減らした場合] Table.2 ここだけ、イレギュラ ーな検索時間となったため、現在調査中。  データを1日分まで減らしてから検索する方法は、  最初の1回の検索は200sec前後かかるが、その後は  1回目で作成した別テーブルに直接検索するように  すれば、1日分のテーブルからの検索と同じような  早さを得られる。ただし、Cluster Indexでは逆効果。  公開データの更新作業では使える見込みあり!

5.まとめと考察 RAIDシステムを用いることで、汎用サーバーと比較して各検索条件で約半分の検索時間になった。 複数テーブルへの検索は、検索時間が10倍以上に増加してしまう。   → 位置情報とセットで得る機会の多いデータ(Light Curve作成に必要なもの等)  は同じテーブルに保存するようにする。 Cluster IndexはIndexのみの場合に対して10分の1以下に検索時間を短縮できるが更新中のデータに対しては使用できない。   → 更新中のテーブルと過去のある期間分の履歴データとを分ける必要がある。  (どのくらいの期間でテーブルを分けるかは要検討)。     ここからは更新中のテーブルと過去の履歴とを分けるという前提での話 約1000個の天体のLight Curve等の毎時間の更新のために必要な検索時間の目安となっている(3sec以内)は、更新中のテーブルから最新の1日分のデータを丸ごと検索して別テーブルを作成し、その中からそれぞれの天体の情報を検索していく方法で、この目標は達成できる見通しが立った。 突発天体現象を捉えた時に次の観測までに過去の履歴を調べるための検索時間の目安となっている(1300sec以内)は、Cluster Indexが作成されたテーブルであれば、問題なく検索できるレベルに達している。