IRTS データアーカイブの再整備から学ぶ 科学データアーカイブ構築における留意事項

Slides:



Advertisements
Similar presentations
第5回衛星データ処理勉強会 はやぶさのデータ処理とアーカイ ブス 安部正真(固体惑星科学研究系) 吉川真(宇宙情報・エネルギー工学研究 系)
Advertisements

宇宙の「気温」 1 億度から –270 度まで 平下 博之 ( 名古屋大学・理・物理 U 研 ).
COBE/DIRBE による近赤外線 宇宙背景放射の再測定 東京大学, JAXA/ISAS D1 佐野 圭 コービー ダービー.
コンピュータプラクティ スⅠ 校正 水野嘉明. 本日の内容 「校正」 Word による自動校正  小論文:「校正の必要性」につい て 人による校正  前回作成したファイルを、他の人 と交換して校正 レポート提出  完成したファイルを R0 として提出 2.
宇宙科学データアーカイブDARTSの現状と課題
Ddによる複製 2004/05/24 伊原 秀明(Port139).
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
UNIX利用法.
PROCESS 14:一般情報(2) InstallShieldLecture
経営情報論B 第一回 講義概要+経営と情報.
仮想テープライブラリ クラウド環境で利用できるテープバックアップの代替サービス 簡単な図 (網羅性より象徴性)
画像展示サイト“Fragments” 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン
北大における Super-SINET 接続と利用: 2004 年度報告
REIMEI EISA Viewerの使い方
2013年7月24日 NRO ユーザーズミーティング NRO 高橋 茂
表計算ソフトで動作するNEMUROの開発
~ 企業内の情報共有のために~ 暗黙知を→形式知へ キッズウェイナレッジのご提案 2003年7月 24日 - 第1版 -
数値モデルの出力データをどのように取り扱っているか?
OpenOffice.org で版管理 西木 毅 第2回関西OpenOffice.org勉強会 大阪電気通信大学
デジタルポートフォリオ作成支援ツール PictFolio 使用マニュアル
ホームページのリニューアル企画書をつくりたい
解析サーバの現状と未来 2006/07/18 衛星データ処理勉強会 村上 弘志 現状のシステム構成など 統合解析環境としての整備
「RnR FixLinks Pro」解説(一般公開用・無償版)
ホームページの英語版 リニューアルについて
WagbyR6.5 Update 12 PPT版 更新情報
Phenixサーバ クラックまとめ.
背景について 国立天文台 天文情報センター.
進捗管理 1.進捗度算出 (1)進捗尺度 進捗把握の単位は、細分化されていることが望ましい。 可能ならば1人1週間の作業量を1単位とする
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
書誌情報を提供するサービスへ 「だれでも」書誌情報をダウンロードして再活用できる
南極からの新赤外線天文学の創成 南極内陸は、ブリザードがなく、非常に穏やかな、地球上で最も星空の美しい場所です。この場所で私たちは新しい赤外線天文学を展開します 宇宙初期の広域銀河地図を作って、私たちの銀河系の生い立ちを解明します 137億年前 100億年前 宇宙の果て 最初の星が生まれ、銀河が成長した時代.
川口真司 松下誠 井上克郎 大阪大学大学院情報科学研究科
プログラミング 設計資料 メンバー:.
コンピュータプラクティス I コンピュータプラクティスⅠ 校正 水野嘉明 校正.
建設・建築現場のデータもクラウドへ自動バックアップ!
「沖縄におけるスポーツサイエンスの拠点化に向けた
発表に必要なPCソフト等 について 社会福祉援助技術論Ⅲ 長崎和則.
新たなバックアップソリューション「クローン機能」はここがスゴイ 新たなバックアップ方法「クローン機能」なら全て解決!
新たなバックアップソリューション「クローン機能」はここがスゴイ 新たなバックアップ方法「クローン機能」なら全て解決!
事務所における情報化の問題点 データが所内で共有されていない、各課ごとに個別に利用されている
長期滞在型テレワークの誘致及び導入検討調査
ミドルウェア”TSUNAGI”を 用いたWEBアプリケーションの構築
平成29年度 WPI新規拠点公募のポイント (採択数・支援規模・ホスト機関の要件 等) (研究領域) (ミッション) (その他) 1
ISO 改訂に向けた意見 (Guidance on project management)
○○○○○○○○○○○○○○○○○○ の要素技術開発
IoT活用による糖尿病重症化予防法の開発を目指した研究
「沖縄におけるスポーツサイエンスの拠点化に向けた
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
本フォーマットに従い、提案する研究開発の説明資料を作成してください。
宇宙科学統合解析環境の構築とAstro-E2解析支援
小型JASMINE計画の状況       矢野太平(国立天文台)       丹羽佳人(京大).
事務所における情報管理の問題点 情報管理の現状 “欲しいデータが探せない” 情報管理の現状 “媒体ごとの個別管理”
多層的な知人関係に基づく 自己情報コントロールの実現
「地域経済産業活性化対策調査(沖縄市が整備するアリーナ施設を核としたまちづくり等に関する基礎調査)」
地理情報システム論 第8回 GISによる処理技法(1) データの入手と座標系の変換 ベクタ形式における空間的演算(1)
MAXI による高感度全天X線モニターとサーベイ 磯部 riken
BSJ特別セッション(2001、甲子園大学) 「人間科学データの蓄積と利用」 指定討論2 林 篤裕 (大学入試センター)
事業区分: 課題調査事業 コンソーシアム等名称: ○○ 事業名: △△ 代表団体名: □□ 参加団体: ▲▲、■■ 協力団体: ●●、◎◎
資料提出の際には本ページを削除してください。 プレゼンテーション、およびプレゼンテーション資料に関する注意点
GSTOS コマンド計画検証ソフトウェアの開発
エックス線の発見(1895) 3日後、妻をつかまえて 第一回ノーベル物理学賞 100日後! 既に京都(島津製作所)でも 光と影.
データ中心システム設計方法論“DATARUN” 
CO-Client Opeartion 1.1 利用履歴データベースの設計 (スキーマ バージョン 対応)
DECIGO Workshop DECIGO:衛星設計/検討の進め方 JAXA宇宙科学研究本部 船木一幸.
国際宇宙ステーション搭載 全天X線監視装置搭載用CCDカメラ開発の現状
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
(別紙1) 提案書雛型 令和元年度 沖縄型テレワーク実装推進調査 ー提案書ー                        (日付)                        (企業名)                        (連絡先等)
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
オブジェクト指向メトリクスを用いた 開発支援に関する研究 --- VC++とMFCを用いた開発を対象として ---
Ⅲ 地球地図アプリケーション戦略の施策案(2)
Presentation transcript:

IRTS データアーカイブの再整備から学ぶ 科学データアーカイブ構築における留意事項 松崎恵一1, 稲田久里子1, 吉野彰2, 山村一誠1, 海老沢研1, 篠原育1 , 山本幸生1 1 JAXA/ISAS, 2 NAOJ 2016/2/12 宇宙情報解析シンポジウム@ISAS

1. はじめに ISASが科学衛星データベース 「DARTS」 が公開 (1997年) されてから、20年。あすか衛星以降、DARTS には、ほとんどの衛星のデータが収納されるに至った。 「宇宙科学観測から得られる成果を最大化するにはデータアーカイブの整備が重要である。」 と、論理的には思う。が、日本の宇宙科学プロジェクトにおいて、コンセンサスになっている兆候はない。 DARTS の維持は、ポスドク、派遣技術者、 “兼業” のパーマネントスタッフで細々と続けられている。 例外) かぐやプロジェクト [NASDA-ISAS の共同ミッションとして出発した経緯から、相当規模の資金、人的リソースでアーカイブ作成が行われた。] 昨今の科学衛星プロジェクトでは、資金規模が限られる (小型科学衛星) ていたり、データアーカイブの経験がない ISAS 外にデータセンターを設ける方向で調整が進むなど、長期的に安定したデータの保全やサービスの提供に懸念が増えている。 2016/2/12 宇宙情報解析シンポジウム@ISAS

1. はじめに 優れたアーカイブの一つとして、NASA JPL を中心に開発・維持が行われている、惑星科学分野のデータベース Planetary Data System (PDS) がある。これは、100年先もデータを使うことを目指しているが、PDS の準拠に必要な作業量は膨大であり、日本の宇宙科学プロジェクトにて対応するのは容易ではない。 PDSの精神からミニマムな決まり事を抽出し、最大の効果がえられる留意事項は何か? チーム外の第3者にデータを提供する、長期間保存する、といった概念が知られていなかった時代に構築されたデータアーカイブ (IRTSデータベース) からデータを発掘した。 この作業を通して抽出された問題点から、いま利用可能な技術の前提において、今後の長期間保存を目指したデータアーカイブの構築に役立つ、データ・プロセッシング上あるいはアーカイブ構築時のファイル管理のポイントが抽出したので、紹介する。 2016/2/12 宇宙情報解析シンポジウム@ISAS

1.1. IRTS ミッション あかりの先行ミッション 小型科学衛星に近いプロジェクト規模!? (宇宙研の赤外線グループのホームページより) IRTS (Infrared Telescope in Space) は、赤外線天体観測用としては、 日本で初めて、地球を回る軌道に投入された観測器です。 IRTSは、高感度の赤外線観測を可能にするために、超流動液体ヘリウムによって冷却された 赤外線望遠鏡です。 IRTSの焦点面には、赤外線の全域をカバーする 4つの観測器 ( NIRS, MIRS, FILM, FIRP ) が搭載されていました。 IRTSは単独の衛星ではなく、 多目的の宇宙実験用プラットフォームである SFU (Space Flyer Unit) に搭載されていました。 IRTSは、宇宙開発事業団の新鋭機 HII ロケット によって、1995年3月18日に 打ち上げられました。 その後3月30日にIRTSは 観測を開始し、 超流動液体ヘリウムが消費された4月26日まで の間に、全天の7%にもわたる領域を、 今までにない高感度で、サーベイ観測しました。 この観測結果は、現在解析が進められており、 太陽系内天体の研究から、銀河系の研究、そして 宇宙論の研究に至るまで、大変に有効な情報をもたらすと期待されています。 SFU を搭載したIRTSは、スペースシャトルにより、1996年1月13日に 回収されました。 IRTSの観測によって作成された、NIRS, MIRS点源天体カタログ、 FILM, FIRP遠赤外線イメージマップが、2002年に宇宙研の 天文データアーカイブDARTS において公開されました。 小型科学衛星に近いプロジェクト規模!? 2016/2/12 今回再整備が行ったのでその事例報告 (過去から学ぼう) 宇宙情報解析シンポジウム@ISAS

MIRS, FILM, FIRP遠赤外線イメージマップ 1.2. IRTSのデータベース特徴 高次に処理されたデータベース 比較的に短期間の観測 NIRS, MIRS点源天体カタログ MIRS, FILM, FIRP遠赤外線イメージマップ 4つの観測器毎にプロセッシング担当が存在し、全データを処理後、アーカイブ担当に処理結果を渡した 処理はパイプライン化されることなく、手作業が多かった 2016/2/12 宇宙情報解析シンポジウム@ISAS

1.3. IRTS データベース開発・維持の歴史 Typical な日本の宇宙科学データアーカイブ 開発フェーズ データセンタ (PLAIN センター, C-SODA) の作業 開発フェーズ 1999/4-2001/3: JST 研究費により、IRTS に関わったポスドク A が名大で開発 (単独WSで開発) ISAS 納入前に WS がクラッシュ!なんとか “体裁を整え” 納入! 2001/4: ポスドク B により宇宙研へセットアップ DARTS として公開 維持フェーズ 2002年: ポスドク C によりデータ追加 2007/5: 職員 D (?) リプレースに向けた準備作業 (?) 2008/7 : メーカE による計算機システムリプレースにおけるデータ移行作業 2009/12 職員 D によりリンク切れの “修復” ( 2010/12 : ポスドク F による構成変更作業) ( 2013/7 :メーカGによる計算機システムリプレースにおけるデータ移行作業 ) 2015/12 : 派遣 H (稲田) によるサルベージ作業  今回の報告! ポスドクA: 高橋英則さん ボスドクB: 渡邊大さん ポスドクC: 馬場肇さん 職員D: 田村隆幸さん メーカE: NSSOL 金田チーム ポスドクF: 山内千里さん メーカG: NSSOL 菊尾チーム 派遣H: 稲田久里子さん Typical な日本の宇宙科学データアーカイブ 2016/2/12 宇宙情報解析シンポジウム@ISAS

2. 実施した分析 – 現状 SPAディレクトリが4つ 重複したファイルがみられる バージョンがぱっと見では分からない 2. 実施した分析 – 現状  DARTSで公開されているディレクトリの現状 (MIRS の例) 重複したファイルがみられる バージョンがぱっと見では分からない SPAディレクトリが4つ 2016/2/12 宇宙情報解析シンポジウム@ISAS

2. 実施した分析 – 分析作業 tar(.gz) ファイルは何が収納されているか不明であったので、展開し確認した。 (MIRS の例) tar(.gz) ファイルは何が収納されているか不明であったので、展開し確認した。 リリースノートとファイルのタイムスタンプを比較し、バージョンを推定した。タイムスタンプが失われている場合など、ファイルの中身も比較した。 判断不能な点については、当時の関係者にヒアリングを行い、データセットと版を同定した。 リーバース開発は、フォワード開発に比べてとても大変! (問い合わせた結果、DARTS に収蔵されているよりも新しい版があることもわかった) 2016/2/12 宇宙情報解析シンポジウム@ISAS

2. 実施した分析 Catalogue 2.0 Catalogue 1.1 (+1.0) Catalogue 1.1 Image 1.0 DARTSで公開されているディレクトリの現状 (MIRS の例) 以下を同定 Catalogue 3(+1) バージョン Image 1 バージョン 開発当初は以下の想定だと推定 mirs はワーキングディレクトリ miscは公開用に再整備したディレクトリ Catalogue 2.0 Catalogue 1.1 (+1.0) Catalogue 1.1 Image 1.0 Image 1.0 Catalogue 1.0 2016/2/12 宇宙情報解析シンポジウム@ISAS

3. 開発フェーズの問題と対策(1) DARTSで公開されているディレクトリの現状 (MIRS の例) 問題点 リリースノート、ユーザが手にするアーカイブとしてのデータ構造を反映していない。 当初、データプロセスにおいてバージョンが管理されておらず、名前を見てもどのバージョンか分からないディレクトリや tar(.gz)ファイルが混在している。 ディレクトリ名に new, old などの名前がはいっているが、後からみて版が分からない。 ファイル名の変更などの微修正をアーカイブ担当が実施した可能性がある。 推奨事項 ( なにはともかくリリースノートを残すこと ) データセットの版を管理する - プロジェクトを通じて、データプロダクトを管理する担当者を設ける、バージョン情報を集約する体制を整える データプロセス・アーカイブ担当が一体となり、ユーザ向けのリリースノートを用意すること。 一つのデータセット・版のデータとリリースノートなどの文書は一つのディレクトリに収納する。このディレクトリはトップディレクトリの直下に配置する。 ディレクトリや tar(.gz)ファイルは、自己記述的な名称とする。具体的には 「データセット名-バージョン」 とすると良い。 例: IRTS-MIRS_Catalogute_2.0 IRTS-MIRS_Catalogue 2.0 IRTS-MIRS_Catalogue 1.1 IRTS-MIRS_Catalogue 1.0 2016/2/12 宇宙情報解析シンポジウム@ISAS

3. 開発フェーズの問題と対策(2) 配付用に tar(.gz) ファイルを用意する設計とした。 問題点 他方で、tar(.gz) を解凍して得られるものも公開しており、冗長である。tar.(gz) の範囲が自明でなく、何のデータが収納されているか分からない。 tar(.gz) ファイルのディレクトリ構造が十分検討されていない。ディレクトリ名が temp など謎である。tar(.gz) ファイルが含まれている。 推奨事項 圧縮ファイルは、内容物をリリースノートに記述 and/or データセットのディレクトリ全体を固める and/or 作成しない 2016/2/12 宇宙情報解析シンポジウム@ISAS

3. 開発フェーズの問題と対策(3) 当時の状況の推測 納期が来てしまったので整理は終わっていなかったが開発を終了した。 公開用ディレクトリにデータを集約する方向で開発を進めた。各種のデータは一旦Working ディレクトリに置いて作業をしていたが、最終的には公開用ディレクトリのみに整理することをあきらめ、Working ディレクトリも公開することとした。 問題点 その結果、どのように HTML ページを見せるか方針が不統一となってしまった。 HTML から Working ディレクトリを直接参照することとした。 公開用ディレクトリに Working ディレクトリへのシンボリックリンクを配置した。 公開用ディレクトリに Working ディレクトリのデータをコピーした。双方公開されることとなったので、データを冗長に持つこととなった。 推奨事項 View (HTML) とデータは分離し、データは、データセットのディレクトリをそのまま参照する。 ( やむを得ない場合、削除するよりは as is で放置する ) 2016/2/12 宇宙情報解析シンポジウム@ISAS

3. 開発フェーズの問題と対策(4) 問題点 データプロセス担当から入手した時点 (?) のファイルと展開後ディレクトリ構造の双方が残っている。どちらが源泉なのか分からない。 作業の途上で作成したコピーが残ってしまい、冗長になった (?) 推奨事項 入手ファイルは 、入手ファイル専用のディレクトリに配置する。 中間ファイルは作業の完了までに削除する。 履歴管理ソフトで扱えるデータ量の範囲においては履歴を記録しながら開発を進めるのが良い。 2016/2/12 宇宙情報解析シンポジウム@ISAS

4. 維持フェーズの問題と対策(1) 問題点? ディレクトリ・ファイルのタイムスタンプが更新された (システム構成変更作業中の2007/5に発生) ディレクトリのタイムスタンプが更新された(ファイルのタイムスタンプは維持された;リプレース準備中の2008/7に発生) 推奨事項 (長期的な保存を考慮すると) ファイルシステムの属性には依存しない設計がよい が、ファイルシステムの属性も (重要な情報なので) 保存するように作業時に注意する cp, scp の –p オプション rsync の -a オプション データ移行の際に使用するツールの仕様に注意する。 2016/2/12 宇宙情報解析シンポジウム@ISAS

4. 維持フェーズの問題と対策(2) 問題点 (MIRS Catalogue において発生) Working ディレクトリには、2.0, 1.1, 1.0 のデータが存在していた。作り置きの HTML からは、基本的に 1.1 のデータへのリンクが張られていた。が、公開ディレクトリに置かれたデータの一部は1.0のままであり、リンク切れが発生していた。 2009/12/1 に、このリンク切れを修復する作業が行われた。この際に、オリジナルのディレクトリ名に日付を付与したバックアップディレクトリが作成された(なお、バックアップの際にタイムスタンプが失われた)。新しいディレクトリは、1.1 のデータ置かれた。が、その後、1.0 のデータも配置され、1.1と1.0で座標が一致していたものについては 1.0 のデータで上書きされた。 データをまとめた tar.gz ファイルについては、2.0版への直リンクになっている。  結果的に、HTMLからは 1.0, 1.1, 2.0 のデータへのリンクが混在している。 データセットの版が管理されていれば、このような作業は必要なかったし、ミスが発生する確率も下げられたものと思われる。が、ヒューマンエラーの発生は根本的には防げないものと考えられる。 推奨事項 チェック・レビューを行う独立な担当者を設ける 2016/2/12 宇宙情報解析シンポジウム@ISAS

5. 推奨事項サマリ データセットの作成 … 衛星プロジェクトやデータ処理プロジェクトチームなどが実施 … プロジェクトを通じて、データプロダクトを管理する担当者を設ける、バージョン情報を集約する体制を整える データプロセス・アーカイブ担当が一体となり、ユーザ向けのリリースノートを用意すること。 一つのデータセット・版のデータとリリースノートなどの文書は一つのディレクトリに収納する。 ディレクトリや tar(.gz) ファイルは、自己記述的な名称とする。具体的には 「データセット名-バージョン」 とすると良い。 圧縮ファイルは、内容物をリリースノートに記述 and/or データセットのディレクトリ全体を固める and/or 作成しない データ提供サービスとの関係 … データセットの作成とは別のチームで良い / 今後のC-SODAは主にこちら データセットのディレクトリはトップディレクトリの直下に配置する。 View (HTML) とデータは分離し、データは、データセットのディレクトリをそのまま参照するとよい。 作業上の注意 チェック・レビューを行う独立な担当者を設ける 入手ファイルは、入手ファイル専用のディレクトリに配置する。中間ファイルは作業の完了までに削除する。履歴管理ソフトで扱えるデータ量の範囲においては履歴を記録しながら開発を進めるのが良い。 ファイルシステムの属性には依存しない設計がよいが、ファイルシステムの属性も保存するように作業時に注意する 2016/2/12 宇宙情報解析シンポジウム@ISAS

6. まとめ IRTS 衛星のデータアーカイブをサルベージした 今後のデータプロセス・アーカイブ作成に対し、実践的な推奨事項をまとめた 2016/2/12 宇宙情報解析シンポジウム@ISAS