JaLTER Morpho講習会 基礎知識編 真板 英一 (まいた えいいち) 2008/01/28,29 JaLTER Morpho講習会
本講義の目的と概要 対象・JaLTER参加サイトの情報管理者 目的・JaLTERのMetacat-Morpho処理系を操作 するに際して必要となる知識の習得 Metacat-Morpho処理系の操作に関する一般的な知 識 JaLTERにおけるシステム運用に特有の事項 JaLTER関係以外の方でも分かるように配慮して お話しするつもりです。
LTERと情報マネジメント Long-Term Ecological Research(LTER) 環境問題のスケールは時間的・空間的に拡大し つつある それに対応するため、長期・多地点の生態系観 測データが必要とされるようになった 生態系を長期間継続的に観測している研究サイ トをネットワーク化してデータや方法論を共有し ようという運動が始まる 1980年代 米国 USLTER 1990年代 国際組織 ILTER
LTERと情報マネジメント 2000年代 日本でもネットワーク化が進む JaLTER(Japan LTER)ネットワーク 2000年代 日本でもネットワーク化が進む JaLTER(Japan LTER)ネットワーク 2006年11月 設立 2007年 8月 ILTER正式加盟 現在約30サイトが登録済み 森林・草地・湖沼・海洋など多様な生態タイプ 登録サイトは随時募集中(事務局長・柴田@北大)
LTERと情報マネジメント LTERネットワークにおいて、情報管理は重要な 位置を占める。 空間的・時間的に広い、さまざまな種類の多量のデ ータの収集・蓄積が必要 研究者間でのデータの共有化 比較研究のためのデータ形式の標準化 これらを可能とする情報管理システムの開発が( 主に米国で)進められており、既に実用レベルに 達している。
LTERと情報マネジメント 開発グループ KNB 開発物 Knowledge Network for Biocomplexity EML: メタデータ書式標準化規格 Morpho: EMLデータセット作成ツール Metacat: EMLメタデータカタログ すべてオープンソース KNBの他の開発物については小川・藤原(2007, 日 林誌89(5)) 参照
LTERと情報マネジメント EML Ecological Metadata Language XML準拠で、生態学関連の情報の記述に特化 ガイドラインではなくて規格 規格に沿ったデータ(EML的に妥当なデータ)はコ ンピュータで自動的に効率的に処理できる ILTERでは既に標準として使われている
LTERと情報マネジメント Morpho ダイアログ形式でEML化されたデータを作成できる クライアントアプリケーション XML, EML の知識が無くてもEML的に妥当なデー タが作成できる Metacatと通信可能 Java で作られているため、プラットホームに依存しな い(Windows, Mac, Linux)
LTERと情報マネジメント Metacat EMLで書かれたメタデータをカタログ化するサーバ アプリケーション データパッケージをアップロードしたり、検索したり、 ダウンロードしたりできる。 すなわち、データを収集・蓄積し、共有化するための 機能を提供する。
LTERと情報マネジメント ILTERではメタデータ標準規格としてEMLを採 用している。 JaLTERでもEMLを採用することになった。 EML処理系としてMetacat-Morphoシステムを利用 国環研(つくば)にMetacatサーバを設置(現在、動作 テスト中) 参加サイトの情報管理者はMorphoを使って各自の データをパッケージ化して国環研サーバにアップロ ード
Metacat-Morphoのデータ構造 データ本体とメタデータの区別 データ本体 (entity) 観測データそのもの 観測値の数値データや種名リスト、画像など メタデータ データ本体についての情報 作成者、権利者、観測方法、場所、期間、など
Metacat-Morphoのデータ構造 データ本体 内容・多様 数値データ、文字デ ータ、画像データ、空 間データ 形式・多様 エクセルファイル、画 像ファイル、GIS形式 メタデータ 内容・だいたい同じ 観測者、観測値、観測 時期、観測方法、ライ センス情報 形式・共通化可能 EML規格による標準 化
Metacat-Morphoのデータ構造 データ本体よりもメタデータの方が重要 データ本体のみでは、そのデータがどの程度の利用 価値があるのか判断できない。メタデータがないと結 局データ本体も使いものにならない。 メタデータがあれば、データ本体そのものが無くても 、データ本体について概要を知ることができるし、入 手するために誰に連絡すればいいかわかる。 Metacat-Morpho処理系では、EML化されたメタ データの処理が主なターゲットである。
Metacat-Morphoのデータ構造 データパッケージとは、メタデータと、それに関連 するデータ本体の全体 データパッケージの形態 メタデータと、データ本体そのもの メタデータと、データ本体へのリンク メタデータのみ
Metacat-Morphoのデータ構造 表形式データ(csv, Excel) 画像データ(jpeg, etc) 現バージョンのMorphoでは未対応なもの 音声、動画などのマルチメディアデータ 空間データ(衛星データ、GIS) EMLでは定義されているが、Morphoの開発が追い 付いていない状態。将来的には対応予定。
Metacat-Morphoのデータ構造 タイトル 要約 キーワード 作成者、連絡先 研究プロジェクト情報 使用権 データの空間的、時間的、分類学的範囲 観測方法
Metacatのデータ管理法 docid document id (文書識別子) データパッケージを識別するためのユニークな文字 列 書式 hogehoge.num.rev hogehoge: サイトや人物を表す文字列 num: 通し番号 rev: リビジョン番号 例 maitadata.12.3
Metacatのデータ管理法 docid リビジョン番号の違いは同じのパッケージの新旧を表 す 通し番号は、パッケージを区別する。 maitadata.12.3 よりも maitadata.12.4 の方が新しい パッケージを修正しアップデートするごとにリビジョン番号 が大きくなっていく 通し番号は、パッケージを区別する。 maitadata.12.x は気象データ maitadata.13.x は地形データ パッケージを新規作成するたびに通し番号が増えて行く。
Metacatのデータ管理法 docid メタデータとデータ本体のそれぞれにdocidが与えら れる データパッケージ maitadata.14.1 メタデータ maitadata.14.1 データ本体1 maitadata.15.1 データ本体2 maitadata.16.1 通し番号とリビジョン番号は、基本的にMorphoが自 動で管理してくれるので、ユーザが直接操作する必 要は無い。
Metacatのデータ管理法 JaLTERにおけるdocidの命名法 docidはユニークでなければならないので、情報 管理委員会の側から各サイトにdocidの割り当て を行ないたい。 書式: jalter-(サイト名).num.rev サイト名の部分は別紙参照 例 赤津 jalter-akazu.22.1
Metacatのデータ管理法 Morphoにdocidの接頭辞を指示する必要がある Morpho上でプロファイルを作成する時に指定で きる。 実技演習時に実際に入力して頂きます。
日本語の取り扱い JaLTERはILTERに正式加盟したので、JaLTER のデータコレクションが国際的に利用されること を想定する必要がある。 データ、メタデータの記述言語をどうするか、とい う問題 JaLTERが国際ネットワークの一員である以上、 英文の情報は不可欠 日本の国内ネットワークとして、実用上、日本語 情報が必須
日本語の取り扱い データを作成する際の使用言語に関するJaLTER のポリシー メタデータ データ本体 英語/日本語の併記 英文優先(英文、日文の順で格納) データ本体 可能な限り英文併記が望ましい 人員・予算を考慮して、可能な範囲で努力する
日本語の取り扱い 技術面 MetacatやMorphoは英語圏(米国)で開発された ものなので、基本的に西欧語(latin-1)が前提に なっている。 しかし、日本で独自の情報システムを構築する 以上、日本語のデータを、日本語で扱えなけれ ばならない、と考える。 EML関連物の日本語化を行なっている。
日本語の取り扱い Metacat-Morpho 開発言語がJavaなので、実はそのままでもある程 度は日本語データを扱うことが可能。(Javaは内 部エンコードがunicodeであるため) 日本語を完全に扱うにはソースコードに多少手 を入れる必要がある。 Metacatは既にコードを修正し、一通り日本語化 が終わった(日本語のデータ検索、表示を、日本 語の画面上ですることができる)。
日本語の取り扱い Metacat-Morpho Morphoは元から日本語の入力が可能なので、さ しあたり実用に耐える。 現状は未着手。来年度の課題。
日本語の取り扱い Metacat-Morphoマニュアル、EML関連文書等 データの品質向上には情報管理担当者の啓蒙・ スキルアップが重要 それを支援するために、ドキュメント類を和訳して 提供する 随時作業、web等で閲覧可能に。
JaLTERにおけるシステム運用 JaLTERのMetacat-Morpho処理系は、運用上の 制約により、Metacat-Morphoの機能を一部禁止 している。 Metacatサーバを国環研に設置 国環研のセキュリティポリシー 外部から内部サーバへの直接データ投入は禁止 そこで、MorphoからMetacatへの直接アップロー ドを禁止し、FTPサーバを介してアップロードする 。
JaLTERにおけるシステム運用 FTPサーバ 後日パスワード等をお知らせしますが、他人数で共 用するので、管理には気を付けてください。 FTPサーバにアップロードされたデータを Metacatサーバに回収する作業は、毎日深夜に 行なう予定。
JaLTERにおけるシステム運用 Morphoを使ってMetacat上のデータを検索したり 、MetacatからMorphoにデータをダウンロードす ることは可能。 直接アップロード禁止の副作用で、データの作 成者がデータのアクセス権を制御することが技 術上不可能。従って、JaLTER Metacatサーバに 登録されたデータはすべて公開データ(パブリッ クデータ)として扱われる。 提供するデータのライセンスに注意してください 。
JaLTERにおけるシステム運用 JaLTERでは、提供して頂けるデータは、基本的 にすべて受け入れる方針。 データ量があまりに膨大な場合は別途打合せ。 現バージョンのMorphoは、表形式データや画像 などの比較的サイズが小さいデータしか扱えな いので、基本的に気にする必要はない。 マルチメディアデータや空間データなどの大容 量データを扱うには、直接EMLファイルを編集 する必要がある。
JaLTERにおけるシステム運用 データの公開範囲 当面はJaLTERネットワーク内部での公開 いずれ一般公開(時期未定) IPアドレスでアクセス制限をかけるので、各サイト で使用しているIPアドレスを後日お知らせくださ い。
実技演習について 会場のネットワーク環境 有線、無線接続可能(お好みで) DHCP(IPアドレスを自動で取得する) サーバマシン Morphoインストーラ Metacat FTP 各種ドキュメント
実技演習について 本日 コンピュータ起動 ネットワーク接続の確認 サーバコンテンツの紹介 Morphoインストール・初期設定 データパッケージ作成(簡単に) FTPサーバにアップロード Metacatでアップロード確認
実技演習について 明日 データパッケージ作成(詳細に) Morphoで入力可能な全項目を入力 しかも可能な限り詳細に 英語力のある方は英文併記で 今回は練習なので日本語のみでも可 Morphoにはどんな入力項目があり、どのくらい詳細 に情報が記述できるか、その作業量・時間はどの程 度か、を体験することが目標
今後のスケジュール 1/28,29 本講習会 2/中旬 Metacatサーバ 試験運用開始 〜3/上旬 データ収集 1/28,29 本講習会 2/中旬 Metacatサーバ 試験運用開始 〜3/上旬 データ収集 3/中旬 サーバ公開のアナウンス@生態学会