Preservation and Data Sharing 3. 保存と共有 Preservation and Data Sharing
3.1 保管
容量や費用、簡便さに加え、信頼性や安全性を考慮することが重要 3.1.1 保存場所 研究資料(研究データ)を失うことは研究の進展に大きく影響 ファイルの意図しない削除 ハードウエアの故障による破損 モバイルPCや保存メディアの紛失 適切な保存場所の選択 デスクトップ・モバイルPC 簡便な保存先ではあるが、ハードウエアが冗長化されておらず、障害によりファイルを失う可能性大。研究資料の マスターコピーを保存する場所としては不適切。 外部記憶デバイス CDやDVDはサイズが十分ではなく、書き込みエラーへの対処や確認が必須。USBハードディスクやUSBメモリ、 SDカードなどは、安価で大容量化してきたが、PC・ラップトップと同様の問題あり。ポータビリティに優れる反 面、紛失や盗難などのセキュリティリスク大。 オンラインストレージ クラウドストレージとも呼ばれ、インターネット上のディスクスペースを利用できるサービス。一定容量までは無 料で利用できるものもあるが、機関のセキュリティポリシーやガイドラインに適合するものを選択すべき。 オンラインストレージサービスの比較:https://en.wikipedia.org/wiki/Comparison_of_online_backup_services ネットワークドライブ LANなどのネットワーク経由で接続できる他のコンピュータのディスクスペース。安定的に運用される所属機関の システム管理部門が提供するものを利用するのが理想的。 研究を進めるうえでの欠くことのできない情報源となる研究資料を失うことは、研究の進展で大きく影響します。 現在では多くの場合で、研究資料をデジタルデータとして管理していますが、意図せずファイルを削除したり、保存した媒体が故障したり紛失することで、大切な研究資料を失うことがあります。 こうしたトラブルを避けるためにも、研究データは適切な保存場所に保存されなければなりません。 常に利用するデスクトップ・モバイルPCは、ハードディスクの故障により、ファイルを失う可能性があります。 CDやDVDなどの外部記憶メディアは、書き込みエラーにより正確にデータが保存できていない場合があります。 また、小型のUSBメモリやSDカードなどは、紛失や盗難により研究データを失う可能性があります。 最近では、無償で利用できる便利なオンラインストレージがいくつかありますが、これらを利用する際には、機関のセキュリティポリシーに合致するかを事前に確認する必要があります。 最も安心して研究データを保存できるのは、機関が提供するネットワークドライブです。しかしながら、機関によってはこうした環境が提供されていない場合もあります。 データの保存場所は、以上のような各保存場所の特徴を考慮して、選択する必要があります。 このとき、容量や費用、簡便さに加え、信頼性や安全性を考慮することが重要となります。 容量や費用、簡便さに加え、信頼性や安全性を考慮することが重要
3.1.2 バックアップ 研究を円滑に進めるためにも、バックアップを適切に実施することは不可欠。不用意な ファイルの削除や上書き、システム障害にも対応可能。 場所 3.1.1で述べた保存場所と同様の選択肢の中から、適切なものを選択。 機関が提供するネットワークドライブでは、同時にバックアップサービスを提供する場合もあ り。 オンラインストレージを選択する場合には、セキュリティポリシーの順守を留意。 方法 手動ではなく、バックアップソフトウエアなどを利用し定期的にバックアップを取得。 定期的にバックアップされていることの確認。 バックアップからリストアできることを確認。 ディスク容量やバックアップに必要な時間を勘案し、フルバックアップ、増分・差分バック アップから適切な方法を選択。 ファイルの更新頻度などから、適切なバックアップ頻度を設定。 例 日次:差分バックアップ、月次:フルバックアップ 災害等を考慮し、複数の場所にバックアップを取得することを推奨 不慮のトラブルで研究データを失った際にも、バックアップデータがあれば、トラブルの影響を最小限に抑えることができます。 機関が提供するネットワークドライブでは、同時にバックアップサービスを提供する場合もありますが、次に説明するようなバックアップの条件を事前に確認し、必要に応じて追加のバックアップを実行することが望まれます。 必要な時に限って直近の状態のバックアップをとっていなかった、という不運なトラブルを避けるためにも、バックアップは手動ではなく、バックアップソフトウエアなどを利用し定期的にバックアップを取得する環境を整えておく必要があります。 バックアップソフトウエアを利用する際には、定期的にバックアップされていることや、バックアップからリストアできることを事前に確認しておくことが望まれます。 バックアップには、いくつかの方法がありますが、ディスク容量やバックアップに必要な時間を勘案し、フルバックアップ、増分・差分バックアップから適切な方法を選択する必要があります。 例えば、毎日のバックアップは差分バックアップを実行し、ひと月に一度フルバックアップを実行するという方法があります。 また、災害対策として、複数の場所にバックアップを取得することが望まれます。
3.1.3 セキュリティ 物理的なセキュリティ対策 PC上でのセキュリティ対策 個人情報・プライバシー保護 離席する際のPCをロック 部屋の施錠 モバイルPCを放置しない USBメモリ等を紛失しないための対処 PC上でのセキュリティ対策 アンチウィルスソフトウェア/ファイアウォールの導入 ソフトウエアやOSのアップデート 適切な強度のパスワードや認証方法の利用 ファイルやハードディスク、USBメモリ等の暗号化 例 WindowsのBitLockerやMacのFileVaultの利用、USBメモリは暗号化できるもののみ利用する など、機関のセキュリティポリシーやガイドラインで定められた方法を遵守。 個人情報・プライバシー保護 個人情報やプライバシー情報などのセンシティブなデータを扱う場合は、機密性や完全性に関 する取り扱い方法を明確にした上で、データの適切な保存・解析環境を用意することが必要。 例 高等教育機関の情報セキュリティ対策のためのサンプル規程集 (C2103 情報格付け基準) http://www.nii.ac.jp/csi/sp/ セキュリティにまつわる問題は、ハードウエアトラブルだけではありません。盗難やウイルスにより研究データを失ったり、外部に流出させる危険性もあります。 物理的なセキュリティ対策、PC上でのセキュリティ対策、個人情報・プライバシー保護の、それぞれの項目で挙げた考慮すべき点の多くは、機関のセキュリティポリシーを遵守するうえで不可欠な内容となっています。 セキュリティポリシーに沿った研究活動や環境を整備することで、トラブルを回避し、総合的には円滑な研究活動に繋がります。
3.2 長期保存
3.2.1 不正対策 機関としての義務が明記されていることが重要 図書館としての役割を明確化していくことが重要 1.1.2に示したように、文部科学省のガイドラインをもとに審議が依頼された日本学術 会議の回答では、研究データの10年間の保存を原則とした上での規定のモデルが提案。 文科省「研究活動における不正行為への対応等に関するガイドライン」 http://www.mext.go.jp/b_menu/houdou/26/08/__icsFiles/afieldfile/2014/08/26/1351568_02_1.pdf 日本学術会議「科学研究における健全性の向上について」 http://www.scj.go.jp/ja/info/kohyo/pdf/kohyo-23-k150306.pdf さらに 日本学術会議の回答では研究データを保存する際の各者の責任についても言及。 研究者個人 研究記録やメタデータの整理により、検索・抽出可能な形で整理・保管適正なバックアップの作 成 研究室主宰者 教育・指導 メタデータ管理 研究室の統一フォーマットの作成など 研究機関の長 データ・バックアップ用サーバーの提供など、インフラ整備 >第1章も参照 1.1.2でもふれたように、文部科学省のガイドラインをもとに審議が依頼された日本学術会議の回答では、研究データの10年間の保存を原則とした上での規定のモデルが提案されています。 さらに、研究データを保存するうえでの、研究者個人、研究室主宰者、研究機関の長、それぞれの責任についても言及されています。 この回答に基づいて各機関では、研究データの保存に関するガイドラインや規定が定められてきています。 各機関における、規定の整備状況や、研究データの保存やバックアップを適切に実現するための機関としての基盤の整備状況を把握したうえで、3.1で学んだ内容と対比することが不可欠です。 ルールのためのルールに留まらず、研究者を守り、研究を円滑に進めるために不可欠な環境を構築していかなければなりません。 機関としての義務が明記されていることが重要 図書館としての役割を明確化していくことが重要
3.2.2 フォーマット 研究資料の長期的な保存を考える場合、適切なファイルフォーマットを選択す ることが重要。 一般的にファイルの拡張子(.pdf, .jpg)は、ファイルフォーマットに関する情報を提 供。 推奨されるファイルフォーマット 特定の商用ソフトウェアと独立したフォーマット 仕様が国際標準化されているフォーマット 広く普及しているフォーマット フォーマット変換のリスク フォーマットを変換することにより、ファイル内部に記録されたメタデータや画 像の品質、文章構造などの情報を失う可能性大。 テキストとバイナリの比較 テキストファイルは環境に依存せず開くことができ人間可読性高。 バイナリファイルはよりリッチな情報を包埋していることが多いが人間可読性低。 オープンサイエンスにおける研究データの共有の実現や、不正対策における研究データの保存を満足するためには、論文を執筆するまでの短期的な視点ではなく、長期的に研究データが利用できる状態を確保する必要があります。 その際に必要となるのが、どのような形式でファイルを保存すべきか、というファイルフォーマットの問題です。 一般的に、.pdfや.jpgといったファイルの拡張子は、ファイルフォーマットに関する情報を提供しています。 長期的な保存のために推奨されるファイルフォーマットとしては、特定の商用ソフトウェアのみで読み込み可能なフォーマットとは異なる独立したフォーマット、仕様が国際標準化されているフォーマット、一般的に広く普及しているフォーマット、を利用することが挙げられます。 そうした条件にあわせるために、例えば、特定の商用ソフトウェアで作成されたファイルフォーマットから、より汎用的なフォーマットに変換する場合には、注意しなければならない点があります。 フォーマットを変換することにより、ファイル内部に記録されたメタデータや画像の品質、文章構造などの情報が失われる可能性があります。 そうしたリスクを十分考慮したうえで、オリジナルデータをどのようなフォーマットで保存するのが適切かを決定する必要があります。 また、ファイルフォーマットは、テキスト形式とバイナリ形式に大別できます。テキストファイルは環境に依存せず開くことができるため、人間の可読性が高く、バイナリファイルはよりリッチな情報を包埋していることが多いが、人間の可読性が低い、という特徴があります。 こうした特徴の差異を考慮したうえで、研究データの共有や公開に適切なフォーマットを選択する必要があります。
3.2.3 メタデータ メタデータは “データに関するデータ” と定義 データの詳細情報や文脈を記述する情報 文書(データに関する記録)は人の利用を想定し、メタデータは 特に機械処理を想定 システム間の相互運用性を重視 データセットを検索可能に メタデータはリポジトリの検索に必要な要素を提供 リポジトリで公開せずに非公開の状態で管理する場合にも、適切なメタデータを付 与し、検索可能性や追跡可能性を担保しておくことで、独自の再利用や不正対策へ の対応として重要。 データセットを引用可能に メタデータはデータセットの引用のための要素を提供 >第4章も参照 データに関するデータと定義されるメタデータには、いつ、どこで、だれが計測したデータか、などの情報が記録されます。 ある研究データがどのようなデータであるかを、文章で記録する場合もありますが、そうしたデータに関する文章での記録は、人間が解釈することを想定したものです。 一方でメタデータは、人間に加えて、機械処理にも適しています。 例えば、適切なメタデータを研究データに付与して公開・収集することで、データセットが検索可能なサービスを提供することができます。 すなわち、適切なメタデータを付与することで、公開する研究データの可視性が向上します。 公開のためだけではなく、非公開の状態で研究データを管理する場合にも、意義があります。 適切なメタデータを付与し、検索可能性や追跡可能性を担保しておくことで、独自の再利用や不正対策への対応として役立ちます。 また、検索サービスでの利用だけではなく、公開した研究データを他の研究者が引用する際にも、必要な情報源となります。 メタデータに関する詳細や研究データ引用の方法については、4章で詳しく説明します。
3.3 共有
3.3.1 オープン/クローズ 研究データを公開することの意義 研究データを非公開とする必要性 研究成果の透明性や公正性の確保 研究資金助成機関からの要求への対応 研究成果への直接的な引用や再利用によるインパクト 新たな研究コミュニティの創出や産学連携への発展 派生的な成果や新たな解釈への発展によるイノベーションの創出 適切に管理し保存することによる自身のための再利用性の向上 若手研究者や学生に対するデータの収集や解析に関する教育的効果 市民や納税者からの研究に対する理解の向上 研究データを非公開とする必要性 知的財産的な価値がある研究成果に対する戦略的な占有 複数の関係者が知的財産権を保持したり秘匿義務がある場合 個人情報やプライバシー情報などのセンシティブな情報を含む場合 研究データを公開することには、研究成果の透明性や公正性の確保や、研究費の助成機関からの要求への対応、研究成果への直接的な引用や再利用によるインパクトの増加といったメリットが挙げられます。 ただし、全ての場合において研究データを公開することが研究活動に有利に働くわけではありません。 知財的な観点から戦略的に非公開とする場合もありますし、研究データに個人情報やプライバシー情報が含まれる場合は研究データを公開するべきではありません。 研究データの公開や共有をサポートする立場としては、単にオープン化を推進するのではなく、機関、研究者自身、研究コミュニティなどでオープン・クローズ戦略を十分に検討したうえで、適切な方法を採用する必要があります。 単にオープン化を推進するのではなく、機関、研究者自身、研究コミュニティなどでオープン・クローズ戦略を十分に検討することが重要
3.3.2 データリポジトリ 研究データを適切なメタデータと共にリポジトリから公開することで、オープンサイエ ンス・助成機関の要請・研究公正といった多面的なニーズに対応。 分野別リポジトリ 世界には数多くのデータリポジトリが既に存在。 http://www.re3data.org/ 研究者にとっては研究コミュニティに対して可視性の高い分野別リポジトリから研究データを 公開する意義大。 機関リポジトリ 日本のほぼ全ての大学が機関リポジトリを保有。 http://irdb.nii.ac.jp/ 研究資料の10年間保存を確実に実行するためには、機関が管理する機関リポジトリを活用する 意義大。 公開だけではなく、非公開とする研究資料の所在を管理するシステムとしても活用していく必要 あり。 メタデータの整備や検索可能性、追跡可能性を担保するシステムとしても活用していく必要あり。 研究データを適切なメタデータと共にリポジトリから公開することは、オープンサイエンスへの寄与や助成機関の要請、あるいは、研究公正といった多面的なニーズに対応する、研究者にとって重要な活動の一つとなりつつあります。 世界には数多くのデータリポジトリが既に存在し、分野別のデータリポジトリを検索できるサイトも立ち上がっています。 分野別のデータリポジトリから研究データを公開することは、研究コミュニティに対する研究成果の可視性を直接的に向上できるという側面から重要な意味をもちます。 一方で、日本では、すでにほぼ全ての大学が機関リポジトリを保有しています。 研究データの公開先として、機関リポジトリを活用することは、機関としてのオープンサイエンスや助成機関の要請に対する寄与や、研究資料の10年間保存を確実に実行するという側面から重要な意味をもちます。 公開だけではなく、非公開とする研究資料の所在を管理するシステムとして活用することもできます。 メタデータの整備や検索可能性、追跡可能性を担保するシステムとして、機関リポジトリをどのように活用するかを機関として明確化しておくことが重要です。 研究データの保存・公開の義務化に対して、機関リポジトリをどのように活用するかを機関として明確化しておくことが重要
3.4 再利用
3.4.1 検索 データリポジトリの登録サイトはいくつかあるが、それらに対応する包含的な アグリゲータや検索サービスは発展途上。現状では、データリポジトリを検索 してから、そのデータリポジトリ内でデータを検索するなどのステップが必要。 論文の引用情報からデータを参照 論文内での引用方法については4.4.3を参照 データリポジトリの登録サイトで検索したい分野のデータリポジトリを検 索 re3data.org http://service.re3data.org/search/ OpenDOAR http://www.opendoar.org/ ROAR http://roar.eprints.org/ MERIL http://portal.meril.eu/ biosharing.org https://biosharing.org/ データリポジトリ内での検索 DataCiteでの検索(DOIが付与されたデータセットのみ) スライドのリストにも挙げたように、データリポジトリの登録サイトはすでにいくつか存在します。 しかしながら、それらに対応する包含的なアグリゲータや検索サービスについては、論文ほどは整備されていないのが現状です。 現状では、データリポジトリを検索してから、そのデータリポジトリ内でデータを検索するなどのステップが必要となります。 こうした状況は急速に改善され、さらに使いやすい研究データの検索サービスが開発・提供されるものと考えられます。 研究データ検索に関する情報については、常に最新の動向をチェックしておくことが重要です。
3.4.2 引用 データ引用することで、以下のことが期待できる なぜデータの引用情報を提供するのか? 著者の情報源を周知 データを容易に特定可能 研究結果の再現を促進 データのインパクトを追跡可能 データ作成者の評価が可能 なぜデータの引用情報を提供するのか? 自身の業績の引用情報を提供することで、データを利用 した人が正確に引用することが可能。 >第4章も参照 論文と同様に、研究データについても論文内で引用する習慣が広がってきました。 論文内で研究データを引用することは、著者の情報源を周知することができる、読者がデータを容易に特定することができる、必要な情報を読者が適切に入手できることで研究結果の再現が促進されるというメリットがあります。 また、より広範な視点からは、公開された研究データのインパクトが追跡可能になる、あるいは、研究データを公開した研究者の評価が可能になるといった、科学全体の活性化の材料にも繋がります。 データの引用に関する詳細については4章で改めて説明しますが、研究データを引用可能な状態にしておくことは、研究データの提供者と利用者の双方に大きなメリットがあります。