Download presentation
Presentation is loading. Please wait.
1
研究データのライフサイクルと 本コンテンツとの関わり 生成 加工 分析 保存 公開 再利用 7 6 1 2 3 4 5 1章 導入 1 3
1章 導入 生成 加工 分析 保存 公開 再利用 1 3 2 4 5 6 7 2章 データ管理計画 2 5 2 4 3章 保存と共有 5 4章 組織化、文書化、 メタデータ作成 研究データのライフサイクル 2 2 5章 法・倫理的問題 4 5 2 研究データにはどのように生成され、保存され最終的に再利用されていくのかといったライフサイクルがあります。本『研究データ管理トレーニングツール』の各章では、研究データをどのように管理していくかについて解説していきます。この図は『研究データ管理トレーニングツール』の各章がその研究データのライフサイクルに対して、どのように関わってくるかを表した図です。 例えば、第三章「保存と共有」は研究データの保存、公開、再利用の部分に関わってくることがわかるようになっています。学習中、研究データ管理のどの部分を学んでいるのかをこの図を見ながら常に意識してください。 6章 ポリシー 5 ・The UK Data Archive ( ) ・RDM Support - basic training course for information specialists ( 7章 研究データ管理サービス の設計
2
1. 導入 Introduction それでは、第一章「導入」に入っていきます。
それでは、第一章「導入」に入っていきます。 この章では、これから研究データ管理について学んでいく上で、なぜ研究データ管理の必要があるのか、その背景について学びます。また、これから学習を進める上で基礎となる研究データの定義についても触れていきます。 Introduction
3
1.1 背景 まずは、研究データ管理が求められる背景についてみていきましょう。
4
1.1.1 オープンサイエンスの潮流(1) オープンサイエンスとは、オープンアクセスと研究データのオープ ン化(オープンデータ)を含む概念である。オープンアクセスが進む ことにより、学界、産業界、市民等あらゆるユーザーが研究成果を広 く利用可能となり、その結果、研究者の所属機関、専門分野、国境を 越えた新たな協働による知の創出を加速し、新たな価値を生み出して いくことが可能となる。また、オープンデータが進むことで、社会に 対する研究プロセスの透明化や研究成果の幅広い活用が図られ、また、 こうした協働に市民の参画や国際交流を促す効果も見込まれる。さら に、研究の基礎データを市民が提供する、観察者として研究プロジェ クトに参画するなどの新たな研究方策としても関心が高まりつつあり、 市民参画型のサイエンス(シチズンサイエンス)が拡大する兆しにあ る。近年、こうしたオープンサイエンスの概念が世界的に急速な広が りを見せており、オープンイノベーションの重要な基盤としても注目 されている。 これは、平成28年1月に内閣府の策定した第5期科学技術基本計画の一部です。 その中で、オープンサイエンスとは、論文やそのエビデンスとしての研究データなどの研究成果を広く一般社会へ公開し、イノベーションの創出へとつなげることとされています。 そのメリットとして、分野を超えた新たな知見の創出や、研究成果の幅広い活用が図られることなどが挙げられます。 第5期科学技術基本計画 本文 より
5
1.1.1 オープンサイエンスの潮流(2) こうした潮流を踏まえ、国は、資金配分機関、大学等の研究機関、 研究者等の関係者と連携し、オープンサイエンスの推進体制を構築す る。公的資金による研究成果については、その利活用を可能な限り拡 大することを、我が国のオープンサイエンス推進の基本姿勢とする。 その他の研究成果としての研究二次データについても、分野により研 究データの保存と共有方法が異なることを念頭に置いた上で可能な範 囲で公開する。 第5期科学技術基本計画では、「国は、資金配分機関、大学等の研究機関、研究者等の関係者と連携し、オープンサイエンスの推進体制を構築する。」とあり、論文のみならず研究データもオープンにしていくことが、我が国の基本姿勢となることが明記されています。 第5期科学技術基本計画 本文 より
6
1.1.2 不正対策 『研究活動における不正行為への対応等に関するガイドライン』 (文部科学省)*1
p8「このことから、研究機関において、研究者に対して一定期間研究 データを保存し、必要な場合に開示することを義務付ける旨の規程を設 け、その適切かつ実効的な運用を行うことが必要である。」 『科学研究における健全性の向上について』(日本学術会議)*2 p8「資料(文書、数値データ、画像など)の保存期間は、原則として、 当該論文等の発表後10年間とする。電子化データについては、メタデー タの整理・管理と適切なバックアップの作成により再利用可能な形で保 存する。」 一方で、研究データ管理が注目される背景には、研究不正を防止する役割への期待もあります。 研究データに関しては文部科学省の提示した『研究活動における不正行為への対応等に関するガイドライン』でも「研究者に対して一定期間研究データを保存し、必要な場合に開示することを義務付ける」と明記されています。 また、文部科学省の依頼を受けて審議が行われた日本学術会議の『科学研究における健全性の向上について』においては、保存期間は原則として論文発表後10年間という具体的な数字にまで言及されています。 *1 *2
7
1.1.3 助成機関のポリシー 研究資金の助成機関によっては、研究資金提供の条件として、研究データ管理を文書化したデータ管理計画 (Data Management Plan / DMP) の提出を義務付けているところもある。 e.g.) イギリスの助成機関における資金提供ポリシー一覧 ポリシーの範囲 ポリシーの条項 支援体制 助成機関 論文等 データ 時限 DMPの提出 共有 長期的整備・保存 監視 ガイダンス リポジトリ データセンター 諸費用の負担 AHRC ● BBSRC CRUK EPSRC ESRC MRC NERC STFC Welllcome Trust 研究資金の助成機関のなかには、データ管理計画、英語ではData Management Plan、略してDMP、と呼ばれる研究データ管理に関する計画書の提出を資金提供の条件にしているところもあります。スライド資料の表は、その例としてイギリスの助成機関の資金提供ポリシーをまとめたものです。このように、多くの助成機関がDMPの提出を求めていることがわかります。 DMPに関しては、第二章で詳しく取り上げます。 ●はポリシーでカバーしている、●は部分的にカバーしている、●はカバーしていないことを示す。
8
1.2 研究データとは 研究データ管理が求められている背景がわかったところで、ではそもそも研究データとはなにかについてみていきましょう。
9
1.2.1 研究データとは 研究データとは研究の過程で、あるいは研究の結果として 収集・生成される情報である。仮説を検証するために使用 されたり、結論を導くための根拠となる。また、後に研究 結果が正しいかどうか確認するために使用されることもあ る。 電子的なデータのみ研究データと定義することも、紙ベー スの情報も研究データに含める場合もある。 研究データのとる形式はテキストや3Dモデルなど様々であ り、記録されるものも研究ノートや写真、音声テープなど 多岐にわたる。 研究データとは、研究の過程、あるいは研究の結果として収集・生成される情報です。仮説を検証するために使用されたり、結論を導くための根拠となります。また、後に研究結果が正しいかどうか確認するために使用されることもあります。 電子的なデータのみ研究データと定義することも、紙ベースの情報も研究データに含める場合もあります。 また、研究データのとる形式はテキストや3Dモデルなど様々であり、記録されるものも研究ノートや写真、音声テープなど多岐にわたります。 研究データの定義は、研究機関や助成機関によって異なる場合があります。必要に応じて、それぞれの定義を確認して下さい。
10
1.2.2 研究データを構成するもの 文書ファイル、スプレッドシート 研究ノート、フィールドノート(野外調査の記録)、日誌
アンケート、転写物、コードブック 音声テープ、ビデオテープ 写真、フィルム 試験・検査への反応、応答 スライド、人工物、標本、サンプル 研究の過程で獲得され、生成されたデジタル資料のコレクション 統計的なデータファイル データベースのコンテンツ(ビデオ、音声、テキスト、画像) モデル、アルゴリズム、スクリプト アプリケーションソフト 方法論、ワークフロー 標準的な操作手順 研究データは、ノートに記録されたものからデータベースに格納されたものなど、様々なもので構成されています。ここにあげたのは、その一例です。各研究データを電子的に保存するためのファイルフォーマットには、テキスト、数値、画像、音声形式などがあります。ファイルフォーマットの詳細については、第三章で詳しく取り上げます。
11
1.2.3 研究データの具体例 観測データ (Observational) 実験データ (Experimental)
自然現象等を観測し取得されたデータ。 例:天体観測、気象観測、社会調査 実験データ (Experimental) 実験によって得られたデータ。高価になることもある。 例:DNAシークエンス、クロマトグラム、微量検定法により得られたデータ シミュレーション (Simulation) モデルやコードを用いて生成されたデータ。得られたデータに加え、使用された モデルやコード、パラメータセットも重要。 例:気象モデル、経済モデル 派生データ・編集されたデータ (derived/compiled) 取得したデータを加工、あるいは結合することによって得られたデータ。 例:データマイニング、テキストマイニング、3Dデータ 参照/標準データ (Reference or canonical) 研究の過程で参照されるデータ、データセット。あるいは標準的なデータのコレ クション。整理・共有されているものも多い。 例:遺伝子配列データバンク、結晶データベース、歴史画像アーカイブ 研究データは、目的に応じて様々な手段で取得されます。ここでは、研究データの具体例をいくつか挙げてみました。 まず、自然現象等の観測により取得されたデータです。例えば、天文観測や気象観測などがあげられます。 次は、実験によって得られたデータです。DNAシーケンスやクロマトグラムなどがあげられます。 モデルやコードを用いてシミュレーションをした結果得られたデータもあります。得られたデータに加え、シミュレーションに使用されたモデルやコード、パラメータセットも管理すべきデータとして重要です。このタイプの研究データの例として、気象モデルや経済モデルなどに基づくデータなどがあげられます。 取得した生データを編集・加工したデータもあります。データマイニングなどにより処理されたデータなどがあげられます。 また、研究の過程で参照するデータセットもあります。例えば、遺伝子配列データバンクや歴史画像アーカイブなどがあげられます。
12
1.2.4 研究データのライフサイクル 生成 加工 分析 保存 公開 再利用
次に、本章の冒頭にもあげた、研究データが作られてから再利用されるまでのライフサイクルの図をもう一度見てみましょう。 まず、データの「生成」の段階、ここでは研究そのものの計画とともに、データ管理計画の策定やデータの共有方針が定められます。そして既存のデータの検索が行われたり、新たにデータが収集されていきます。 次にデータの加工の段階では、収集されたデータの、デジタル化、形態変換、確認、検証、クリーニングなどが行われます。その他、データの個人情報の匿名化作業も必要となる場合があります。 データの分析の段階では、収集・加工したデータから必要なデータを抽出したり、データから情報を読み取ることなどをします。ここで、論文など、研究のアウトプットの作成や、データの保存に向けた準備をしていきます。 データの保存の段階では、データを適切なフォーマットやサイズに変更し、バックアップを作成し、メタデータや証拠文書の作成も行います。 データの公開の段階では、データの配布、共有、アクセス制御、著作権処理等をしています。 そして、公開されたデータは、追跡研究や新たな研究で再利用されます。データは、研究の評価・精査に利用されたり、あるいは教育・学習にも役立てられたり、イノベーション創出の過程で使われることがあります。 ・The UK Data Archive ( ・RDM Support - basic training course for information specialists (
13
1.2.5 研究と研究データ 研究データはしばしば、その研究データが得られた 研究プロジェクトよりも寿命が長い。研究者は資金 援助が終わった後もデータに関する作業を続け、後 に続く研究ではそのデータが分析されたり、新たに 追加され、さらには他の研究者によって再利用され ることもありうる。 組織化、文書化、保存・共有がしっかりとされた データは科学研究を推進することや、学習及びイノ ベーションの機会を増やすことにおいて計り知れな い価値がある。 以上のことからわかるように、一般に、研究データはそれが得られた研究のプロジェクトよりも長く使われます。研究データを得た研究者、あるいは他の研究者によって再利用されるためです。 したがって、組織化、文書化、保存・共有がしっかりとされたデータは科学研究を推進することや、学習及びイノベーションの機会を増やすことにおいて計り知れない価値があります。 より
14
1.3 研究データ管理とは 本ツールでは、電子的なデータのみを対象として、 その扱い方について学んでいきます。
研究データがどのようなものかをつかめたところで、次に、研究データ管理についてみていきます。なお、本『研究データ管理トレーニングツール』では、電子的なデータのみを対象として、その扱い方について学んでいきます。 本ツールでは、電子的なデータのみを対象として、 その扱い方について学んでいきます。
15
1.3.1 研究データ管理 (Research data management) とは
RDMS | Introduction to research data 14 January 2014 1.3.1 研究データ管理 (Research data management) とは 「研究データ管理」とは、一般的にある研究プロジェクト において使用された、あるいは生成された情報を、どのよ うに組織化、構造化、保管、管理していくのかを指す言 葉。 研究データ管理には次のようなことが含まれる: どのようにデータを取り扱っていくかの計画(Data Management Plan)策定 研究プロジェクトが行われている間の、日々の情報の取り扱い 方 長期的にデータをどのように取り扱うか(研究プロジェクトが 終わった後はそのデータをどうするのか) >第2章も参照 研究データ管理は英語ではResearch Data Management、略してRDMと言います。 「研究データ管理」とは、一般的に、ある研究プロジェクトにおいて使用された、あるいは生成された情報を、どのように組織化、構造化、保管、管理していくのか、を指す言葉です。 研究データ管理には、たとえば次のようなことが含まれます。 ・どのようにデータを取り扱っていくかの計画策定 ・研究プロジェクトが行われている間の日々の情報の取り扱い方 ・長期的にデータをどのように取り扱うか このうち、データの取り扱いに関する計画を一般的にデータ管理計画(DMP)といいます。先ほど助成機関のポリシーを紹介しましたが、このDMPの提出を研究資金の提供条件としている海外の助成機関もあり、日本でも今後ますます重要となっていきます。DMPについては詳しくは第二章で学びます。
16
RDMS | Introduction to research data
14 January 2014 1.3.2 研究データ管理のメリット 研究効率 研究効率の上昇 長期的に時間や資源を節約 データセキュリティの強化とデータ消失リスクの最小化 データを他の研究者が再利用することにより、労力の重複を避ける ある時点のデータを他の時点と比較できるデータを提供することにより、データ の変化の分析を容易にする ポリシー 資金提供元の要求を満たす 産業界や商業界の慣行に従う 研究倫理 研究の再現性の確立 研究データや研究記録の正確性、完全性、真正性、信頼性の保障 研究データを適切に管理することによって様々なメリットがあります。 たとえば、時間の節約やデータ消失リスクを抑える、労力の重複を避けることなどの研究効率に関わるメリットや、助成機関等の資金提供元の要求を満たすといったポリシーに関わるメリットがあります。また、研究の再現性を確立させることや、研究データの信頼性を担保するなど、研究の倫理に関わるメリットもあります。
17
1.3.3 研究データ管理と大学図書館 すでに海外の大学ではデータ管理計画作成等の研究 データ管理業務に関する支援サービスを図書館や他 の関連組織が共同で行っているところもある 例1:バージニア大学 例2:エディンバラ大学 pdf 例3:ケンブリッジ大学 例4:アムステルダム大学 >第7章も参照 すでに海外の大学では、データ管理計画作成等の研究データ管理業務に関する支援を図書館や他の関連組織が共同で行っているところもあります。これらの大学はその例です。第7章では、これらの大学が提供している研究データ管理サービスについて詳しく解説します。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.