Presentation is loading. Please wait.

Presentation is loading. Please wait.

ゲノムとデータベース データベースの利用場面 システムに対する要求

Similar presentations


Presentation on theme: "ゲノムとデータベース データベースの利用場面 システムに対する要求"— Presentation transcript:

1 ゲノムとデータベース データベースの利用場面 システムに対する要求
情報科学講究II (2) ゲノムとデータベース データベースの利用場面     システムに対する要求

2 今回の目標 データベースの役割について理解しよう どんなデータベースがあるのか? データベース技術から見て何を考えなければ ならないか?
データベース技術から見て何を考えなければ  ならないか? 今日のタネ本は Bryan Bergeron著、清水謙多郎・中村周吾訳 「バイオインフォマティクス・コンピューティング」 オーム社 ISBN  2004年2月  第2章 講究II (2) 2007/9/28

3 バイオ系DBの実態 たくさんのデータベースがある 役割は2方面がある ユーザにとってDB技術問題はどうでもいい 公共に使える vs 私企業
いろいろな内容・目的 役割は2方面がある データを蓄積・提供する場所として ← 普通ある話 データを集積する場所として(リポジトリ)    ← バイオ系では成功(?) ユーザにとってDB技術問題はどうでもいい データモデル、更新の衝突… ← 解決されて当然 講究II (2) 2007/9/28

4 実態~どんなものがあるか? 例: 35ページ 表2.1 「公共」DB 塩基配列・タンパク質配列 立体構造
例: 35ページ 表2.1  「公共」DB 塩基配列・タンパク質配列 立体構造 モチーフ(=機能単位)・アラインメント 医学文献・分子病など症例系 広く関連する情報 「必要があるから作る」 ⇒ 多様なDB 例)独自の情報を追加して別のDB 講究II (2) 2007/9/28

5 例) 塩基配列 (おそらく)スタートはこれだった 符号化されていてDBに作りやすい
例) 塩基配列 (おそらく)スタートはこれだった 符号化されていてDBに作りやすい 「リポジトリ」として ~ 研究者間の協調が大   任意→公共資金「ゲノムプロジェクト」 GenBank 米国NCBI(NIH/NLH)が運用するDB DDBJ 日本(国立遺伝学研究所)が運用するDB EMBL 欧州EMBL-EBIが運用するDB この3者が連携して公共DBサービスを提供 講究II (2) 2007/9/28

6 GenBank http://www.ncbi.nlm.nih.gov/Genbank/
GenBank® is the NIH genetic sequence database, an annotated collection of all publicly available DNA sequences ( Nucleic Acids Research 2006 Jan 1;34(Database issue):D16-20). There are approximately 65,369,091,950 bases in 61,132,599 sequence records in the traditional GenBank divisions and 80,369,977,826 bases in 17,960,667 sequence records in the WGS division as of August 2006. 講究II (2) 2007/9/28

7 DDBJ http://www.ddbj.nig.ac.jp/
DDBJ は,DNA Data Bank of Japan の略称です。 DDBJ は欧州の EBI/EMBL および米国の NCBI/GenBank との密接な連携のもと「DDBJ/EMBL/GenBank 国際塩基配列データベース」を構築している三大国際 DNA データバンクのひとつです。 静岡県三島市にある国立遺伝学研究所 生命情報・DDBJ 研究センター内で運営されています。 主な活動 国際塩基配列データベースの共同構築と運営 関連生命情報データベースの運営 DNA データベースのオンライン利用の管理・運営 ソフトウエアの開発 広報活動 国立遺伝学研究所コンピュータシステムならびにネットワークの管理・運用 講究II (2) 2007/9/28

8 EMBL Nucleotide Sequence Database http://www.ebi.ac.uk/embl/
The EMBL Nucleotide Sequence Database (also known as EMBL-Bank) constitutes Europe's primary nucleotide sequence resource. Main sources for DNA and RNA sequences are direct submissions from individual researchers, genome sequencing projects and patent applications. 講究II (2) 2007/9/28

9 例) タンパク質 配列・構造 タンパク質の配列のDB タンパク質の構造のDB
例) タンパク質 配列・構造 タンパク質の配列のDB ExPASy (Swiss-Prot) スイスバイオインフォ研究所   の配列DB PIR   ジョージタウン大学の管理するDB タンパク質の構造のDB PDB (Protein Data Bank) RCBSの立体構造DB MMDB (Molecular Modelling DB) NCBIのDBでEntrez   の一部。 構造データはPDBを参照している 講究II (2) 2007/9/28

10 ExPASy Proteomics Server http://au.expasy.org/
The ExPASy (Expert Protein Analysis System) proteomics server of the Swiss Institute of Bioinformatics (SIB) is dedicated to the analysis of protein sequences and structures as well as 2-D PAGE (Disclaimer/References). UniProt Knowledgebase (Swiss-Prot and TrEMBL) - Protein knowledgebase PROSITE - Protein families and domains SWISS-2DPAGE - Two-dimensional polyacrylamide gel electrophoresis ENZYME - Enzyme nomenclature SWISS-MODEL Repository - Automatically generated protein models 講究II (2) 2007/9/28

11 UniProt http://www.pir.uniprot.org/
The UniProt Consortium is comprised of the European Bioinformatics Institute (EBI), the Swiss Institute of Bioinformatics (SIB), and the Protein Information Resource (PIR). UniProt (Universal Protein Resource) is the world's most comprehensive catalog of information on proteins. It is a central repository of protein sequence and function created by joining the information contained in Swiss-Prot, TrEMBL, and PIR. UniProt is comprised of three components, each optimized for different uses. The UniProt Knowledgebase (UniProtKB) is the central access point for extensive curated protein information, including function, classification, and cross-reference. The UniProt Reference Clusters (UniRef) databases combine closely related sequences into a single record to speed searches. The UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences. 講究II (2) 2007/9/28

12 Swiss-Prot Protein knowledgebase TrEMBL Computer-annotated supplement
The UniProt Knowledgebase consists of: UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases. UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 講究II (2) 2007/9/28

13 PIR Integrated Protain Informatics Resource http://pir.georgetown.edu/
The Protein Information Resource (PIR), located at Georgetown University Medical Center (GUMC), is an integrated public bioinformatics resource to support genomic and proteomic research, and scientific studies PIRSF Protein Family Classification System iProClass Integrated Protein Knowledgebase iProLINK Literature, Information & Knowledge 講究II (2) 2007/9/28

14 PDB Protein Data Bank http://www.rcsb.org/pdb/
The RCSB PDB provides a variety of tools and resources for studying the structures of biological macromolecules and their relationships to sequence, function, and disease. The RCSB is a member of the wwPDB whose mission is to ensure that the PDB archive remains an international resource with uniform data. This site offers tools for browsing, searching, and reporting that utilize the data resulting from ongoing efforts to create a more consistent and comprehensive archive. The Research Collaboratory for Structural Bioinformatics (RCSB) is a non-profit consortium dedicated to improving our understanding of the function of biological systems 講究II (2) 2007/9/28

15 MMDB - Entrez's Structure Database http://www. ncbi. nlm. nih
NCBI's structure database is called MMDB (Molecular Modeling DataBase), and it is a subset of three-dimensional structures obtained from the Protein Data Bank (PDB), excluding theoretical models. MMDB is a database of ASN.1-formatted records. It was designed for flexibility, and as such, is capable of archiving conventional structural data as well as future descriptions of biomolecules, such as those generated by electron microscopy (surface models). 講究II (2) 2007/9/28

16 例) 症例系DB 個別のDB 生物医学に関する文献DB
例) 症例系DB 個別のDB OMIM (Online Mendelian Inheritance in ManTM)   ヒトのメンデル遺伝性疾患に関するDB 生物医学に関する文献DB PubMed Medline 米国NIHの運用する生物医学文献   の2次情報DBで、文献情報を広範囲に収集 講究II (2) 2007/9/28

17 OMIM - Online Mendelian Inheritance in Man http://www. ncbi. nlm. nih
Welcome to OMIM, Online Mendelian Inheritance in Man. This database is a catalog of human genes and genetic disorders authored and edited by Dr. Victor A. McKusick and his colleagues at Johns Hopkins and elsewhere, and developed for the World Wide Web by NCBI, the National Center for Biotechnology Information. The database contains textual information and references. It also contains copious links to MEDLINE and sequence records in the Entrez system, and links to additional related resources at NCBI and elsewhere. 講究II (2) 2007/9/28

18 PubMed/Medline http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubmed
PubMed is a service of the U.S. National Library of Medicine that includes over 16 million citations from MEDLINE and other life science journals for biomedical articles back to the 1950s. PubMed includes links to full text articles and other related resources. MEDLINE® - The National Library of Medicine's® (NLM) premier bibliographic database that contains over 13 million references to journal articles in life sciences with a concentration on biomedicine. 講究II (2) 2007/9/28

19 例) その他さまざまな支援情報 表2.1にあるようなもの 材料に関する情報 特許などの情報 化学・生物化学の情報 … 講究II (2)
例) その他さまざまな支援情報 表2.1にあるようなもの 化学・生物化学の情報 材料に関する情報 特許などの情報 講究II (2) 2007/9/28

20 例) 総合DBへの志向 必要となる様々なサービスへの入口として お互いにリンク 例) NIH/NCBIのEntrez
例) 総合DBへの志向 必要となる様々なサービスへの入口として お互いにリンク あるDBの検索結果から、別のDBを検索できる 例)DNA配列 → タンパク質 → 構造・機能 例)アノテーション 例) NIH/NCBIのEntrez NIHの提供する総合サイト NIH/NCBIの提供するサービスへの入口であり その中は他のDBサービスへリンクを提供している 講究II (2) 2007/9/28

21 Entrez http://www.ncbi.nlm.nih.gov/Database
Entrez is the integrated, text-based search and retrieval system used at NCBI for the major databases, including PubMed, Nucleotide and Protein Sequences, Protein Structures, Complete Genomes, Taxonomy, and others. 講究II (2) 2007/9/28

22 データベースの役割を考えてみる DBの役割 (?): 最終目的は、(分子)生物学者の役に立つこと どういうことが知れれば満足なのか?
データを共有する、公開する 大量データ ⇒ 検索の必要 「検索」の拡大 (合致⇒類似検索) ⇒ 道具をそろえる データを集積する、(多方面で生成されるデータを) 最終目的は、(分子)生物学者の役に立つこと   どういうことが知れれば満足なのか? 講究II (2) 2007/9/28

23 (脱線)リポジトリデータの信頼性 研究者がデータを寄せ合う ⇒ 同じ信頼性が得られる保証は無い
研究者がデータを寄せ合う  ⇒ 同じ信頼性が得られる保証は無い 現実に、実験精度・環境の相違から  ものによってかなり精度が違う場合がある DNA塩基配列あたりでは、まあ誰がやっても  同程度の精度が出た    装置や処理法・試薬等もかなり統一 DB登録時にチェック ~ (大変な手間だが) DBにデータ提供者の名前を入れる 講究II (2) 2007/9/28

24 情報技術としてのデータベース (同じ形の)データを大量に集積 ⇒ 登録できる+検索できる 平ファイルでは不足 要求をおしなべてみると
(同じ形の)データを大量に集積   ⇒ 登録できる+検索できる 平ファイルでは不足 (平ファイル+アクセスソフト)を共通要素として独立     ~ ミドルウェア 要求をおしなべてみると 大容量 ⇒ 挿入・検索の効率 データ間関係の意味 ⇒ データの構造・スキーマ 信頼性・安定性 ⇒ バックアップ、更新衝突回避 連携・統合(ネットワーク化)  などなど 講究II (2) 2007/9/28

25 データ量? GenBank 65,369,091,950 bases in 61,132,599 sequence records in the traditional GenBank PDB there are Structures PubMed  over 16 million citations from MEDLINE 比較 学生・社員レコード 東邦 5,000 日大 70,000  Ford 300,000  IBM  330,000 講究II (2) 2007/9/28

26 データ間の関係(データモデル) 歴史 階層構造、ネットワーク構造が議論された後、 関係データベースの構造が広く利用されてきた それ以降
データ間の関係(データモデル) 歴史 階層構造、ネットワーク構造が議論された後、 関係データベースの構造が広く利用されてきた 関係 ~ 表として表現、 関係演算 多数のシステム(製品・フリー) アクセス言語としてSQL それ以降 オブジェクトDB XML DB 生命系DBとして何が良いか?  ??? 講究II (2) 2007/9/28

27 「どのシステムを選択すべきか?」 量は増える。でも、 ユーザがやりたいことを、効率よく実現すれば、 モデルや実現法は何でもよい
CPUもディスクも大きくなるので、気にならない? ユーザがやりたいことを、効率よく実現すれば、  モデルや実現法は何でもよい ユーザにとって検索しやすいのがよかろう  (モデルが直感的な操作を反映している方がいい) CPUの処理効率は速いのが良い ~   (よくわからないが類似検索などが問題か?) 統合化・連携が重要 次々にDBを渡り歩く、必要な情報を必要なDBから 講究II (2) 2007/9/28

28 技術者が忘れる「用語のあいまい」 検索したい ⇒ 用語がいろいろある 配列や構造データ以外では、基本的に自然言語記述になる
検索したい ⇒ 用語がいろいろある 配列や構造データ以外では、基本的に自然言語記述になる 攻撃性 aggression? (Bergeron 41ページ)   用語の統一=制限 ⇒ MeSHを見ると… 講究II (2) 2007/9/28

29 MeSH Medical Subject Headings http://www. nlm. nih
MeSH is the National Library of Medicine's controlled vocabulary thesaurus. It consists of sets of terms naming descriptors in a hierarchical structure that permits searching at various levels of specificity. The MeSH thesaurus is used by NLM for indexing articles from 4,800 of the world's leading biomedical journals for the MEDLINE/PubMED® database. It is also used for the NLM-produced database that includes cataloging of books, documents, and audiovisuals acquired by the Library. Each bibliographic reference is associated with a set of MeSH terms that describe the content of the item. Similarly, search queries use MeSH vocabulary to find items on a desired topic. 講究II (2) 2007/9/28

30 the・sau・rus (シソーラス) the・sau・rus
(特に類義語・反意語などを集めた)辞典,類語辞典,百科全書,シソーラス.  ギリシャ語「宝庫」の意 新英和中辞典 第6版 (研究社) 講究II (2) 2007/9/28

31 「用語のあいまい」(続) 書き手のコントロール (特に症例DBの側では) 情報源には、 論文や電子カルテがある
米国では書き手が制限する方向らしい、日本では? 概念の上下関係をも処理に含める 例)食物は野菜の上位概念である。野菜はピーマンの上位概念である。食物はピーマンの上位概念でもある。 「オントロジー」 = 概念・用語の明示的な仕様 広く考えて、「自然言語処理」が入ってくる 講究II (2) 2007/9/28

32 遺伝子オントロジープロジェクト Gene Ontology (GO) 生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクト
講究II (2) 2007/9/28


Download ppt "ゲノムとデータベース データベースの利用場面 システムに対する要求"

Similar presentations


Ads by Google