ゲノムとデータベース データベースの利用場面 システムに対する要求

Slides:



Advertisements
Similar presentations
「画像科学」夏の学校 於 岐阜県土岐市 核融合科学センター ImageJ の基礎からマクロの書き方まで 分子・細胞イメージングセンター (CMCI) 欧州分子生物学研究所( EMBL ) ハイデルベルク 三浦耕太 - 経歴 - ICU ヤクザルの生態調査、キュウリの発生.
Advertisements

Introduction to New Media Development Association June 2001 このプレゼンテーションでは、出 席者間で討論をし、アクション アイテムを作成する場合があり ます。 PowerPoint を使ってプ レゼンテーションの実行中にア クション アイテムを作成する.
だい六か – クリスマスとお正月 ぶんぽう. て form review ► Group 1 Verbs ► Have two or more ひらがな in the verb stem AND ► The final sound of the verb stem is from the い row.
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
“Business English Pro” Why is it necessary to learn this course?
初めてサテライトラボを利用する学生は1-4のステップが必要です。
植物系統分類学・第13回 分子系統学の基礎と実践
[グループ名]向けウェブナー [所属機関名] [日付] [発表者の氏名] [発表者の敬称/肩書]
資料探し.
エビデンスとなる研究論文を検索・読解する必要があります。
英語勉強会.
STEP 2 ノート・テイキングのサンプル.
Chapter 11 Queues 行列.
データベース工学 データベースとは データモデル 関係データベースとSQL 物理データベース編成とインデクス
第3回ライブラリーシステム研究会 ユサコ株式会社
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
2009年 3月 17日 法政大学 常盤祐司、児玉靖司、八名和夫、Ivan Ho、Billy Pham
What did you do, mate? Plain-Past
マウス表現型解析プロトコルの国際的共有 データベースの開発
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
NIIメタデータデータベースの構想 国立情報学研究所 開発・事業部 コンテンツ課 米 澤 誠
東京工科大学 コンピュータサイエンス学部 亀田弘之
第2章 データベースのモデル 2.1 論理表現と3層モデル 2.2 階層モデル 2.3 ネットワークモデル 2.4 関係モデル.
チュートリアル EBSCOhostの概要
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
Unit Book 10_课件_U1_Reading2-8 4 Word power university 1.
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
「串刺し」研究アプローチの例 e-learning e-space 動画配信 システム SOI Smart Web ストリーミング技術
技術参照モデルとシステム要件定義 に関する学習システム
導入予定価格円(仮) 導入予定サービス名 こんな繰り返し作業にうんざりしていませんか? 求人ページ 社内システム
CINAHL データベース チュートリアル 基本検索 featuring:
New accessory hardware Global Platform Division
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
Deep Learningを用いたタンパク質のコンタクト残基予測
資料探し.
春の文献検索講習会2010 練習問題で実践トレーニング
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
サイエンス・テクノロジー・システムズ株式会社 癸生川絵里
Traits 形質.
データベース工学 生研 戦略情報融合研究センタ 喜連川 優.
Present Status of Metbroker
Introduction to Bioinformatics for Medical Application
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
Term paper, Report (1st, first)
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
情報源:MARA/ARMA 加 工:成田空港検疫所 菊池
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
産学連携BICSシンポジウム シリーズ3回 (日本化学会春期年会 平成18年3月28日)
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
第24回応用言語学講座公開連続講演会 後援:国際言語文化研究科教育研究プロジェクト経費
レビューとは (プロジェクト管理の観点から)
Satoshi Kawashima, LLD 川島 聡 University of Tokyo
ORI-GENE A Tool for Gene Classification and Prediction of Function Based on Evolutionary Tree Hideaki Mizuno, Yoshimasa Tanaka, Kenta Nakai, Akinori Sarai.
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
3.リレーショナルデータベース,主キー, SQL
北大MMCセミナー 第62回 附属社会創造数学センター主催 Date: 2016年11月4日(金) 16:30~18:00
北大MMCセミナー 第81回 附属社会創造数学センター主催
The Facilitative Cues in Learning Complex Recursive Structures
Db2 Warehouse on Cloud Db2 on Cloud フルマネージドサービス提案時の注意点
Acknowledgement This research (in part) used the portal website for Structural Life Science Research, developed by the Information Core of the Platform.
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
遺伝統計学 集中講義 (6) 終わりに.
~国際比較にみる達成目標と評価のガイドライン~
医学英語 III 6/11.
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Improving Strategic Play in Shogi by Using Move Sequence Trees
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

ゲノムとデータベース データベースの利用場面 システムに対する要求 情報科学講究II (2) ゲノムとデータベース データベースの利用場面     システムに対する要求

今回の目標 データベースの役割について理解しよう どんなデータベースがあるのか? データベース技術から見て何を考えなければ ならないか? データベース技術から見て何を考えなければ  ならないか? 今日のタネ本は Bryan Bergeron著、清水謙多郎・中村周吾訳 「バイオインフォマティクス・コンピューティング」 オーム社 ISBN4-274-19725-5 2004年2月  第2章 講究II (2) 2007/9/28

バイオ系DBの実態 たくさんのデータベースがある 役割は2方面がある ユーザにとってDB技術問題はどうでもいい 公共に使える vs 私企業 いろいろな内容・目的 役割は2方面がある データを蓄積・提供する場所として ← 普通ある話 データを集積する場所として(リポジトリ)    ← バイオ系では成功(?) ユーザにとってDB技術問題はどうでもいい データモデル、更新の衝突… ← 解決されて当然 講究II (2) 2007/9/28

実態~どんなものがあるか? 例: 35ページ 表2.1 「公共」DB 塩基配列・タンパク質配列 立体構造 例: 35ページ 表2.1  「公共」DB 塩基配列・タンパク質配列 立体構造 モチーフ(=機能単位)・アラインメント 医学文献・分子病など症例系 広く関連する情報 「必要があるから作る」 ⇒ 多様なDB 例)独自の情報を追加して別のDB 講究II (2) 2007/9/28

例) 塩基配列 (おそらく)スタートはこれだった 符号化されていてDBに作りやすい 例) 塩基配列 (おそらく)スタートはこれだった 符号化されていてDBに作りやすい 「リポジトリ」として ~ 研究者間の協調が大   任意→公共資金「ゲノムプロジェクト」 GenBank 米国NCBI(NIH/NLH)が運用するDB DDBJ 日本(国立遺伝学研究所)が運用するDB EMBL 欧州EMBL-EBIが運用するDB この3者が連携して公共DBサービスを提供 講究II (2) 2007/9/28

GenBank http://www.ncbi.nlm.nih.gov/Genbank/ GenBank® is the NIH genetic sequence database, an annotated collection of all publicly available DNA sequences ( Nucleic Acids Research 2006 Jan 1;34(Database issue):D16-20). There are approximately 65,369,091,950 bases in 61,132,599 sequence records in the traditional GenBank divisions and 80,369,977,826 bases in 17,960,667 sequence records in the WGS division as of August 2006. 講究II (2) 2007/9/28

DDBJ http://www.ddbj.nig.ac.jp/ DDBJ は,DNA Data Bank of Japan の略称です。 DDBJ は欧州の EBI/EMBL および米国の NCBI/GenBank との密接な連携のもと「DDBJ/EMBL/GenBank 国際塩基配列データベース」を構築している三大国際 DNA データバンクのひとつです。 静岡県三島市にある国立遺伝学研究所 生命情報・DDBJ 研究センター内で運営されています。 主な活動 国際塩基配列データベースの共同構築と運営 関連生命情報データベースの運営 DNA データベースのオンライン利用の管理・運営 ソフトウエアの開発 広報活動 国立遺伝学研究所コンピュータシステムならびにネットワークの管理・運用 講究II (2) 2007/9/28

EMBL Nucleotide Sequence Database http://www.ebi.ac.uk/embl/ The EMBL Nucleotide Sequence Database (also known as EMBL-Bank) constitutes Europe's primary nucleotide sequence resource. Main sources for DNA and RNA sequences are direct submissions from individual researchers, genome sequencing projects and patent applications. 講究II (2) 2007/9/28

例) タンパク質 配列・構造 タンパク質の配列のDB タンパク質の構造のDB 例) タンパク質 配列・構造 タンパク質の配列のDB ExPASy (Swiss-Prot) スイスバイオインフォ研究所   の配列DB PIR   ジョージタウン大学の管理するDB タンパク質の構造のDB PDB (Protein Data Bank) RCBSの立体構造DB MMDB (Molecular Modelling DB) NCBIのDBでEntrez   の一部。 構造データはPDBを参照している 講究II (2) 2007/9/28

ExPASy Proteomics Server http://au.expasy.org/ The ExPASy (Expert Protein Analysis System) proteomics server of the Swiss Institute of Bioinformatics (SIB) is dedicated to the analysis of protein sequences and structures as well as 2-D PAGE (Disclaimer/References). UniProt Knowledgebase (Swiss-Prot and TrEMBL) - Protein knowledgebase PROSITE - Protein families and domains SWISS-2DPAGE - Two-dimensional polyacrylamide gel electrophoresis ENZYME - Enzyme nomenclature SWISS-MODEL Repository - Automatically generated protein models 講究II (2) 2007/9/28

UniProt http://www.pir.uniprot.org/ The UniProt Consortium is comprised of the European Bioinformatics Institute (EBI), the Swiss Institute of Bioinformatics (SIB), and the Protein Information Resource (PIR). UniProt (Universal Protein Resource) is the world's most comprehensive catalog of information on proteins. It is a central repository of protein sequence and function created by joining the information contained in Swiss-Prot, TrEMBL, and PIR. UniProt is comprised of three components, each optimized for different uses. The UniProt Knowledgebase (UniProtKB) is the central access point for extensive curated protein information, including function, classification, and cross-reference. The UniProt Reference Clusters (UniRef) databases combine closely related sequences into a single record to speed searches. The UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences. 講究II (2) 2007/9/28

Swiss-Prot Protein knowledgebase TrEMBL Computer-annotated supplement The UniProt Knowledgebase consists of: UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases. UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 講究II (2) 2007/9/28

PIR Integrated Protain Informatics Resource http://pir.georgetown.edu/ The Protein Information Resource (PIR), located at Georgetown University Medical Center (GUMC), is an integrated public bioinformatics resource to support genomic and proteomic research, and scientific studies PIRSF Protein Family Classification System iProClass Integrated Protein Knowledgebase iProLINK Literature, Information & Knowledge 講究II (2) 2007/9/28

PDB Protein Data Bank http://www.rcsb.org/pdb/ The RCSB PDB provides a variety of tools and resources for studying the structures of biological macromolecules and their relationships to sequence, function, and disease. The RCSB is a member of the wwPDB whose mission is to ensure that the PDB archive remains an international resource with uniform data. This site offers tools for browsing, searching, and reporting that utilize the data resulting from ongoing efforts to create a more consistent and comprehensive archive. The Research Collaboratory for Structural Bioinformatics (RCSB) is a non-profit consortium dedicated to improving our understanding of the function of biological systems 講究II (2) 2007/9/28

MMDB - Entrez's Structure Database http://www. ncbi. nlm. nih NCBI's structure database is called MMDB (Molecular Modeling DataBase), and it is a subset of three-dimensional structures obtained from the Protein Data Bank (PDB), excluding theoretical models. MMDB is a database of ASN.1-formatted records. It was designed for flexibility, and as such, is capable of archiving conventional structural data as well as future descriptions of biomolecules, such as those generated by electron microscopy (surface models). 講究II (2) 2007/9/28

例) 症例系DB 個別のDB 生物医学に関する文献DB 例) 症例系DB 個別のDB OMIM (Online Mendelian Inheritance in ManTM)   ヒトのメンデル遺伝性疾患に関するDB 生物医学に関する文献DB PubMed Medline 米国NIHの運用する生物医学文献   の2次情報DBで、文献情報を広範囲に収集 講究II (2) 2007/9/28

OMIM - Online Mendelian Inheritance in Man http://www. ncbi. nlm. nih Welcome to OMIM, Online Mendelian Inheritance in Man. This database is a catalog of human genes and genetic disorders authored and edited by Dr. Victor A. McKusick and his colleagues at Johns Hopkins and elsewhere, and developed for the World Wide Web by NCBI, the National Center for Biotechnology Information. The database contains textual information and references. It also contains copious links to MEDLINE and sequence records in the Entrez system, and links to additional related resources at NCBI and elsewhere. 講究II (2) 2007/9/28

PubMed/Medline http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubmed PubMed is a service of the U.S. National Library of Medicine that includes over 16 million citations from MEDLINE and other life science journals for biomedical articles back to the 1950s. PubMed includes links to full text articles and other related resources. MEDLINE® - The National Library of Medicine's® (NLM) premier bibliographic database that contains over 13 million references to journal articles in life sciences with a concentration on biomedicine. 講究II (2) 2007/9/28

例) その他さまざまな支援情報 表2.1にあるようなもの 材料に関する情報 特許などの情報 化学・生物化学の情報 … 講究II (2) 例) その他さまざまな支援情報 表2.1にあるようなもの 化学・生物化学の情報 … 材料に関する情報 特許などの情報 講究II (2) 2007/9/28

例) 総合DBへの志向 必要となる様々なサービスへの入口として お互いにリンク 例) NIH/NCBIのEntrez 例) 総合DBへの志向 必要となる様々なサービスへの入口として お互いにリンク あるDBの検索結果から、別のDBを検索できる 例)DNA配列 → タンパク質 → 構造・機能 例)アノテーション 例) NIH/NCBIのEntrez NIHの提供する総合サイト NIH/NCBIの提供するサービスへの入口であり その中は他のDBサービスへリンクを提供している 講究II (2) 2007/9/28

Entrez http://www.ncbi.nlm.nih.gov/Database Entrez is the integrated, text-based search and retrieval system used at NCBI for the major databases, including PubMed, Nucleotide and Protein Sequences, Protein Structures, Complete Genomes, Taxonomy, and others. 講究II (2) 2007/9/28

データベースの役割を考えてみる DBの役割 (?): 最終目的は、(分子)生物学者の役に立つこと どういうことが知れれば満足なのか? データを共有する、公開する 大量データ ⇒ 検索の必要 「検索」の拡大 (合致⇒類似検索) ⇒ 道具をそろえる データを集積する、(多方面で生成されるデータを) 最終目的は、(分子)生物学者の役に立つこと   どういうことが知れれば満足なのか? 講究II (2) 2007/9/28

(脱線)リポジトリデータの信頼性 研究者がデータを寄せ合う ⇒ 同じ信頼性が得られる保証は無い 研究者がデータを寄せ合う  ⇒ 同じ信頼性が得られる保証は無い 現実に、実験精度・環境の相違から  ものによってかなり精度が違う場合がある DNA塩基配列あたりでは、まあ誰がやっても  同程度の精度が出た    装置や処理法・試薬等もかなり統一 DB登録時にチェック ~ (大変な手間だが) DBにデータ提供者の名前を入れる 講究II (2) 2007/9/28

情報技術としてのデータベース (同じ形の)データを大量に集積 ⇒ 登録できる+検索できる 平ファイルでは不足 要求をおしなべてみると (同じ形の)データを大量に集積   ⇒ 登録できる+検索できる 平ファイルでは不足 (平ファイル+アクセスソフト)を共通要素として独立     ~ ミドルウェア 要求をおしなべてみると 大容量 ⇒ 挿入・検索の効率 データ間関係の意味 ⇒ データの構造・スキーマ 信頼性・安定性 ⇒ バックアップ、更新衝突回避 連携・統合(ネットワーク化)  などなど 講究II (2) 2007/9/28

データ量? GenBank 65,369,091,950 bases in 61,132,599 sequence records in the traditional GenBank PDB there are 39204 Structures PubMed  over 16 million citations from MEDLINE 比較 学生・社員レコード 東邦 5,000 日大 70,000  Ford 300,000  IBM  330,000 講究II (2) 2007/9/28

データ間の関係(データモデル) 歴史 階層構造、ネットワーク構造が議論された後、 関係データベースの構造が広く利用されてきた それ以降 データ間の関係(データモデル) 歴史 階層構造、ネットワーク構造が議論された後、 関係データベースの構造が広く利用されてきた 関係 ~ 表として表現、 関係演算 多数のシステム(製品・フリー) アクセス言語としてSQL それ以降 オブジェクトDB XML DB 生命系DBとして何が良いか?  ??? 講究II (2) 2007/9/28

「どのシステムを選択すべきか?」 量は増える。でも、 ユーザがやりたいことを、効率よく実現すれば、 モデルや実現法は何でもよい CPUもディスクも大きくなるので、気にならない? ユーザがやりたいことを、効率よく実現すれば、  モデルや実現法は何でもよい ユーザにとって検索しやすいのがよかろう  (モデルが直感的な操作を反映している方がいい) CPUの処理効率は速いのが良い ~   (よくわからないが類似検索などが問題か?) 統合化・連携が重要 次々にDBを渡り歩く、必要な情報を必要なDBから 講究II (2) 2007/9/28

技術者が忘れる「用語のあいまい」 検索したい ⇒ 用語がいろいろある 配列や構造データ以外では、基本的に自然言語記述になる 検索したい ⇒ 用語がいろいろある 配列や構造データ以外では、基本的に自然言語記述になる 攻撃性 aggression? (Bergeron 41ページ)   用語の統一=制限 ⇒ MeSHを見ると… 講究II (2) 2007/9/28

MeSH Medical Subject Headings http://www. nlm. nih MeSH is the National Library of Medicine's controlled vocabulary thesaurus. It consists of sets of terms naming descriptors in a hierarchical structure that permits searching at various levels of specificity. The MeSH thesaurus is used by NLM for indexing articles from 4,800 of the world's leading biomedical journals for the MEDLINE/PubMED® database. It is also used for the NLM-produced database that includes cataloging of books, documents, and audiovisuals acquired by the Library. Each bibliographic reference is associated with a set of MeSH terms that describe the content of the item. Similarly, search queries use MeSH vocabulary to find items on a desired topic. 講究II (2) 2007/9/28

the・sau・rus (シソーラス) the・sau・rus (特に類義語・反意語などを集めた)辞典,類語辞典,百科全書,シソーラス.  ギリシャ語「宝庫」の意 新英和中辞典 第6版 (研究社) 講究II (2) 2007/9/28

「用語のあいまい」(続) 書き手のコントロール (特に症例DBの側では) 情報源には、 論文や電子カルテがある 米国では書き手が制限する方向らしい、日本では? 概念の上下関係をも処理に含める 例)食物は野菜の上位概念である。野菜はピーマンの上位概念である。食物はピーマンの上位概念でもある。 「オントロジー」 = 概念・用語の明示的な仕様 広く考えて、「自然言語処理」が入ってくる 講究II (2) 2007/9/28

遺伝子オントロジープロジェクト Gene Ontology (GO) 生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクト http://www.geneontology.org/ 講究II (2) 2007/9/28