2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報 2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報 2018年5月25日 機能ゲノム科学 尾形 善之
遺伝子を扱う学術論文数の推移
RNA定量解析の歴史・1 ノーザンブロット:1990年代 抽出RNAを電気泳動によってゲル上に展開 同時に1~数遺伝子 Wikipedia
RNA定量解析の歴史・2 マイクロアレイ:2000年代 プローブと直接ハイブリダイズして蛍光を検出 数万~十数万遺伝子
RNA定量解析の歴史・3 RNA-Seq:2010年代 配列を直接シーケンシング 十数万遺伝子、検出数が格段に増加
チェックポイント・I RNA定量解析の歴史について、簡単に纏めなさい。
遺伝子発現データとは… ここでは、「ゲノム規模での遺伝子の発現データ」を表すこととする。 種ごとの遺伝子数 Arabidopsis thaliana 35,374 Oryza sativa 41,070 Citrus sinensis 35,654 Prunus persica 29,012 Eucalyptus grandis 47,427 Solanum lycopersicum 36,213 Glycine max 71,677 Vitis vinifera 38,136 Nicotiana tabacum 34,630 Zea mays 58,565
公共データバンクの発現情報 NCBI Embl-EBI Gene Expression Omnibus Sequence Read Archive Embl-EBI ArrayExpress
Gene Expression Omnibus 概要 RNA定量データ全般を扱う。 構成 GPL:プラットフォーム RNA-Seq、マイクロアレイなど GSE:実験群(実験シリーズ) 各研究に含まれる実験群 GSM:各実験
遺伝子発現データ 2017 Gene Expression Ominibus 種名 Homo sapiens データ数 Homo sapiens 942,214 Caenorhabditis elegans 9,347 Escherichia coli 5,203 Mus musculus 265,586 Danio rerio 9,023 Canis lupus familiaris 5,436 Rattus norvegicus 70,539 Zea mays 8,891 Macaca mulatta 4,640 Saccharomyces cerevisiae 38,604 Bos taurus 8,488 Plasmodium falciparum 3,813 Arabidopsis thaliana 32,021 Oryza sativa 6,602 Schizosaccharomyces pombe 3,299 Drosophila melanogaster 25,305 Glycine max 6,008 Triticum aestivum 2,860 Sus scrofa 10,398 Gallus gallus 5,644 Oncorhynchus mykiss 2,233
遺伝子発現データ 2018 Gene Expression Ominibus 種名 Homo sapiens データ数 Homo sapiens 942,214 1,363,298 Caenorhabditis elegans 9,347 13,414 Escherichia coli 5,203 6,627 Mus musculus 265,586 557,122 Danio rerio 9,023 15,518 Canis lupus familiaris 5,436 7,899 Rattus norvegicus 70,539 83,759 Zea mays 8,891 10,617 Macaca mulatta 4,640 9,446 Saccharomyces cerevisiae 38,604 48,688 Bos taurus 8,488 12,923 Plasmodium falciparum 3,813 5,713 Arabidopsis thaliana 32,021 49,890 Oryza sativa 6,602 11,121 Schizosaccharomyces pombe 3,299 5,069 Drosophila melanogaster 25,305 41,132 Glycine max 6,008 7,150 Triticum aestivum 2,860 3,443 Sus scrofa 10,398 14,979 Gallus gallus 5,644 9,466 Oncorhynchus mykiss 2,233 2,747
チェックポイント・II 公共データバンクの遺伝子発現データについて、どの生物のデータの増え方が大きいか。また、その理由を考えてみなさい。
GEOデータベースのツール GEO2R 実験群の中での遺伝子の発現を棒グラフで表示する。 特定の実験群の中で、注目する遺伝子がどの実験で発現しているか。 マイクロアレイのデータのみ。 動作がやや不安定で、操作が直感的でない。
Sequence Read Archive 概要 構成 次世代シーケンサーの配列データを登録 プロジェクト:実験群、GSEに相当 RNA-Seqデータ、ゲノムデータ、メタゲノムデータ 構成 プロジェクト:実験群、GSEに相当 リード:各実験、GSMに相当 ファイル:各実験のデータ ひとつのリードに複数のファイルがある場合がある
登録された塩基配列データ ヨタ キロヨタ メガヨタ …… ゼタ エクサ ペタ テラ ギガ メガ キロ Sequence Read Archive, NCBI
SRAデータからの解析の手順 FASTQ形式の配列 FASTA形式の配列 マッピング~計測 標準化 発現解析 多型 特異的発現 共発現
ArrayExpress 概要 使い道 遺伝子発現データ全般を扱う。 Atlasツール:実験群の中での発現グラフ GEOとほぼ同様。 GEO:84,678実験群、ArrayExpress:70,054実験群 検索はGEOの方がやや快適。 使い道 Atlasツール:実験群の中での発現グラフ GEO2Rと同様 一部の実験群に対応している
その他の遺伝子発現DB GeneVestigator eFP Browser ATTED-II 全生物対象 遺伝子発現解析プラットフォーム 植物中心、遺伝子発現ヒートマップ ATTED-II 植物のみ、遺伝子共発現解析
eFP Browser 概要 植物種 発現データを組織別にグラフ化している。 双子葉植物 単子葉植物 理屈抜きで見やすいし、調べやすい。 シロイヌナズナなど全10種 単子葉植物 イネなど全5種
ATTED-II 概要 使い道 植物9種の遺伝子発現解析。 マイクロアレイとRNA-Seqを含む。 特に、共発現解析データが特徴。 全実験データを用いた共発現解析。 使い道 共発現遺伝子を探す。
共発現遺伝子解析の纏め 特定の実験群の中での共発現 全実験での共発現 GEO2RやeFP Browser 特定の条件で特異的に共発現している。 予め実験情報の知見が必要となる。 全実験での共発現 ATTED-II 特定の条件は不明だが、共発現している。 実験情報の知見は必要ない。
チェックポイント・III 遺伝子発現データを解析する公共データベースやツールについて、簡単に纏めなさい。