DNA配列情報からの転写・翻訳制御情報のバイオインフォマティックス 山下 理宇 東北大学東北メディカル・メガバンク機構 ゲノム解析部門 ryamasi@megabank.tohoku.ac.jp 08/11/2012 Network medicine特論
自己紹介 2001年~2012年 東京大学医科学研究所 ヒトゲノム解析センター 転写開始点データベースDBTSSとそれを用いた転写解析 2001年~2012年 東京大学医科学研究所 ヒトゲノム解析センター 転写開始点データベースDBTSSとそれを用いた転写解析 melina2、DBTSSの構築 2012年4月〜 東北大学東北メディカル・メガバンク機構 東北地方におけるバイオバンクの構築 大規模ゲノムコホート調査
本日の内容 始めに 転写制御解析 翻訳制御解析の例 遺伝子についての雑談 転写開始点の重要性と多様性 NGS時代の転写制御解析 転写制御領域の解析手法 翻訳制御解析の例 http://www.hgc.jp/~ryamasi/Japanese/others.html 気楽な意見交換ができたら嬉しいです。
遺伝子を自分の中で定義してみて下さい。 遺伝子はいくつあると思いますか? 4
ある問い合わせ 先生:で、いくつありますか? ラボに中学校の先生から電話(多分2003年) 先生:あの〜、ヒトの遺伝子はいくつあるんですか? 私:う〜ん、ちょっと難しい問題ですね。・・・・ ということで、いくつと言うことは、難しいんですよ。 先生: そうですか。難しいんですね。 よくわかりました。 先生:で、いくつありますか? 私:・・・
遙か遠い記憶によると・・・ 遺伝子 = DNAの中で転写されて翻訳される部分 DNAは遺伝子である × 遺伝子はDNAである ○ ほとんどはjunk DNA 6
ゲノムブラウザ上の遺伝子 7
refGene.txt 行数 ユニーク行 NMで35132行 NMで32678行 NRで6887行 NRで6077行 合計42019行 http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/からrefGene.txtをダウンロード 行数 NMで32678行 NRで6077行 合計38755行 ユニーク行 NMで35132行 NRで6887行 合計42019行 Splicing variants NMで696遺伝子がゲノム上の複数箇所にmapping 8
複数箇所マッピングの理由 X,Y染色体にある例 HLA領域 9
ちなみに こういうコマンドで処理できます。 10
long non-coding RNA http://www.lncipedia.org/ これらは遺伝子?? 11
本日の内容 始めに 転写制御解析 翻訳制御解析の例 遺伝子についての雑談 転写開始点の重要性と多様性 NGS時代の転写制御解析 転写制御領域の解析手法 翻訳制御解析の例
生命を制御する転写・翻訳 細胞 核 細胞質 様々な機能 DNA 転写開始点 タンパク質 翻訳 mRNA 転写 TF GTF タンパク質 pol II 翻訳 転写・翻訳制御機構は生命活動のエッセンス!! 13
転写開始点を決めるには・・・ 転写 genome mRNA(full) Genbank 5’はどこ? Refseq cDNA AAAA TTTT Genbank Refseq cDNA 5’はどこ? 5’EST TTTT Full length cDNA 5‘端が保証されたcDNA 転写開始点を決めるには、5’端が保証されたcDNA配列が不可欠 14
DBTSS 実験的に保証された5‘端配列(TSS) 2001年 約20万配列 Oligo-capping法(東京大学, かずさDNA研) CAP-trapper法 (理研) TSS Genome 5’-EST DBTSS: DataBase of Transcritption Start Sites (http://dbtss.hgc.jp) 5’端が保証された多量のcDNA配列として、大きく二つのソースがあります。 一つは、oligo-capping法によって決められた配列です。 これは、東大医科研とかずさDNA研によって DBTSSは遺伝子の転写開始点を知るためのツール 2001年 約20万配列
サンガー時代のDBTSS Data in DBTSS Ver. 5 human 19753 / 22682(87.1%) mouse 14746 / 17213(85.7%) >100 samples 2005年 140万配列
転写開始点の例 cDNA TP53 長さ: 100 bp ~ 500 bp sangerシークエンサー使用
転写開始点の多様性 そろっている 揺らぎがある 選択的 一つの遺伝子の転写開始点は一つとは限らない その他 甲状腺 さて、これから転写開始点領域の解析について、話を進めていきたいと思います。 転写開始領域を解析する上で、一つ述べなくてならないことがあります。 選択的 甲状腺 一つの遺伝子の転写開始点は一つとは限らない
CpG+-遺伝子と組織特異性 human mouse CpG-遺伝子は、組織特異性が高い傾向にある
CpG+-遺伝子のGOアノテーション CpG− CpG+ Yamashita et al 2005 Cell communication Physiological process Signal transduction Extracellular CpG− metabolism enzyme CpG+ プロモータのCpG islandsと組織特異性は相関がある Yamashita et al 2005
シークエンサーの歴史 100億 ヒトゲノム(30億) 配列決定可能塩基数/day 1億 100万 1万 illumina HiSeq2000 illumina GAII (クラスターPCR) SOLiD (エマルジョンPCR) 1億 ロシュ454 GS20 (pyro) 100万 ABI 3700 (キャピラリー) ABI 3730 (キャピラリー) ABI 377 (ゲル) 1万 ABI 373 (ゲル)
次世代シークエンサーの使用開始 2007年 2100万配列 Wakaguri et al 2008 NAR MCF7:Human breast adenocarcinoma cell line HEK293: human embryonic kidney 2007年 2100万配列 Wakaguri et al 2008 NAR
An example DBTSS(TP53) cDNA >100 samples 1.4M cDNAs HEK293 illumina 12M tags MCF7 illumina 10M tags
DBTSSの現状 version 7,8 2009年 3億配列 7 細胞腫、21組織、 48 サンプル 2011年 4.8億配列
TSS variation of TP53 ovary testis 19 tissues
SNP viewer NM_013293,transformer 2 alpha homolog Ensembl Ethnic SNP NCBI Refseq Ensembl Ethnic SNP dbSNP GWAS: 5800 SNP TSS seq tags
転写開始点付近のSNPs かなりたくさんのSNPが転写開始点付近に存在する
TSSと転写マーカーとの比較 ヌクレオソーム構造、ヒストン修飾? 転写されているか? (pol II)? 2011年 +12億配列 Protein RNA Seq (polysome) RNA Seq (nucleus) RNA Seq (cytoplasmic) ribosome AAAA TSS Seq cDNA sequencing AAAA Nucleosome Seq mRNA polII nucleosome Ac me genome ChIP Seq (polII) ChIP Seq (some TFs) ChIP Seq (H3Ac/H3K4me3) Nucleus Cytoplasm ヌクレオソーム構造、ヒストン修飾? 転写されているか? (pol II)? 翻訳されているか? (polysome analysis) 2011年 +12億配列 現在17億配列
総合的な転写制御データベースとしてのDBTSS
ChIP-seqデータ Yamashita et 2011
Pol II chip-seq Arrested Pol II? DNA polII polII ChIP Seq (polII) 17,194,001 tags 1182 (22%) are >5ppm in other sample Arrested Pol II? PoI IIが存在しているが転写されていない例もある
Nucleosome structure Transcription factor MNaseI treatment Sequencing
Nucleosome structure Nucleosome Seq 19,570,149 tags nucleosome genome
Nucleosome structures No anti-sense Bi-directional transcription -160 ~ -100
Histone modification Figure 4-39 Molecular Biology of the Cell (© Garland Science 2008)
Histone modification ChIP Seq (H3Ac/H3K4me3) 57,931,186 tags Ac me mRNA Ac me ChIP Seq (H3Ac/H3K4me3) 57,931,186 tags
Polysome fraction analysis Figure 6-76a Molecular Biology of the Cell (© Garland Science 2008)
Polysome fraction analysis
Definition of alternative promoter alternative promoter: AP 100 60 brain AP1 AP2 60 30 heart 100 kidney ….. 11,406 genes have >5ppm TSC 4,937 genes have alternative promoters
classification of promoters based on AP usage
選択的プロモータの例 HoxB6 epitope PAP1 PAP2 NM_018952 (HoxB6) PAP1 PAP2 TSS tag 1170ppm 25ppm pol II binding bound Corresponding cDNA BC014651 X58431 (HIT00195371)*1 Longest ORF in the cDNA 224 aa 140 aa Expected molecular weight of protein product 25.4 kD 15.2 kD Translation caveat no polysome tag enrich (p value) 1e-7 2e-3 RNA Seq tag (polysome) 9ppm 5ppm 15 20 25 (kD) (kD)
翻訳制御の例 Cdx2 Yamashita et al 2011 mRNAの中には転写されているが翻訳されていない物もある PAP1 10 15 37 20 25 50 PAP1 PAP2 epitope Cdx2 NM_001265 (Cdx2) PAP1 PAP2 TSS tag 76ppm 26ppm pol II binding bound Corresponding cDNA BC014461 RCT02405 Longest ORF in the cDNA 313 aa <100 aa Expected molecular weight of protein product 45.7 kD (15.0 kD)*2 Translation caveat no yes polysome tag enrich (p value) 1e-3 0.7 RNA Seq tag (polysome) 62ppm 0.7ppm Yamashita et al 2011 mRNAの中には転写されているが翻訳されていない物もある
では、そこからプロモータ配列が得られたときにどう解析を進めればよいのだ? さて・・・ 転写開始点が重要な事は分かった。 では、そこからプロモータ配列が得られたときにどう解析を進めればよいのだ?
転写因子結合部位とモチーフ 転写因子結合部位 ≒ モチーフ 遺伝子A プロモータ 既知のモチーフはデータベースにある 制限酵素と異なり、曖昧 プロモータ領域に存在する既知のモチーフを探してみようか… 44
既知Motifのデータベース TRANSFAC JASPAR Publicは無償だが、有償の方がデータ多い 重複があるので取り扱い注意 http://www.biobase.de/ JASPAR 無償 重複なしだったはず…. http://jaspar.genereg.net
JASPAR: Top page ここをクリック 特定のモチーフを検索可能 Bryne JC, et al, Nucleic Acids Res. 2008 Jan;36(Database issue):D102-6.
既知Motifの探索法 TATA-box score 84.6% (Sandelin A. 2004 Nat. Rev. Gen.より改変) fb,I = counts of base b in position i N =number of sites p(b,i) = corrected probability of base b in position i s(b) = pseudocount p(b) = background probability score 84.6% % = (score-min)/(max-min) (Sandelin A. 2004 Nat. Rev. Gen.より改変)
既知Motifの探索法 この操作をDNA配列全てかつ全てのモチーフにたいして行う。 AGATATAAAATCTGGGCTGACTGCGCGATGGCTAGCATGCGCCAATGCACCGAATGCGCATGCATGCA 1.37 -0.14 8.67 (14.92 - 8.67) / (14.92 - (-22.99)) = 0.846 positive この操作をDNA配列全てかつ全てのモチーフにたいして行う。
JASPAR: 入力画面 検索する種などを選択も可能 検索するモチーフを選択 配列を入力 探索!!
JASPAR: 結果 TP53 プロモータ領域1200bp(-1000 ~ +200) こんなはずじゃなかった・・・
どうするか? 1. スコアの高いものを使う 2. 距離を考慮する 3. 保存度を考慮する 4. 複数モチーフの組み合わせで考える 1. スコアの高いものを使う 2. 距離を考慮する 3. 保存度を考慮する 4. 複数モチーフの組み合わせで考える いずれにせよ、実験的手法などで、もう少し絞った方が良いです。
共通モチーフ検索の必要性 同じように発現する遺伝子は、同じ転写因子によって制御されている? 遺伝子A 遺伝子B 遺伝子C 遺伝子D どうやって、共通配列(モチーフ)を求めるか
大きく2つの道 既存のモチーフを探し、統計的に有意なモチーフを抽出する 特徴のある遺伝子群 両者の結果を組み合わせる de novoでモチーフを探す 両者の結果を組み合わせる 特徴のある遺伝子群
既知モチーフ数え上げ手法 … 全プロモータ … ある実験で発現の上昇が見られた遺伝子群のプロモータ プロモータ 20000個 モチーフ 1000個 (5%) プロモータ 50個 モチーフ 10個 (20%) 超幾何分布を仮定する → 「R」を使う http://cran.r-project.org/ > 1 - phyper(10,1000,(20000-1000),50) 2.863409e-05
実例 遺伝子A 遺伝子B 遺伝子C -1000 ~ +200 -500 ~ +100 -200 ~ +50 JASPARを使用、thresholdは、80%, 85%, 90% モチーフセット3種 × threshold 3首 = 9種 バックグラウンドと比較
実験的な解釈 TRAF6-/-とwild typeのマウスを比較 Wild typeで発現が高い遺伝子群にSTAT1結合部位が予測
oPOSSUM http://www.cisreg.ca/oPOSSUM/ Ho-Sui SJ et al 2005 遺伝子リストに存在する既知転写因子結合部位(JASPAR)の推定
de novoモチーフ検索 既知のモチーフしか抽出できないの? 遺伝子領域A 遺伝子領域B 遺伝子領域C 遺伝子領域D ある配列群の中に有意に多く観察される配列群を抽出する
未知Motifの探索の限界 配列が3つだったら・・・・→ 3次元 配列がnだったら ・・・・→ n次元!!! 数え上げ、確率的手法… ・MEME、Gibbs、CONSENSUS….
未知Motifの探索の限界 Nature Biotech. 2005 13種のモチーフ検出プログラムの比較
既存の確率的手法の問題点 得られたモチーフが最適解とは限らない パラメータ調整の必要性 プログラム間での結果比較が難しい MEME Motif 1 sites sorted by position p-value -------------------------------------------------------------------------------- Sequence name Start P-value Site ------------- ----- --------- --------------- SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTT SEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTC SEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAA SEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGC SEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGG SEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGG SEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCG SEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGA SEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA MEME MOTIF A 1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 103 10-1 4 ttc TCAATCGTAG agtatgctta 13 Gibbs
モチーフ発見ツール Melina2 1.配列をFASTAフォーマットで入力 Consensus, MEME, Gibbs Sampler, MDScan, Weeder 2.パラメータ、プログラムを設定 3.submit http://melina2.hgc.jp Okumura et al 2007
Melina2結果画面 1.モチーフを選択 2.sequence logo 3.既知の類似モチーフ検索
Melina2結果画面 1.モチーフを選択 2.sequence logo 3.既知の類似モチーフ検索 4.プロモータ上の探索
現在の状況・・・ Roche GS FLX+ Hiseq2500 Ion Proton 今までのモチーフ抽出プログラムはせいぜい数百配列を対象 次世代シークエンサーの登場 ChIP-seqの時代に
ChIP-seqでは正確な結合位置はわからない TF Genome 大量の配列からモチーフ抽出をするニーズ
ChIP-seq用プログラム DREME MEMEを作っているグループが提供 HEGMA: 京都大学市瀬先生が開発
解析の例 Beas2b IL4で刺激、STAT6のChIP-seq 3 tag以上を抽出 *本当は配列のオーバーラップとバックグラウンドを考慮する必要があります → MACS等のソフトを使う ftp://ftp.hgc.jp/pub/hgc/db/dbtss/dbtss_ver8/hg19_liftover/ChIPseq/Beas2b/b2b_pls_stat6_ip.bed.gz
DREME input 1.ファイルを選択 直接pasteも可 2.メールアドレスを入力 http://meme.sdsc.edu/meme/ Bailey TL. Bioinformatics 2011
DREME 結果
TOMTOM 結果
モチーフ探しの未来 de novoモチーフ抽出の究極のツール ChIP-seqからの転写因子結合部位探しの需要 既存のモチーフは、本当に正しいか
ChIP-exoがやってきた Cell 2011 もしかしたら、転写因子結合部位を探すためのChIP-seqは無くなるかも・・・
転写因子は複数の認識部位を持つ
本日の内容 始めに 転写制御解析 翻訳制御解析の例 遺伝子についての雑談 転写開始点の重要性と多様性 NGS時代の転写制御解析 転写制御領域の解析手法 翻訳制御解析の例
転写開始点の多様性 そろっている 揺らぎがある 選択的 一つの遺伝子の転写開始点は一つとは限らない その他 甲状腺 さて、これから転写開始点領域の解析について、話を進めていきたいと思います。 転写開始領域を解析する上で、一つ述べなくてならないことがあります。 選択的 甲状腺 一つの遺伝子の転写開始点は一つとは限らない
fixed TSSの鳥瞰図 Initiator Pyrimidine rich region -3〜+5 -100〜+100
クラスターに属する遺伝子 翻訳に関わるものが多い Terminal oligo-pyrimidineを持つTOP遺伝子群 クラスター解析の結果 Terminal oligo-pyrimidineを持つTOP遺伝子群
TOP遺伝子について 曖昧であったTOP遺伝子の再定義を試みる Terminal oligo-pyrimidine rich sequenceを持つ Ribosomal protein + RP以外8種が既知 培養細胞で飢餓状態にすると、選択的に翻訳停止 翻訳調節 ON/OFF X m7G-CTTTTT---------ATG----------- ・TOPのコンセンサス配列は? ・どの遺伝子がTOP遺伝子なのか? 曖昧であったTOP遺伝子の再定義を試みる
TOP 遺伝子候補の検出 1. -1:+4 must be C/T 2. +1 must be C 3. The PSWM score >0.1 PSWMをTOP遺伝子候補 Human 1645 遺伝子→ mouse? 239→40/81が翻訳制御を受けていることがわかった
mRNA長と翻訳制御の関係 After TPA Yamashita et al 2008 TOP配列だけでなく、mRNA長も翻訳制御に関わっている可能性
ribosome profiling 82
Degree of translation refseq遺伝子 untranslated translated lincRNA Long intergenic non-coding RNA 翻訳されているlincRNAは結構多い?? 83
Genes in ribosome fraction
Genes in RNA fraction
Example: Linc-XPR1
どこまで遺伝子としますか? ORFを持つmRNA,tRNA,rRNA miRNA,snoRNA etc lncRNA プロモータ領域 その他の転写制御領域 Nature, 2012 ゲノム上の80%が生化学的な機能を持つ
遺伝子の定義・遺伝子がやっていることは結構適当 まとめ ゲノム屋が「遺伝子」という言葉を使う場合は、無意識のうちに前提が異なっている場合があるので注意!! 遺伝子は転写・翻訳制御が時間的・空間的に行われており、それを考慮した解析が不可欠 遺伝子の定義・遺伝子がやっていることは結構適当 ・・・・・
Acknowledgements Medical genome science, Univ. of Tokyo Dr. Yutaka Suzuki Dr. Hiroyuki Wakaguri Dr. Sumio Sugano Takako Arauchi (nucleosome analysis) Dr. Kosuke Tanimoto (Western analysis) Dr. Akinori Kanai (polysome analysis) Etsuko Sekimori Institute of Medical Science, Univ. of Tokyo Dr. Kenta Nakai Yoshiaki Tanaka (nucleosome data analysis)