DNA配列情報からの転写・翻訳制御情報のバイオインフォマティックス

Slides:



Advertisements
Similar presentations
ウイロイド (Viroid) は塩基数が 200 ~ 400 程度と短い環状の一本鎖 RNA のみで構成 され、維管束植物に対して感染性を持つもの。分子内で塩基対を形成し、多くは 生体内で棒状の構造をとると考えられる。 ウイルスは蛋白質でできた殻で覆われているがウイロイドにはそれがなく、また プラスミドのようにそのゲノム上にタンパク質をコードすることもない。複製は.
Advertisements

生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
第 2 章 : DNA 研究法 2.2DNA クローニング クローニングベクター 大腸菌以外のベクター ゲノム分子生物学 年 5 月 7 日 担当 : 中東.
Statistical Genetics 7 Functionality of SNPs Graduate School of Medicine Kyoto University 2008/09/17-25 IMS-UT Ryo Yamada.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
Drosophila solexa Tag analysis 2/25
東大医科研ヒトゲノム解析センター 中 井 謙 太
初めてサテライトラボを利用する学生は1-4のステップが必要です。
植物系統分類学・第13回 分子系統学の基礎と実践
Gene Constellator SystemTM
(被)影響遺伝子の同定 濱野 鉄太郎 北里大学大学院 薬学研究科 臨床統計部門 バイオスタティスティックスの数理的基礎
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
RNA i (RNA interference).
特論B 細胞の生物学 第2回 転写 和田 勝 東京医科歯科大学教養部.
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
Geneticsから Epigeneticsへ
2012/11/3(土) 平成24年度 第2回 データベース講習会 「創薬研究のためのデータベース講習会」
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
Nature Genetics 37: , April 2005
* 研究テーマ 1.(抗)甲状腺ホルモン様作用を評価するバイオアッセイ系の確立 2.各種化学物質による(抗)甲状腺ホルモン様作用の検討
Semi-Supervised QA with Generative Domain-Adaptive Nets
生命情報解析 第4回 シグナル配列の統計解析(3)
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
遺伝子の機能は、どのようにしてわかるのか
細胞と多様性の 生物学 第7回 細胞外からの情報が核に伝わる 和田 勝 東京医科歯科大学教養部.
Twist DX Probe&Primerの選定方法
膜タンパク質の 立体構造予測.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
第19回 HiHA Seminar Hiroshima Research Center for Healthy Aging (HiHA)
母体血漿DNAの全ゲノムバイサルファイトシーケンシングによる、非侵襲的胎児メチローム解析
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
WWW上の効率的な ハブ探索法の提案と実装
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
Anja von Heydebreck et al. 発表:上嶋裕樹
イントロ DNA配列 意味. イントロ DNA配列 意味 3 DNA配列は化学的配列空間 を占める 4.
遺伝統計学の骨組み Skeleton of Genetic Statistics
Central Dogma Epigenetics
分子生物情報学(2) 配列のマルチプルアライメント法
Data Clustering: A Review
遺伝統計学 集中講義 (4) SNPによる領域の評価
ORI-GENE A Tool for Gene Classification and Prediction of Function Based on Evolutionary Tree Hideaki Mizuno, Yoshimasa Tanaka, Kenta Nakai, Akinori Sarai.
植物系統分類学・第14回 分子系統学の基礎と実践
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
ソフトウェア保守のための コードクローン情報検索ツール
生命情報解析 第3回 シグナル配列の統計解析(2)
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
構造的類似性を持つ半構造化文書における頻度分析
遺伝統計学 集中講義 (2) 連鎖不平衡・連鎖不平衡マッピング
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
忙しい人のためのR/Bioconductorの基礎
遺伝統計学 集中講義 (6) 終わりに.
Ion PGM™ 次世代シーケンサーによる 受託解析サービスのご案内 ・細菌叢解析(16S メタゲノム)
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
プログラム依存グラフを用いた ソースコードのパターン違反検出法
北大MMCセミナー 第100回 附属社会創造数学センター主催 Date: 2019年7月11日(木) 16:30~18:00
Presentation transcript:

DNA配列情報からの転写・翻訳制御情報のバイオインフォマティックス 山下 理宇 東北大学東北メディカル・メガバンク機構 ゲノム解析部門 ryamasi@megabank.tohoku.ac.jp 08/11/2012 Network medicine特論

自己紹介 2001年~2012年 東京大学医科学研究所 ヒトゲノム解析センター 転写開始点データベースDBTSSとそれを用いた転写解析 2001年~2012年 東京大学医科学研究所 ヒトゲノム解析センター 転写開始点データベースDBTSSとそれを用いた転写解析 melina2、DBTSSの構築 2012年4月〜 東北大学東北メディカル・メガバンク機構 東北地方におけるバイオバンクの構築 大規模ゲノムコホート調査

本日の内容 始めに 転写制御解析 翻訳制御解析の例 遺伝子についての雑談 転写開始点の重要性と多様性 NGS時代の転写制御解析 転写制御領域の解析手法 翻訳制御解析の例 http://www.hgc.jp/~ryamasi/Japanese/others.html 気楽な意見交換ができたら嬉しいです。

遺伝子を自分の中で定義してみて下さい。 遺伝子はいくつあると思いますか? 4

ある問い合わせ 先生:で、いくつありますか? ラボに中学校の先生から電話(多分2003年) 先生:あの〜、ヒトの遺伝子はいくつあるんですか? 私:う〜ん、ちょっと難しい問題ですね。・・・・ ということで、いくつと言うことは、難しいんですよ。 先生: そうですか。難しいんですね。 よくわかりました。 先生:で、いくつありますか? 私:・・・

遙か遠い記憶によると・・・ 遺伝子 = DNAの中で転写されて翻訳される部分 DNAは遺伝子である × 遺伝子はDNAである ○ ほとんどはjunk DNA 6

ゲノムブラウザ上の遺伝子 7

refGene.txt 行数 ユニーク行 NMで35132行 NMで32678行 NRで6887行 NRで6077行 合計42019行 http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/からrefGene.txtをダウンロード 行数 NMで32678行 NRで6077行 合計38755行 ユニーク行 NMで35132行 NRで6887行 合計42019行 Splicing variants NMで696遺伝子がゲノム上の複数箇所にmapping 8

複数箇所マッピングの理由 X,Y染色体にある例 HLA領域 9

ちなみに こういうコマンドで処理できます。 10

long non-coding RNA http://www.lncipedia.org/ これらは遺伝子?? 11

本日の内容 始めに 転写制御解析 翻訳制御解析の例 遺伝子についての雑談 転写開始点の重要性と多様性 NGS時代の転写制御解析 転写制御領域の解析手法 翻訳制御解析の例

生命を制御する転写・翻訳 細胞 核 細胞質 様々な機能 DNA 転写開始点 タンパク質 翻訳 mRNA 転写 TF GTF タンパク質 pol II 翻訳 転写・翻訳制御機構は生命活動のエッセンス!! 13

転写開始点を決めるには・・・ 転写 genome mRNA(full) Genbank 5’はどこ? Refseq cDNA AAAA TTTT Genbank Refseq cDNA 5’はどこ? 5’EST TTTT Full length cDNA 5‘端が保証されたcDNA 転写開始点を決めるには、5’端が保証されたcDNA配列が不可欠 14

DBTSS 実験的に保証された5‘端配列(TSS) 2001年 約20万配列 Oligo-capping法(東京大学, かずさDNA研) CAP-trapper法 (理研) TSS Genome 5’-EST DBTSS: DataBase of Transcritption Start Sites (http://dbtss.hgc.jp) 5’端が保証された多量のcDNA配列として、大きく二つのソースがあります。 一つは、oligo-capping法によって決められた配列です。 これは、東大医科研とかずさDNA研によって DBTSSは遺伝子の転写開始点を知るためのツール 2001年 約20万配列

サンガー時代のDBTSS Data in DBTSS Ver. 5 human 19753 / 22682(87.1%) mouse 14746 / 17213(85.7%) >100 samples 2005年 140万配列

転写開始点の例 cDNA TP53 長さ: 100 bp ~ 500 bp sangerシークエンサー使用

転写開始点の多様性 そろっている 揺らぎがある 選択的 一つの遺伝子の転写開始点は一つとは限らない その他 甲状腺 さて、これから転写開始点領域の解析について、話を進めていきたいと思います。 転写開始領域を解析する上で、一つ述べなくてならないことがあります。 選択的 甲状腺 一つの遺伝子の転写開始点は一つとは限らない

CpG+-遺伝子と組織特異性 human mouse CpG-遺伝子は、組織特異性が高い傾向にある

CpG+-遺伝子のGOアノテーション CpG− CpG+ Yamashita et al 2005 Cell communication Physiological process Signal transduction Extracellular CpG− metabolism enzyme CpG+ プロモータのCpG islandsと組織特異性は相関がある Yamashita et al 2005

シークエンサーの歴史 100億 ヒトゲノム(30億) 配列決定可能塩基数/day 1億 100万 1万 illumina HiSeq2000 illumina GAII (クラスターPCR) SOLiD (エマルジョンPCR) 1億 ロシュ454 GS20 (pyro) 100万 ABI 3700 (キャピラリー) ABI 3730 (キャピラリー) ABI 377 (ゲル) 1万 ABI 373 (ゲル)

次世代シークエンサーの使用開始 2007年 2100万配列 Wakaguri et al 2008 NAR MCF7:Human breast adenocarcinoma cell line HEK293: human embryonic kidney 2007年 2100万配列 Wakaguri et al 2008 NAR

An example DBTSS(TP53) cDNA >100 samples 1.4M cDNAs HEK293 illumina 12M tags MCF7 illumina 10M tags

DBTSSの現状 version 7,8 2009年 3億配列 7 細胞腫、21組織、 48 サンプル 2011年 4.8億配列

TSS variation of TP53 ovary testis 19 tissues

SNP viewer NM_013293,transformer 2 alpha homolog Ensembl Ethnic SNP NCBI Refseq Ensembl Ethnic SNP dbSNP GWAS: 5800 SNP TSS seq tags

転写開始点付近のSNPs かなりたくさんのSNPが転写開始点付近に存在する

TSSと転写マーカーとの比較 ヌクレオソーム構造、ヒストン修飾? 転写されているか? (pol II)? 2011年 +12億配列 Protein RNA Seq (polysome) RNA Seq (nucleus) RNA Seq (cytoplasmic) ribosome AAAA TSS Seq cDNA sequencing AAAA Nucleosome Seq mRNA polII nucleosome Ac me genome ChIP Seq (polII) ChIP Seq (some TFs) ChIP Seq (H3Ac/H3K4me3) Nucleus Cytoplasm ヌクレオソーム構造、ヒストン修飾? 転写されているか? (pol II)? 翻訳されているか? (polysome analysis) 2011年 +12億配列 現在17億配列

総合的な転写制御データベースとしてのDBTSS

ChIP-seqデータ Yamashita et 2011

Pol II chip-seq Arrested Pol II? DNA polII polII ChIP Seq (polII) 17,194,001 tags 1182 (22%) are >5ppm in other sample Arrested Pol II? PoI IIが存在しているが転写されていない例もある

Nucleosome structure Transcription factor MNaseI treatment Sequencing

Nucleosome structure Nucleosome Seq 19,570,149 tags nucleosome genome

Nucleosome structures No anti-sense Bi-directional transcription -160 ~ -100

Histone modification Figure 4-39 Molecular Biology of the Cell (© Garland Science 2008)

Histone modification ChIP Seq (H3Ac/H3K4me3) 57,931,186 tags Ac me mRNA Ac me ChIP Seq (H3Ac/H3K4me3) 57,931,186 tags

Polysome fraction analysis Figure 6-76a Molecular Biology of the Cell (© Garland Science 2008)

Polysome fraction analysis

Definition of alternative promoter alternative promoter: AP 100 60 brain AP1 AP2 60 30 heart 100 kidney ….. 11,406 genes have >5ppm TSC 4,937 genes have alternative promoters

classification of promoters based on AP usage

選択的プロモータの例 HoxB6 epitope PAP1 PAP2 NM_018952 (HoxB6) PAP1 PAP2 TSS tag 1170ppm 25ppm pol II binding bound Corresponding cDNA BC014651 X58431 (HIT00195371)*1 Longest ORF in the cDNA 224 aa 140 aa Expected molecular weight of protein product 25.4 kD 15.2 kD Translation caveat no polysome tag enrich (p value) 1e-7 2e-3 RNA Seq tag (polysome) 9ppm 5ppm 15 20 25 (kD) (kD)

翻訳制御の例 Cdx2 Yamashita et al 2011 mRNAの中には転写されているが翻訳されていない物もある PAP1 10 15 37 20 25 50 PAP1 PAP2 epitope Cdx2 NM_001265 (Cdx2) PAP1 PAP2 TSS tag 76ppm 26ppm pol II binding bound Corresponding cDNA BC014461 RCT02405 Longest ORF in the cDNA 313 aa <100 aa Expected molecular weight of protein product 45.7 kD (15.0 kD)*2 Translation caveat no yes polysome tag enrich (p value) 1e-3 0.7 RNA Seq tag (polysome) 62ppm 0.7ppm Yamashita et al 2011 mRNAの中には転写されているが翻訳されていない物もある

では、そこからプロモータ配列が得られたときにどう解析を進めればよいのだ? さて・・・ 転写開始点が重要な事は分かった。 では、そこからプロモータ配列が得られたときにどう解析を進めればよいのだ?

転写因子結合部位とモチーフ 転写因子結合部位 ≒ モチーフ 遺伝子A プロモータ 既知のモチーフはデータベースにある 制限酵素と異なり、曖昧 プロモータ領域に存在する既知のモチーフを探してみようか… 44

既知Motifのデータベース TRANSFAC JASPAR Publicは無償だが、有償の方がデータ多い 重複があるので取り扱い注意 http://www.biobase.de/ JASPAR 無償 重複なしだったはず…. http://jaspar.genereg.net

JASPAR: Top page ここをクリック 特定のモチーフを検索可能 Bryne JC, et al, Nucleic Acids Res. 2008 Jan;36(Database issue):D102-6.

既知Motifの探索法 TATA-box score 84.6% (Sandelin A. 2004 Nat. Rev. Gen.より改変) fb,I = counts of base b in position i N =number of sites p(b,i) = corrected probability of base b in position i s(b) = pseudocount p(b) = background probability score 84.6% % = (score-min)/(max-min) (Sandelin A. 2004 Nat. Rev. Gen.より改変)

既知Motifの探索法 この操作をDNA配列全てかつ全てのモチーフにたいして行う。 AGATATAAAATCTGGGCTGACTGCGCGATGGCTAGCATGCGCCAATGCACCGAATGCGCATGCATGCA 1.37 -0.14 8.67 (14.92 - 8.67) / (14.92 - (-22.99)) = 0.846 positive この操作をDNA配列全てかつ全てのモチーフにたいして行う。

JASPAR: 入力画面 検索する種などを選択も可能 検索するモチーフを選択 配列を入力 探索!!

JASPAR: 結果 TP53 プロモータ領域1200bp(-1000 ~ +200) こんなはずじゃなかった・・・

どうするか? 1. スコアの高いものを使う 2. 距離を考慮する 3. 保存度を考慮する 4. 複数モチーフの組み合わせで考える 1. スコアの高いものを使う  2. 距離を考慮する 3. 保存度を考慮する 4. 複数モチーフの組み合わせで考える いずれにせよ、実験的手法などで、もう少し絞った方が良いです。

共通モチーフ検索の必要性 同じように発現する遺伝子は、同じ転写因子によって制御されている? 遺伝子A 遺伝子B 遺伝子C 遺伝子D どうやって、共通配列(モチーフ)を求めるか

大きく2つの道 既存のモチーフを探し、統計的に有意なモチーフを抽出する 特徴のある遺伝子群 両者の結果を組み合わせる de novoでモチーフを探す 両者の結果を組み合わせる 特徴のある遺伝子群

既知モチーフ数え上げ手法 … 全プロモータ … ある実験で発現の上昇が見られた遺伝子群のプロモータ プロモータ 20000個   モチーフ 1000個 (5%) プロモータ 50個 モチーフ 10個 (20%) 超幾何分布を仮定する  → 「R」を使う http://cran.r-project.org/ > 1 - phyper(10,1000,(20000-1000),50) 2.863409e-05

実例 遺伝子A 遺伝子B 遺伝子C -1000 ~ +200 -500 ~ +100 -200 ~ +50 JASPARを使用、thresholdは、80%, 85%, 90% モチーフセット3種 × threshold 3首 = 9種 バックグラウンドと比較

実験的な解釈 TRAF6-/-とwild typeのマウスを比較 Wild typeで発現が高い遺伝子群にSTAT1結合部位が予測

oPOSSUM http://www.cisreg.ca/oPOSSUM/ Ho-Sui SJ et al 2005 遺伝子リストに存在する既知転写因子結合部位(JASPAR)の推定

de novoモチーフ検索 既知のモチーフしか抽出できないの? 遺伝子領域A 遺伝子領域B 遺伝子領域C 遺伝子領域D ある配列群の中に有意に多く観察される配列群を抽出する

未知Motifの探索の限界 配列が3つだったら・・・・→ 3次元 配列がnだったら ・・・・→ n次元!!! 数え上げ、確率的手法… ・MEME、Gibbs、CONSENSUS….

未知Motifの探索の限界 Nature Biotech. 2005 13種のモチーフ検出プログラムの比較

既存の確率的手法の問題点 得られたモチーフが最適解とは限らない パラメータ調整の必要性 プログラム間での結果比較が難しい MEME Motif 1 sites sorted by position p-value -------------------------------------------------------------------------------- Sequence name Start P-value Site ------------- ----- --------- --------------- SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTT SEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTC SEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAA SEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGC SEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGG SEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGG SEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCG SEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGA SEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA MEME MOTIF A 1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 103 10-1 4 ttc TCAATCGTAG agtatgctta 13 Gibbs

モチーフ発見ツール Melina2 1.配列をFASTAフォーマットで入力 Consensus, MEME, Gibbs Sampler, MDScan, Weeder 2.パラメータ、プログラムを設定 3.submit http://melina2.hgc.jp Okumura et al 2007

Melina2結果画面 1.モチーフを選択 2.sequence logo 3.既知の類似モチーフ検索

Melina2結果画面 1.モチーフを選択 2.sequence logo 3.既知の類似モチーフ検索 4.プロモータ上の探索

現在の状況・・・ Roche GS FLX+ Hiseq2500 Ion Proton 今までのモチーフ抽出プログラムはせいぜい数百配列を対象 次世代シークエンサーの登場 ChIP-seqの時代に

ChIP-seqでは正確な結合位置はわからない TF Genome 大量の配列からモチーフ抽出をするニーズ

ChIP-seq用プログラム DREME MEMEを作っているグループが提供 HEGMA: 京都大学市瀬先生が開発

解析の例 Beas2b IL4で刺激、STAT6のChIP-seq 3 tag以上を抽出 *本当は配列のオーバーラップとバックグラウンドを考慮する必要があります  → MACS等のソフトを使う ftp://ftp.hgc.jp/pub/hgc/db/dbtss/dbtss_ver8/hg19_liftover/ChIPseq/Beas2b/b2b_pls_stat6_ip.bed.gz

DREME input 1.ファイルを選択 直接pasteも可 2.メールアドレスを入力 http://meme.sdsc.edu/meme/ Bailey TL. Bioinformatics 2011

DREME 結果

TOMTOM 結果

モチーフ探しの未来 de novoモチーフ抽出の究極のツール ChIP-seqからの転写因子結合部位探しの需要 既存のモチーフは、本当に正しいか

ChIP-exoがやってきた Cell 2011 もしかしたら、転写因子結合部位を探すためのChIP-seqは無くなるかも・・・

転写因子は複数の認識部位を持つ

本日の内容 始めに 転写制御解析 翻訳制御解析の例 遺伝子についての雑談 転写開始点の重要性と多様性 NGS時代の転写制御解析 転写制御領域の解析手法 翻訳制御解析の例

転写開始点の多様性 そろっている 揺らぎがある 選択的 一つの遺伝子の転写開始点は一つとは限らない その他 甲状腺 さて、これから転写開始点領域の解析について、話を進めていきたいと思います。 転写開始領域を解析する上で、一つ述べなくてならないことがあります。 選択的 甲状腺 一つの遺伝子の転写開始点は一つとは限らない

fixed TSSの鳥瞰図 Initiator Pyrimidine rich region -3〜+5 -100〜+100

クラスターに属する遺伝子 翻訳に関わるものが多い Terminal oligo-pyrimidineを持つTOP遺伝子群 クラスター解析の結果 Terminal oligo-pyrimidineを持つTOP遺伝子群

TOP遺伝子について 曖昧であったTOP遺伝子の再定義を試みる Terminal oligo-pyrimidine rich sequenceを持つ Ribosomal protein + RP以外8種が既知 培養細胞で飢餓状態にすると、選択的に翻訳停止 翻訳調節 ON/OFF X m7G-CTTTTT---------ATG----------- ・TOPのコンセンサス配列は? ・どの遺伝子がTOP遺伝子なのか? 曖昧であったTOP遺伝子の再定義を試みる

TOP 遺伝子候補の検出 1. -1:+4 must be C/T 2. +1 must be C 3. The PSWM score >0.1 PSWMをTOP遺伝子候補 Human 1645 遺伝子→ mouse? 239→40/81が翻訳制御を受けていることがわかった

mRNA長と翻訳制御の関係 After TPA Yamashita et al 2008 TOP配列だけでなく、mRNA長も翻訳制御に関わっている可能性

ribosome profiling 82

Degree of translation refseq遺伝子 untranslated translated lincRNA Long intergenic non-coding RNA 翻訳されているlincRNAは結構多い?? 83

Genes in ribosome fraction

Genes in RNA fraction

Example: Linc-XPR1

どこまで遺伝子としますか? ORFを持つmRNA,tRNA,rRNA miRNA,snoRNA etc lncRNA プロモータ領域 その他の転写制御領域 Nature, 2012 ゲノム上の80%が生化学的な機能を持つ

遺伝子の定義・遺伝子がやっていることは結構適当 まとめ ゲノム屋が「遺伝子」という言葉を使う場合は、無意識のうちに前提が異なっている場合があるので注意!! 遺伝子は転写・翻訳制御が時間的・空間的に行われており、それを考慮した解析が不可欠 遺伝子の定義・遺伝子がやっていることは結構適当 ・・・・・

Acknowledgements Medical genome science, Univ. of Tokyo Dr. Yutaka Suzuki Dr. Hiroyuki Wakaguri Dr. Sumio Sugano Takako Arauchi (nucleosome analysis) Dr. Kosuke Tanimoto (Western analysis) Dr. Akinori Kanai (polysome analysis) Etsuko Sekimori Institute of Medical Science, Univ. of Tokyo Dr. Kenta Nakai Yoshiaki Tanaka (nucleosome data analysis)