RNAの研究が熱い! そもそもどういう背景で細胞内に多数のRNAがあることが判明したか なぜRNAが重要と考えられるのか

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

効率的に計算可能な 加法的誤りの訂正可能性 安永 憲司 九州先端科学技術研究所 SITA 2012 @ 別府湾ロイヤルホテル
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
パターン認識入門.
動的計画法を用いたアラインメント  小菅孝史.
データの圧縮.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
経済統計学 第2回 4/24 Business Statistics
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
全加算回路 A, Bはそれぞれ0または1をとるとする。 下位桁からの繰り上がりをC1とする。(0または1)
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
前回の練習問題 無記憶・非定常な情報源を一つ例示せよ 時刻 t に t 枚のコインを投げるとき,表が出る枚数 以下のマルコフ情報源について,
RNA i (RNA interference).
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
確率・統計Ⅱ 第7回.
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
データ分析入門(13) 第13章 主成分分析 廣野元久.
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
統計学 11/08(木) 鈴木智也.
京都大学 化学研究所 バイオインフォマティクスセンター
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
システム開発実験No.7        解 説       “論理式の簡略化方法”.
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
セントラルドグマ 遺伝情報の流れ DNA→RNA→蛋白質→代謝などの生命活動 DNA→遺伝情報を記録した「設計図」 全部の「設計図」→ゲノム
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
計測工学 復習.
生命情報解析 第4回 シグナル配列の統計解析(3)
オントロジーを使用した プログラム開発支援システムの提案
第3回: 今日の目標 平均情報量を説明し、計算できる シャノンの通信モデルを説明できる 情報源符号化の条件を示せる
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
第6章 連立方程式モデル ー 計量経済学 ー.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
遺伝子の機能は、どのようにしてわかるのか
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Mathematical Learning Theory
傾きがわかった関数の軌跡を求める. 変数は二つ以上
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
・Proof readingについて ・PrimerのTm値について
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
Introduction to Soft Computing (第11回目)
Extractor D3 川原 純.
分子生物情報学(2) 配列のマルチプルアライメント法
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
植物系統分類学・第14回 分子系統学の基礎と実践
様々な情報源(4章).
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
生命情報解析 第3回 シグナル配列の統計解析(2)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
論理回路 第4回
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
メンバー 高野 芳光、高橋 敦史、高橋 裕嗣 高橋 祐帆、高山 陽平、田嶋 麻子
構造的類似性を持つ半構造化文書における頻度分析
論理回路 第5回
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
忙しい人のためのR/Bioconductorの基礎
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
演習問題 (6/8) ネットワーク長が 18bit、28bit の時の ネットワークアドレス ブロードキャストアドレスを求めよ。 と が
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
パターン認識特論 カーネル主成分分析 和田俊和.
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
統計解析 第11回.
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
確率統計学 (データ解析学) 書き込み式ノート(Ver.1) 担当教員:綴木 馴.
Presentation transcript:

RNAの研究が熱い! そもそもどういう背景で細胞内に多数のRNAがあることが判明したか なぜRNAが重要と考えられるのか 完全長cDNAのゲノムへのマッピング FANTOMプロジェクト なぜRNAが重要と考えられるのか miRNA、アンチセンスRNA RNAの解析を進める上でどんな手法があるか 二次構造解析

RNA二次構造予測(2) 生命情報解析 2007年10月25日

RNAの二次構造の解析 RNAは一本鎖なので、折れ曲がって自分自身と結合を作りやすい 二次構造が機能と大きく関わっているため、機能を知る手がかりに? 5’ 3’

二次構造の抽出 複数の配列を並べると… 一次配列の保存性 … 配列パターン 二次構造の保存性 … 配列パターンでは見えにくい場合がある (RNAの構造など)

RNA二次構造による 塩基間相互作用 C C C C C C C C C C C C C C C C C C C C AT TA CG GC A G GC (a) (b) (c) (d) (e) (a) ATGCTACCCCTAGCTA (b) TAGATACCCCTATCTA (c) TAGGTACCCCTACCTA (d) TAGTTACCCCTAACTA (e) TAGATACCCCTAGCTA

結合エントロピー (1) 2つの情報源から組み合わせとして得られる情報の情報量の期待値 サイコロ1と2を考える サイコロ1が”6”の目… -log1/6の情報量 サイコロ2が”3”の目 …-log1/6の情報量 両方のサイコロを振ったとき、サイコロ1が”6”の目で、サイコロ2が”3”の目 … -log1/36の情報量

結合エントロピー (2) サイコロ1(情報源X, 情報xiが出力される)とサイコロ2 (情報源Y, 情報yjが出力される)の目を組み合わせとして考える サイコロ1の目がxiである確率をP(X=xi)、サイコロ2の目がyjである確率をP(Y=yj)とする (省略してP(xi)、 P(yj)と表す) サイコロ1の目がxiのときにサイコロ2の目がyjである確率をP(X=xi, Y=yj)とする (省略してP(xi, yj)と表す) サイコロ1の目のエントロピーH(X)は-∑iP(xi)log P(xi) サイコロ2の目のエントロピーH(Y)は-∑jP(yj)log P(yj) P(X=xi)をP(xi)と表す

結合エントロピー (3) 2つのサイコロを同時に振って、サイコロ1の目がxi、2の目がyjであることが分かったときに得られる情報量は、-log P(xi, yj) 期待値を取って 但し、∑∑P(xi, yj) = 1, ∑iP(xi, yj) = P(yj), ∑jP(xi, yj) = P(xi)

結合エントロピーの計算 U V U V U V A A A C A G A T C A C C C G C T G A G C G G G T T A T C T G T T A C A G C G C T G T G A T A T C A C C G G T T A (a)のケースでは、 AAの頻度P(ua,va) = 1/16 ACの頻度P(ua,vc) = 1/16 : TTの頻度P(ut,vt) = 1/16 従って列UとVの結合エントロピーH(U, V)は、 -P(ua,va)log P(ua, va)-P(ua,vc)log P(ua,vc) - … -P(ut,vt)log P(ut, vt) = 4 (a) (b) (c)

結合エントロピーの性質 H(U, V) = H(V, U) 0 ≦ H(U, V) ≦ H(U) + H(V)

相互情報量 (1) 一方の情報源Xから情報を得たときに、他方の情報源Yのことがどれくらい分かるか 一方の列Uの列が塩基uiと判明したとき、他方の列Vの列の塩基の種類に関する情報はどれくらい得られる?

相互情報量 (2) 情報量の加法性より、 列Vの塩基がvjであることが判明したときに得られる情報量 = 列Uの塩基がuiであることが判明したときに得られる列Vに関する情報量 +その上でさらに列Vの塩基がvjであることが判明したときの情報量 式で表すと、-log P(vi) = I(vi//ui) + -log P(ui,vj)/P(ui) 従って、 I(vi//ui) = -log P(vi) --log P(ui,vj)/P(ui) = log P(ui,vj)/(P(ui) P(vi))

相互情報量 (3) U, Vについて期待値を計算して、 列UとVの塩基間の関連性の強さを定量的にとらえている

相互情報量の性質 I(U // V) = I(V // U) I(U // V) ≧ 0 I(U // V) = H(U) + H(V) – H(U, V)

相互情報量の計算 U V U V U V A A A C A G A T C A C C C G C T G A G C G G G T T A T C T G T T A C A G C G C T G T G A T A T C A C C G G T T A (a)のケースでは、 H(U)=2, H(V)=2, H(U,V)=4 従って、 I(U//V) = H(U)+H(V)-H(U,V) = 0 (a) (b) (c)

演習問題 U V A A A G A T C C C G C T 列U,Vにおける塩基間の相互情報量を求めよ。

tRNAの二次構造 A H G B F C D E 3’ 5’ GC AU GU CG GC GC C A C G U G U A U G UGCCC GCGGG G C A A C G CUUG GAAU U U C G F U U A U A C G CG UA GC G G D E C C U A G C U

A B C D E F G H 1 2 3 4 5 6 7 0123456789012345678901234567890123456789012345678901234567890123456789012345678 aspU -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCA aspV -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCA aspT -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCA ileV -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCA ileU -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCA ileT -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCA valV -GCGTTCATAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGTTGGTTCGAGTCCAATTGAACGCACCA valW -GCGTCCGTAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGGTGGTTCGAGTCCACTCGGACGCACCA alaU -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCA alaT -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCA alaV -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCA alaX -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCA alaW -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCA hisR GGTGGCTATAGCTCAG-TTGGT-AGAGCCCTGGATTGTGATTCCAGTTGTCGTGGGTTCGAATCCCATTAGCCACCCCA pheV -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCA pheU -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCA thrW -GCCGATATAGCTCAG-TTGGT-AGAGCAGCGCATTCGTAATGCGAAGGTCGTAGGTTCGACTCCTATTATCGGCACCA asnT -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA asnW -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA asnU -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA asnV -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCA glyW TGCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA glyV -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA glyX -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA glyY -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCA thrV -GCTGATATGGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCCCCAGTTCGACTCTGGGTATCAGCACCA thrT -GCTGATATAGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCGGCAGTTCGAATCTGCCTATCAGCACCA thrU -GCCGACTTAGCTCAG-TAGGT-AGAGCAACTGACTTGTAATCAGTAGGTCACCAGTTCGATTCCGGTAGTCGGCACCA metU -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCA metT -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCA lysT -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysW -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysY -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysZ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysQ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA lysV -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCA ileY -GGCCCTTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAAGGGCCACCA ileX -GGCCCCTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAGGGGCCACCA valT -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA valZ -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA valU -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA

C E G H A B D F

演習問題 を示せ。