生命情報解析 第4回 シグナル配列の統計解析(3)

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
第 2 章 : DNA 研究法 2.2DNA クローニング クローニングベクター 大腸菌以外のベクター ゲノム分子生物学 年 5 月 7 日 担当 : 中東.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
Drosophila solexa Tag analysis 2/25
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
植物系統分類学・第13回 分子系統学の基礎と実践
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
遺伝子発現 B4ゼミ発表 酒井大輔 2004年 5月10日.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
特論B 細胞の生物学 第2回 転写 和田 勝 東京医科歯科大学教養部.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
確率・統計Ⅱ 第7回.
第2章補足Ⅱ 2項分布と正規分布についての補足
数理統計学  第8回 第2章のエクササイズ 西山.
数理統計学  第8回 西山.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
京都大学 化学研究所 バイオインフォマティクスセンター
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
第8回 関連多群の差の検定 問題例1 健常人3名につき、血中物質Xの濃度を季節ごとの調べた。 個体 春 夏 秋 冬 a
数理統計学 第11回 西 山.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
analysis of survey data 第3回 香川大学経済学部 堀 啓造
翻訳 5’ → 3’ の方向 リボソーム上で行われる リボソームは蛋白質とrRNAの複合体 遺伝情報=アミノ酸配列
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
数理統計学 第4回 西山.
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
RNAの研究が熱い! そもそもどういう背景で細胞内に多数のRNAがあることが判明したか なぜRNAが重要と考えられるのか
統計学 西 山.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
タンパク質の進化 タンパク質は進化の過程でどのようにドメインを獲得してきたのだろうか? 今のタンパク質を調べることでわからないだろうか?
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
母分散の信頼区間 F分布 母分散の比の信頼区間
確率と統計2009 第12日目(A).
生命情報解析 第3回 シグナル配列の統計解析(2)
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
構造的類似性を持つ半構造化文書における頻度分析
情報工学Ⅱ (第9回) 月曜4限 担当:北川 晃.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
数理統計学  第6回 西山.
データ分布の特徴 基準化変量 歪度 尖度.
遺伝統計学 集中講義 (6) 終わりに.
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

生命情報解析 第4回 シグナル配列の統計解析(3) 慶應義塾大学先端生命科学研究所

確率分布と有意性 (1) P = 0.00243815649926 棒グラフの右側部分の面積の合計が確率、すなわち有意性を表す

確率分布と有意性 (2) 確率分布をはっきりさせる 検定対象の値から右側の面積を求める “こんなにも大きな値”が出る確率が求まる 確率変数が取る実数 検定対象の値 確率分布をはっきりさせる 検定対象の値から右側の面積を求める “こんなにも大きな値”が出る確率が求まる 有意性の指標として使う

Z Scoreの特徴 平均が0、分散(データの散らばり)が1になる 元の分布が正規分布なら、そのZ Scoreは標準正規分布となる 1.96 平均が0、分散(データの散らばり)が1になる 元の分布が正規分布なら、そのZ Scoreは標準正規分布となる どんな正規分布でも、Z Scoreに直せば同じ土俵(?)で確率計算ができる Z Scoreが1.96を超える確率は0.025

サイコロを100回振って、90回”6”の目が出るときのZ Scoreは

塩基の方も… ここでは簡単のため、1塩基の偏りだけを考える ゲノム全体の塩基組成を考えて、塩基iが対象となる場所において観測される確率はpiとする 今、N本の配列のうち、 Ni個について、対象となる位置に塩基iが観測された この条件では通常、Niは正規分布に従う

頻出塩基の統計的有意性 Z Score = N :解析する配列数 Ni :観測された塩基iの数 Bi :ゲノム中における塩基iの割合 Z Score > 1.96なら、P < 0.05

複数の塩基の有意性を 同時に検定するには? ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か? Z Scoreを4つも計算すると… 4つも値が出て、取り扱いが煩雑になる 偶然に高い値を示すものが出やすくなる Χ2値を使う

Χ2値 n個の互いに独立なZ Score:Z1, Z2, Z3, …, Znがあるとき、 Χn2値 = Z12+Z22+Z32+…+Zn2 Χn2値は自由度nのΧn2分布に従う

Χ2分布

Χ2分布に従う値を求める しかし、Na, Nc, Ng, Ntは互いに独立ではないため、これらのZ Scoreを足しても自由度4のΧ2分布には従わない。そこで… 塩基がそれぞれBiの頻度で出現するとき、上記Χ2値は自由度3のΧ2分布に従う Χ2値>12.84ならP < 0.005 但しNは解析対象の配列数

Χ2計算の例 ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か? この例では偏りが有意とは言えない。

大腸菌開始コドン周辺の 塩基のχ2乗値

2つの数式の関係(1) 4塩基を2種類に分類して考える プリン(A,G)、ピリミジン(C,T) ゲノム中のプリン、ピリミジンの頻度をそれぞれBpur, Bpyrとする 対象となる位置で観測されたプリン、ピリミジンの頻度をそれぞれPpur, Ppyrとする。但し、Ppur + Ppyr = 1

2つの数式の関係(2) 2種類の塩基の数をもとに計算したΧ2値は自由度1のΧ2分布に従う 4種類の塩基の数をもとに計算したΧ2値は自由度3のΧ2分布に従う 自由度は自由に動ける変数の数を意味する

演習問題 Ba=0.3,Bc=0.2,Bg=0.2,Bt=0.3として、与えられた位置における塩基iの個数Niが Na = 50, Nc = 30, Ng = 10, Nt = 10 Na = 500, Nc = 300, Ng = 100, Nt = 100 のときの増加情報量、χ2値を求めよ。 log23 ≒1.585、log25 ≒2.322

演習問題 解答 (1), (2)ともに (1) (2)

特定のシグナル配列の存在頻度 様々な塩基配列の偏りを調べるのではなく、特定のシグナル配列の存在頻度を調べたい (ex. SD配列 “AGG”) 最も単純なのは、頻度=あるシグナル配列が観測される配列数÷解析対象の配列数

大腸菌開始コドン周辺の”AGG”の頻度

頻出塩基配列パターンの 統計的有意性 Z Score = Nobs :パターン観測数 N:解析する配列数 p:ゲノム中におけるパターンの割合 パターンの出現頻度がpのとき、Z Scoreは標準正規分布に従う Z Score > 1.96なら、P < 0.05

大腸菌開始コドン周辺の”AGG”のZ-Score

翻訳開始シグナル抽出結果 Escherichia coli Pat. Z-Sc. Pos. agga 94.97 -11 16S rRNA 3- terminal: gcggttggatcacctcctta3 Expected SD Sequence: 5taaggaggtgatccaaccgc Pat. Z-Sc. Pos. agga 94.97 -11 ggag 82.94 -10 aagg 58.15 -11 gagg 53.08 -11 gaga 42.23  -9

シグナル配列出現の評価 塩基の偏り 配列パターン 偏りの程度 … エントロピー、増加情報量 偏りの有意性 … Χ2値 出現の程度 … 頻度 出現の有意性 … Z Score

分子レベルの生命現象の根幹 ~ セントラルドグマ ~ ATG TAA DNA 転写 RNA AUG UAA 翻訳 タンパク質 機能

RNAレベルで機能する分子 tRNA rRNA Other non-coding RNA Translational regulation by mRNA

tRNA

tRNA ACC ACGAGUACA UGCUCAUGUUGG

rRNA

リボソーム Methionine fMet-tRNAf mRNA 16S rRNAの3‘末端はShine-Dalgarno配列と 対合する AUUCCUCC mRNA AUG AGGAGG 開始コドン Shine-Dalgarno sequence 16S rRNAの3‘末端はShine-Dalgarno配列と 対合する

翻訳での遺伝子の発現制御 Fe Ferritin gene 5’ 3’

二次構造による終止コドンの 読み飛ばし 通常の長さのタンパク質 リードスルーによってできた長いタンパク質 UAA mRNA UAA 通常の長さのタンパク質 Steneberg, P. 2001 リードスルーによってできた長いタンパク質

Function of readthrough product is stronger hdc 1034 2981 4274 AUG UAA UAA hdc gene is expressed in tracheoles in larvae of D. melanogaster Possibility of Regulation by readthrough? Long product Short product Branching of lumens are inhibited strongly Branching of lumens are inhibited weakly Steneberg and Samakovlis, 2001

cDNA配列を用いた転写産物の収集 遺伝子 ATG TAA DNA 転写 mRNA AUG UAA 逆転写 cDNA ATG UAA

マウスcDNA配列の網羅的収集

コード領域を持たないcDNA? ゲノム cDNA Numata et al. 2003

さらにコード領域を持たない多数のcDNA?

タンパク質をコードしないcDNA配列が多くある ゲノム ゲノムの62.5%をカバー 多くのRNAは翻訳されなくても機能を持つ? 非翻訳RNAが多量に存在?

多数の非翻訳RNAの存在が予想されて いるものの、ほとんどは機能未知

RNAの二次構造予測 一本鎖RNAはDNAに比べ、自由な構造を取ることが可能 RNAが機能する上で立体構造が重要になってくる 二次構造は、どの塩基とどの塩基が結合しているかを表す 一次配列から二次構造を予測しよう!

tRNAの二次構造予測の例 GenBank tRNA配列 Zukerのmfold http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOCPTGG http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOPHER Zukerのmfold http://www.bioinfo.rpi.edu/applications/mfold/old/rna/form1.cgi