生命情報解析 第3回 シグナル配列の統計解析(2)

Slides:



Advertisements
Similar presentations
橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
Advertisements

数理統計学 西 山. 前回のポイント<ルート N の法則> 1. データ(サンプル)の合計値 正規分布をあてはめる ルート N をかけて標準偏差を求める 2. データ(サンプル)の平均値 正規分布を当てはめる 定理8がポイント ルート N で割って標準偏差を求める.
ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
数理統計学  第9回 西山.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
      仮説と検定.
経済統計学 第2回 4/24 Business Statistics
数理統計学(第四回) 分散の性質と重要な法則
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学  第7回 西 山.
統計学 11/13(月) 担当:鈴木智也.
第1回 担当: 西山 統計学.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
統計解析 第9回 第9章 正規分布、第11章 理論分布.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
確率・統計Ⅱ 第7回.
第2章補足Ⅱ 2項分布と正規分布についての補足
統計学 11/19(月) 担当:鈴木智也.
数理統計学  第8回 第2章のエクササイズ 西山.
数理統計学  第8回 西山.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
第8回 関連多群の差の検定 問題例1 健常人3名につき、血中物質Xの濃度を季節ごとの調べた。 個体 春 夏 秋 冬 a
数理統計学 第11回 西 山.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
生命情報解析 第4回 シグナル配列の統計解析(3)
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
数理統計学 第4回 西山.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規分布確率密度関数.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
RNAの研究が熱い! そもそもどういう背景で細胞内に多数のRNAがあることが判明したか なぜRNAが重要と考えられるのか
確率と統計2008 平成20年12月4日(木) 東京工科大学 亀田弘之.
統計学 西 山.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
数理統計学 西 山.
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
数理統計学  第6回 西山.
データ分布の特徴 基準化変量 歪度 尖度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
確率と統計 年1月7日(木) Version 3.
Presentation transcript:

生命情報解析 第3回 シグナル配列の統計解析(2) 慶應義塾大学先端生命科学研究所

塩基の偏りの程度を エントロピーで測る 但しPiは塩基iの頻度(0≦ Pi≦1), 0log0 = 0と定義 0 ≦ H ≦ 2 A,C,G,Tが1/4ずつなら H = 2 A,Cが1/2, C,Gが0なら H = 1 全てAなら H = 0

大腸菌開始コドン周辺の 塩基のエントロピー

シグナル配列が見られるところで、値が下がるというのは感覚に合わない? Schneider T et al. 1986はRseqを導入した Rseq = エントロピーの最大値 – 対象位置のエントロピー 塩基の偏りが強い → Rseqが2に近づく 塩基の偏りが弱い → Rseqが0に近づく 不確定性の減少の度合い

最大エントロピーから 対象位置のエントロピーを引くと…

配列ロゴ http://www.lecb.ncifcrf.gov/~toms/gallery/ribo.logo.gif

タンパク質のリン酸化部位の解析 ADSLQMWSA MAALLSL ADSLQMWSWLLW http://en.wikipedia.org/wiki/Protein_kinaseより抜粋 細胞は、その機能を維持するため、細胞内のタンパク質をリン酸化、脱リン酸化する反応を繰り返している。 このリン酸化によってタンパク質は酵素活性、細胞内での局在や他のタンパク質との会合状態を変化させる。 細胞内の30%ものタンパク質がキナーゼによる変化を受け、細胞内における様々なシグナル伝達や代謝の調節因子として機能している。 キナーゼ遺伝子はヒトゲノム中に約500種類があり、また真核生物の全遺伝子の約2%を占める。 P P P ADSLQMWSA MAALLSL P ADSLQMWSWLLW

Schwartz D and Gygi SP(2005) タンパク質リン酸化部位の シグナル配列 Schwartz D and Gygi SP(2005)

マイコプラズマ菌の 開始コドン周辺のエントロピー

ゲノムの塩基組成を反映させるには? マイコプラズマ菌などはゲノム全体のAT含量が高い シグナルがないところでもエントロピーが低くなってしまう ゲノムの塩基組成を考慮したい

増加情報量(1) ゲノム全体の塩基iの組成をBiとする。 シグナル配列の塩基iの組成をPiとする。 与えられた位置がシグナル配列であることが判明、その情報量I(Pi//Bi) は? ゲノム全体の中にシグナル配列があると考える。シグナル配列としての期待値を取る。 そうでないと、 -log Bi = I(Pi//Bi) + -log Piで塩基iがシグナル配列でないとなると、Piが意味をなさなくなる。

増加情報量(2) 情報量の加法性より、 式で表すと、-log Bi = I(Pi//Bi) + -log Pi = シグナル配列であることが判明したときに得られる情報量 +その上でさらに塩基iが判明したときの情報量 式で表すと、-log Bi = I(Pi//Bi) + -log Pi 従って、 I(Pi//Bi) =-log Bi --log Pi = log Pi / Bi

増加情報量(3) シグナル配列上で期待値をとって、 但しBiは塩基iの対照となる頻度(0≦ Bi≦1)と考える ゲノム全体の中にシグナル配列があると考える。シグナル配列としての期待値を取る。 そうでないと、 -log Bi = I(Pi//Bi) + -log Piで塩基iがシグナル配列でないとなると、Piが意味をなさなくなる。 但しBiは塩基iの対照となる頻度(0≦ Bi≦1)と考える

大腸菌開始コドン周辺の 塩基の増加情報量

マイコプラズマ菌開始コドン周辺の 塩基の増加情報量

演習問題 Ba=0.3,Bc=0.3,Bg=0.3,Bt=0.1 として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10 のときの増加情報量を求めよ。 log23 ≒1.585

統計的有意性の検定 これまでの議論はシグナル配列中の塩基がどれくらい偏っているかだった しかし、このままではその偏りが偶然に生まれている可能性は否定できない 偶然に起きる確率の計算 → 統計的有意性

偏りのないサイコロ? (歪みのないサイコロ) サイコロを10回振ったとき、6の目が9回出た 6の目が10回中、9回以上も出る確率は (1/6)9(5/6)1×10 + (1/6)10 ≒8.4344675608 × 10-7 P < 8.44 × 10-7 確率計算によって有意性を調べる

確率分布と有意性(1) P = 0.00243815649926 P < 0.003 棒グラフの右側部分の面積の合計が確率、すなわち有意性を表す

確率分布と有意性(2) 試行回数が増えると、正規分布と呼ばれる左右対称の分布に近づく

正規分布 Gaussian Distribution p μ:平均、σ:標準偏差 x 多くの自然現象、社会現象は正規分布になる? サイコロを1000回振ったときに、6の目が出る回数 工業製品の品質(重さ,長さなど)、多くの要因が重なる誤差 大学1年生男子の身長 一日の降水量?(対数をとる) サンプル数が多ければ、その平均は正規分布に従う(中心極限定理)

Z Scoreによる分布の変換 Z Score = N :試行回数 Nobs :対象となる現象の観測数 p :対象となる現象が起こる確率

Z Scoreの特徴 平均が0、分散(データの散らばり)が1になる 元の分布が正規分布なら、そのZ Scoreは標準正規分布となる 1.96 平均が0、分散(データの散らばり)が1になる 元の分布が正規分布なら、そのZ Scoreは標準正規分布となる どんな正規分布でも、Z Scoreに直せば同じ土俵(?)で確率計算ができる Z Scoreが1.96を超える確率は0.025

サイコロを100回振って、90回”6”の目が出るときのZ Scoreは

塩基の方も… ここでは簡単のため、1塩基の偏りだけを考える ゲノム全体の塩基組成を考えて、塩基iが対象となる場所において観測される確率はpiとする 今、N本の配列のうち、 Ni個について、対象となる位置に塩基iが観測された この条件では通常、Niは正規分布に従う

頻出塩基の統計的有意性 Z Score = N :解析する配列数 Ni :観測された塩基iの数 Bi :ゲノム中における塩基iの割合 Z Score > 1.96なら、P < 0.05

演習問題 ゲノム全体でGの組成は0.2であるとする。今、200本の配列の特定の位置において、Gが20本の配列で観測された。このときのGの個数のZ Scoreを求めよ。

複数の塩基の有意性を 同時に検定するには? ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か? Z Scoreを4つも計算すると… 4つも値が出て、取り扱いが煩雑になる 偶然に高い値を示すものが出やすくなる Χ2値を使う

Χ2値 n個の互いに独立なZ Score:Z1, Z2, Z3, …, Znがあるとき、 Χn2値 = Z12+Z22+Z32+…+Zn2 Χn2値は自由度nのΧn2分布に従う

Χ2分布

Χ2分布に従う値を求める しかし、Na, Nc, Ng, Ntは互いに独立ではないため、これらのZ Scoreを足しても自由度4のΧ2分布には従わない。そこで… 塩基がそれぞれBiの頻度で出現するとき、上記Χ2値は自由度3のΧ2分布に従う Χ2値>12.84ならP < 0.005 但しNは解析対象の配列数

Χ2計算の例 ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か? この例では偏りが有意とは言えない。

大腸菌開始コドン周辺の 塩基のχ2乗値

2つの数式の関係(1) 4塩基を2種類に分類して考える プリン(A,G)、ピリミジン(C,T) ゲノム中のプリン、ピリミジンの頻度をそれぞれBpur, Bpyrとする 対象となる位置で観測されたプリン、ピリミジンの頻度をそれぞれPpur, Ppyrとする。但し、Ppur + Ppyr = 1

2つの数式の関係(2) 2種類の塩基の数をもとに計算したΧ2値は自由度1のΧ2分布に従う 4種類の塩基の数をもとに計算したΧ2値は自由度3のΧ2分布に従う 自由度は自由に動ける変数の数を意味する

演習問題 Ba=0.3,Bc=0.2,Bg=0.2,Bt=0.3として、与えられた位置における塩基iの個数Niが Na = 50, Nc = 30, Ng = 10, Nt = 10 Na = 500, Nc = 300, Ng = 100, Nt = 100 のときの増加情報量、χ2値を求めよ。 log23 ≒1.585、log25 ≒2.322

演習問題 解答 (1), (2)ともに (1) (2)

特定のシグナル配列の存在頻度 様々な塩基配列の偏りを調べるのではなく、特定のシグナル配列の存在頻度を調べたい (ex. SD配列 “AGG”) 最も単純なのは、頻度=あるシグナル配列が観測される配列数÷解析対象の配列数

大腸菌開始コドン周辺の”AGG”の頻度

頻出塩基配列パターンの 統計的有意性 Z Score = Nobs :パターン観測数 N:解析する配列数 p:ゲノム中におけるパターンの割合 パターンの出現頻度がpのとき、Z Scoreは標準正規分布に従う Z Score > 1.96なら、P < 0.05

大腸菌開始コドン周辺の”AGG”のZ-Score

翻訳開始シグナル抽出結果 Escherichia coli Pat. Z-Sc. Pos. agga 94.97 -11 16S rRNA 3- terminal: gcggttggatcacctcctta3 Expected SD Sequence: 5taaggaggtgatccaaccgc Pat. Z-Sc. Pos. agga 94.97 -11 ggag 82.94 -10 aagg 58.15 -11 gagg 53.08 -11 gaga 42.23  -9

シグナル配列出現の評価 塩基の偏り 配列パターン 偏りの程度 … エントロピー、増加情報量 偏りの有意性 … Χ2値 出現の程度 … 頻度 出現の有意性 … Z Score