生命情報解析 第3回 シグナル配列の統計解析(2) 慶應義塾大学先端生命科学研究所
塩基の偏りの程度を エントロピーで測る 但しPiは塩基iの頻度(0≦ Pi≦1), 0log0 = 0と定義 0 ≦ H ≦ 2 A,C,G,Tが1/4ずつなら H = 2 A,Cが1/2, C,Gが0なら H = 1 全てAなら H = 0
大腸菌開始コドン周辺の 塩基のエントロピー
シグナル配列が見られるところで、値が下がるというのは感覚に合わない? Schneider T et al. 1986はRseqを導入した Rseq = エントロピーの最大値 – 対象位置のエントロピー 塩基の偏りが強い → Rseqが2に近づく 塩基の偏りが弱い → Rseqが0に近づく 不確定性の減少の度合い
最大エントロピーから 対象位置のエントロピーを引くと…
配列ロゴ http://www.lecb.ncifcrf.gov/~toms/gallery/ribo.logo.gif
タンパク質のリン酸化部位の解析 ADSLQMWSA MAALLSL ADSLQMWSWLLW http://en.wikipedia.org/wiki/Protein_kinaseより抜粋 細胞は、その機能を維持するため、細胞内のタンパク質をリン酸化、脱リン酸化する反応を繰り返している。 このリン酸化によってタンパク質は酵素活性、細胞内での局在や他のタンパク質との会合状態を変化させる。 細胞内の30%ものタンパク質がキナーゼによる変化を受け、細胞内における様々なシグナル伝達や代謝の調節因子として機能している。 キナーゼ遺伝子はヒトゲノム中に約500種類があり、また真核生物の全遺伝子の約2%を占める。 P P P ADSLQMWSA MAALLSL P ADSLQMWSWLLW
Schwartz D and Gygi SP(2005) タンパク質リン酸化部位の シグナル配列 Schwartz D and Gygi SP(2005)
マイコプラズマ菌の 開始コドン周辺のエントロピー
ゲノムの塩基組成を反映させるには? マイコプラズマ菌などはゲノム全体のAT含量が高い シグナルがないところでもエントロピーが低くなってしまう ゲノムの塩基組成を考慮したい
増加情報量(1) ゲノム全体の塩基iの組成をBiとする。 シグナル配列の塩基iの組成をPiとする。 与えられた位置がシグナル配列であることが判明、その情報量I(Pi//Bi) は? ゲノム全体の中にシグナル配列があると考える。シグナル配列としての期待値を取る。 そうでないと、 -log Bi = I(Pi//Bi) + -log Piで塩基iがシグナル配列でないとなると、Piが意味をなさなくなる。
増加情報量(2) 情報量の加法性より、 式で表すと、-log Bi = I(Pi//Bi) + -log Pi = シグナル配列であることが判明したときに得られる情報量 +その上でさらに塩基iが判明したときの情報量 式で表すと、-log Bi = I(Pi//Bi) + -log Pi 従って、 I(Pi//Bi) =-log Bi --log Pi = log Pi / Bi
増加情報量(3) シグナル配列上で期待値をとって、 但しBiは塩基iの対照となる頻度(0≦ Bi≦1)と考える ゲノム全体の中にシグナル配列があると考える。シグナル配列としての期待値を取る。 そうでないと、 -log Bi = I(Pi//Bi) + -log Piで塩基iがシグナル配列でないとなると、Piが意味をなさなくなる。 但しBiは塩基iの対照となる頻度(0≦ Bi≦1)と考える
大腸菌開始コドン周辺の 塩基の増加情報量
マイコプラズマ菌開始コドン周辺の 塩基の増加情報量
演習問題 Ba=0.3,Bc=0.3,Bg=0.3,Bt=0.1 として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10 のときの増加情報量を求めよ。 log23 ≒1.585
統計的有意性の検定 これまでの議論はシグナル配列中の塩基がどれくらい偏っているかだった しかし、このままではその偏りが偶然に生まれている可能性は否定できない 偶然に起きる確率の計算 → 統計的有意性
偏りのないサイコロ? (歪みのないサイコロ) サイコロを10回振ったとき、6の目が9回出た 6の目が10回中、9回以上も出る確率は (1/6)9(5/6)1×10 + (1/6)10 ≒8.4344675608 × 10-7 P < 8.44 × 10-7 確率計算によって有意性を調べる
確率分布と有意性(1) P = 0.00243815649926 P < 0.003 棒グラフの右側部分の面積の合計が確率、すなわち有意性を表す
確率分布と有意性(2) 試行回数が増えると、正規分布と呼ばれる左右対称の分布に近づく
正規分布 Gaussian Distribution p μ:平均、σ:標準偏差 x 多くの自然現象、社会現象は正規分布になる? サイコロを1000回振ったときに、6の目が出る回数 工業製品の品質(重さ,長さなど)、多くの要因が重なる誤差 大学1年生男子の身長 一日の降水量?(対数をとる) サンプル数が多ければ、その平均は正規分布に従う(中心極限定理)
Z Scoreによる分布の変換 Z Score = N :試行回数 Nobs :対象となる現象の観測数 p :対象となる現象が起こる確率
Z Scoreの特徴 平均が0、分散(データの散らばり)が1になる 元の分布が正規分布なら、そのZ Scoreは標準正規分布となる 1.96 平均が0、分散(データの散らばり)が1になる 元の分布が正規分布なら、そのZ Scoreは標準正規分布となる どんな正規分布でも、Z Scoreに直せば同じ土俵(?)で確率計算ができる Z Scoreが1.96を超える確率は0.025
サイコロを100回振って、90回”6”の目が出るときのZ Scoreは
塩基の方も… ここでは簡単のため、1塩基の偏りだけを考える ゲノム全体の塩基組成を考えて、塩基iが対象となる場所において観測される確率はpiとする 今、N本の配列のうち、 Ni個について、対象となる位置に塩基iが観測された この条件では通常、Niは正規分布に従う
頻出塩基の統計的有意性 Z Score = N :解析する配列数 Ni :観測された塩基iの数 Bi :ゲノム中における塩基iの割合 Z Score > 1.96なら、P < 0.05
演習問題 ゲノム全体でGの組成は0.2であるとする。今、200本の配列の特定の位置において、Gが20本の配列で観測された。このときのGの個数のZ Scoreを求めよ。
複数の塩基の有意性を 同時に検定するには? ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か? Z Scoreを4つも計算すると… 4つも値が出て、取り扱いが煩雑になる 偶然に高い値を示すものが出やすくなる Χ2値を使う
Χ2値 n個の互いに独立なZ Score:Z1, Z2, Z3, …, Znがあるとき、 Χn2値 = Z12+Z22+Z32+…+Zn2 Χn2値は自由度nのΧn2分布に従う
Χ2分布
Χ2分布に従う値を求める しかし、Na, Nc, Ng, Ntは互いに独立ではないため、これらのZ Scoreを足しても自由度4のΧ2分布には従わない。そこで… 塩基がそれぞれBiの頻度で出現するとき、上記Χ2値は自由度3のΧ2分布に従う Χ2値>12.84ならP < 0.005 但しNは解析対象の配列数
Χ2計算の例 ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か? この例では偏りが有意とは言えない。
大腸菌開始コドン周辺の 塩基のχ2乗値
2つの数式の関係(1) 4塩基を2種類に分類して考える プリン(A,G)、ピリミジン(C,T) ゲノム中のプリン、ピリミジンの頻度をそれぞれBpur, Bpyrとする 対象となる位置で観測されたプリン、ピリミジンの頻度をそれぞれPpur, Ppyrとする。但し、Ppur + Ppyr = 1
2つの数式の関係(2) 2種類の塩基の数をもとに計算したΧ2値は自由度1のΧ2分布に従う 4種類の塩基の数をもとに計算したΧ2値は自由度3のΧ2分布に従う 自由度は自由に動ける変数の数を意味する
演習問題 Ba=0.3,Bc=0.2,Bg=0.2,Bt=0.3として、与えられた位置における塩基iの個数Niが Na = 50, Nc = 30, Ng = 10, Nt = 10 Na = 500, Nc = 300, Ng = 100, Nt = 100 のときの増加情報量、χ2値を求めよ。 log23 ≒1.585、log25 ≒2.322
演習問題 解答 (1), (2)ともに (1) (2)
特定のシグナル配列の存在頻度 様々な塩基配列の偏りを調べるのではなく、特定のシグナル配列の存在頻度を調べたい (ex. SD配列 “AGG”) 最も単純なのは、頻度=あるシグナル配列が観測される配列数÷解析対象の配列数
大腸菌開始コドン周辺の”AGG”の頻度
頻出塩基配列パターンの 統計的有意性 Z Score = Nobs :パターン観測数 N:解析する配列数 p:ゲノム中におけるパターンの割合 パターンの出現頻度がpのとき、Z Scoreは標準正規分布に従う Z Score > 1.96なら、P < 0.05
大腸菌開始コドン周辺の”AGG”のZ-Score
翻訳開始シグナル抽出結果 Escherichia coli Pat. Z-Sc. Pos. agga 94.97 -11 16S rRNA 3- terminal: gcggttggatcacctcctta3 Expected SD Sequence: 5taaggaggtgatccaaccgc Pat. Z-Sc. Pos. agga 94.97 -11 ggag 82.94 -10 aagg 58.15 -11 gagg 53.08 -11 gaga 42.23 -9
シグナル配列出現の評価 塩基の偏り 配列パターン 偏りの程度 … エントロピー、増加情報量 偏りの有意性 … Χ2値 出現の程度 … 頻度 出現の有意性 … Z Score