生命情報解析第4回シグナル配列の統計解析(3)

生命情報解析第4回シグナル配列の統計解析(3)
慶應義塾大学先端生命科学研究所

確率分布と有意性 (1) P = 棒グラフの右側部分の面積の合計が確率、すなわち有意性を表す

確率分布と有意性 (2) 確率分布をはっきりさせる検定対象の値から右側の面積を求める “こんなにも大きな値”が出る確率が求まる
確率変数が取る実数検定対象の値確率分布をはっきりさせる検定対象の値から右側の面積を求める “こんなにも大きな値”が出る確率が求まる有意性の指標として使う

Z Scoreの特徴平均が0、分散(データの散らばり)が1になる元の分布が正規分布なら、そのZ Scoreは標準正規分布となる
1.96 平均が0、分散(データの散らばり)が1になる元の分布が正規分布なら、そのZ Scoreは標準正規分布となるどんな正規分布でも、Z Scoreに直せば同じ土俵(?)で確率計算ができる Z Scoreが1.96を超える確率は0.025

サイコロを100回振って、90回”6”の目が出るときのZ Scoreは

塩基の方も… ここでは簡単のため、１塩基の偏りだけを考える
ゲノム全体の塩基組成を考えて、塩基iが対象となる場所において観測される確率はpiとする今、N本の配列のうち、 Ni個について、対象となる位置に塩基iが観測されたこの条件では通常、Niは正規分布に従う

頻出塩基の統計的有意性 Z Score = N :解析する配列数 Ni :観測された塩基iの数 Bi :ゲノム中における塩基iの割合
Z Score > 1.96なら、P < 0.05

複数の塩基の有意性を同時に検定するには? ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か？ Z Scoreを４つも計算すると… ４つも値が出て、取り扱いが煩雑になる偶然に高い値を示すものが出やすくなる Χ2値を使う

Χ2値 n個の互いに独立なZ Score：Z1, Z2, Z3, …, Znがあるとき、 Χn2値 = Z12+Z22+Z32+…+Zn2
Χn2値は自由度nのΧn2分布に従う

Χ2分布

Χ2分布に従う値を求めるしかし、Na, Nc, Ng, Ntは互いに独立ではないため、これらのZ Scoreを足しても自由度４のΧ2分布には従わない。そこで… 塩基がそれぞれBiの頻度で出現するとき、上記Χ2値は自由度３のΧ2分布に従う Χ2値>12.84ならP < 0.005 但しNは解析対象の配列数

Χ2計算の例ゲノム全体の塩基組成をBa=0.3, Bc=0.3, Bg=0.3, Bt=0.1として、与えられた位置における塩基iの個数Niが Na = 40, Nc =40, Ng = 10, Nt = 10のとき、偏りは有意か？この例では偏りが有意とは言えない。

大腸菌開始コドン周辺の塩基のχ2乗値

２つの数式の関係(1) 4塩基を2種類に分類して考えるプリン(A,G)、ピリミジン(C,T)
ゲノム中のプリン、ピリミジンの頻度をそれぞれBpur, Bpyrとする対象となる位置で観測されたプリン、ピリミジンの頻度をそれぞれPpur, Ppyrとする。但し、Ppur + Ppyr = 1

２つの数式の関係(2) ２種類の塩基の数をもとに計算したΧ2値は自由度1のΧ2分布に従う
4種類の塩基の数をもとに計算したΧ2値は自由度3のΧ2分布に従う自由度は自由に動ける変数の数を意味する

演習問題 Ba=0.3,Bc=0.2,Bg=0.2,Bt=0.3として、与えられた位置における塩基iの個数Niが
Na = 50, Nc = 30, Ng = 10, Nt = 10 Na = 500, Nc = 300, Ng = 100, Nt = 100 のときの増加情報量、χ2値を求めよ。 log23 ≒1.585、log25 ≒2.322

演習問題解答 (1), (2)ともに (1) (2)

特定のシグナル配列の存在頻度様々な塩基配列の偏りを調べるのではなく、特定のシグナル配列の存在頻度を調べたい (ex. SD配列 “AGG”) 最も単純なのは、頻度＝あるシグナル配列が観測される配列数÷解析対象の配列数

大腸菌開始コドン周辺の”AGG”の頻度

頻出塩基配列パターンの統計的有意性 Z Score = Nobs :パターン観測数 N:解析する配列数 p:ゲノム中におけるパターンの割合
パターンの出現頻度がpのとき、Z Scoreは標準正規分布に従う Z Score > 1.96なら、P < 0.05

大腸菌開始コドン周辺の”AGG”のZ-Score

翻訳開始シグナル抽出結果 Escherichia coli Pat. Z-Sc. Pos. agga 94.97 -11
16S rRNA 3- terminal: gcggttggatcacctcctta3 Expected SD Sequence: 5taaggaggtgatccaaccgc Pat. Z-Sc. Pos. agga ggag aagg gagg gaga 　-9

シグナル配列出現の評価塩基の偏り配列パターン偏りの程度 … エントロピー、増加情報量偏りの有意性 … Χ2値出現の程度 … 頻度
出現の有意性 … Z Score

分子レベルの生命現象の根幹～セントラルドグマ～
ATG TAA DNA 転写 RNA AUG UAA 翻訳タンパク質機能

RNAレベルで機能する分子 tRNA rRNA Other non-coding RNA
Translational regulation by mRNA

tRNA ACC ACGAGUACA UGCUCAUGUUGG

リボソーム Methionine fMet-tRNAf mRNA 16S rRNAの3‘末端はShine-Dalgarno配列と対合する
AUUCCUCC mRNA AUG AGGAGG 開始コドン Shine-Dalgarno sequence 16S rRNAの3‘末端はShine-Dalgarno配列と対合する

翻訳での遺伝子の発現制御 Fe Ferritin gene 5’ 3’

二次構造による終止コドンの読み飛ばし通常の長さのタンパク質リードスルーによってできた長いタンパク質 UAA
mRNA UAA 通常の長さのタンパク質 Steneberg, P. 2001 リードスルーによってできた長いタンパク質

Function of readthrough product is stronger
hdc 1034 2981 4274 AUG UAA UAA hdc gene is expressed in tracheoles in larvae of D. melanogaster Possibility of Regulation by readthrough? Long product Short product Branching of lumens are inhibited strongly Branching of lumens are inhibited weakly Steneberg and Samakovlis, 2001

cDNA配列を用いた転写産物の収集遺伝子ＡＴＧ TAA ＤＮＡ転写 mRNA ＡUG UAA 逆転写 cDNA ＡTG UAA

マウスcDNA配列の網羅的収集

コード領域を持たないcDNA? ゲノム cDNA Numata et al. 2003

さらにコード領域を持たない多数のcDNA?

タンパク質をコードしないcDNA配列が多くある
ゲノムゲノムの62.5%をカバー多くのRNAは翻訳されなくても機能を持つ？非翻訳RNAが多量に存在？

多数の非翻訳RNAの存在が予想されているものの、ほとんどは機能未知

RNAの二次構造予測一本鎖RNAはDNAに比べ、自由な構造を取ることが可能 RNAが機能する上で立体構造が重要になってくる
二次構造は、どの塩基とどの塩基が結合しているかを表す一次配列から二次構造を予測しよう！

tRNAの二次構造予測の例 GenBank tRNA配列 Zukerのmfold
Zukerのmfold

生命情報解析第4回シグナル配列の統計解析(3)

Similar presentations

Presentation on theme: "生命情報解析第4回シグナル配列の統計解析(3)"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

生命情報解析 第4回 シグナル配列の統計解析(3)

Similar presentations

Presentation on theme: "生命情報解析 第4回 シグナル配列の統計解析(3)"— Presentation transcript:

Similar presentations

About project

フィードバック

生命情報解析第4回シグナル配列の統計解析(3)

Presentation on theme: "生命情報解析第4回シグナル配列の統計解析(3)"— Presentation transcript: