分割表 Contingency table
R sources “Rx-y.R”s are packed in the zip file HERE. http://www.genome.med.kyoto-u.ac.jp/wiki_tokyo/index.php/StatGenetOhm
記述する Description 2x2 table
いくつの数値で表を説明するか?How many values do you need to describe this table?
How many values do you need to describe this table?
How many values do you need to describe this table?
2x2 table
分割表を読む Read tables 自由度 Degree of freedom 自由な変数 Free parameter
2x3 table
2x3 table
2x3 table 自由度 Degrees of freedom 自由な変数 Free parameters
有意性を判断する Judgment of significance 説明をするのに、変数を増やすか増やさないか、それが問題 Do you use additional parameter to describe the table “APPROPRIATELY”?
判断基準をプロットして考える Use plot to decide when you add the parameter 次元が自由度の空間にプロットする Plot in df-dimensional space
順序をつける Order tables
珍しさの計算 Calculation of rarity 確率 Probability
正確確率検定とピアソンのカイ自乗検定 Exact probability test and chi-square test of Pearson R13-2.R
確率と尤度 Probability and likelihood 仮説を固定、観察を動かす Hypothesis is fixed, observations vary 確率:G1,G2に差がないときにn11=x (x=0,1,2,…)という観察をする確率 尤度:G1ではAの割合がp1でG2ではAの割合がp2であるという仮定のもとでn11=n11という観察をする確率(p1=0~1,p2=0~1) Probability:When no diff. between G1 and G2, how often n11=x (x=0,1,2,…) ? Likelihood:A’s fraction of G1 and G2 are p1 and p2, how likely do we observe n11=n11. p1 and p2 ranges from 0 to 1. 仮説を動かす、観察を固定 Hypothesis vary, observations is fixed
observation hypothesis
検定3種 Three types of tests 正確確率検定 Exact tests パーミュテーションテスト Permutation-based テーブルの正確生起確率による Exact Probability based on table ピアソンの独立性検定 Pearson's independence test 尤度比検定 Likelihood ratio test
だいたい同じ 少し違う Similar each other but a bit different
尺度 Index HWD index f LD index D’, r^2
HWE MM Mm mm Mとmが独立なら MM: p(M)^2, Mm:2p(M)p(m), mm:p(m)^2 独立でないなら、ずれる When M and m are independent, MM: p(M)^2, Mm:2p(M)p(m), mm:p(m)^2 Hardy-Weinberg equilibrium(HWE) 独立でないなら、ずれる When M and m are not independent, MM/Mm/mm dist. Deviates from the HWE.
MM : p(M)^2 +f p(M)p(m) Mm : 2p(M)p(m) – fp(M)p(m) mm : p(m)^2 +f p(M)p(m) f represents deviation from HWE f can be calculated from observed MM/Mm/mm What is true value of f ?? Most likely value of f is what?
パラメタの値の推定 Estimation of value of parameters 推定値 Estimate 点推定 Point estimate 区間推定 Interval estimate
区間推定 Interval estimate #R12-1.R set.seed(.Random.seed[1]) # 疑似乱数を揃えるため N <- 20;k <- 6 # 観測情報 p <- seq(from = 0, to = 1, by = 0.01) # 数値を計算するpのリスト v <- dbeta(p, k + 1, N - k + 1) # β関数の確率密度 plot(p, v, type = "l") abline(v = k/N) # 最尤推定値 cirange <- 0.95 # 信頼区間を与え上下 0.025の範囲を指定します # β関数のクォンタイル ci <- qbeta(c((1 - cirange)/2, 1 - (1 - cirange)/2), k + 1, N - k + 1) abline(v = ci) # 95%信頼区間 Likelihood Parameter
信頼区間もいろいろな決め方 Multiple methods for confidence interval
アレル関連 連鎖不平衡 連鎖平衡 Allelic associaion, Linkage disequilibrium/equilibrium (LD LE) Alleles on two or more loci are independent(LE) ---------------------dependent (Allelic association ~LD)
Deviation from LE 2SNP haplotype H1 = pA pB +d H2 = pA pb -d d=r sqrt(pA pa pB pb) r^2 : LD index
Similarity between HWD and LD MM : p(M)^2 +f p(M)p(m) Mm : 2p(M)p(m) – fp(M)p(m) mm : p(m)^2 +f p(M)p(m) H1 = pA pB +d H2 = pA pb -d H3 = pa pB –d H4 = pa pb + d d=r sqrt(pA pa pB pb) r^2 : LD index MM : p(M)p(M) +d Mm : p(M)p(m) – d mM : p(m)p(M) – d mm : p(m)p(m) + d d= f sqrt(p(M)p(m)p(M)p(m))
Index -> Stat. value H1 = pA pB +d H2 = pA pb -d MM : p(M)p(M) +d d=r sqrt(pA pa pB pb) r^2 : LD index MM : p(M)p(M) +d Mm : p(M)p(m) – d mM : p(m)p(M) – d mm : p(m)p(m) + d d= f sqrt(p(M)p(m)p(M)p(m)) N : No. samples Chi^2 = N r^2 Chi^2 = N f^2
HWE LE
ハプロタイプ頻度を推定する Inference of haplotype freq. EMアルゴリズム EM algorithm 最大の尤度にどうやって到達する? How to reach the MAXIMUM likelihood ? BB Bb bb AA AB / AB AB / Ab Ab / Ab Aa AB / aB (AB/ab) vs. (Ab/aB) Ab / ab aa aB / aB aB / ab ab /ab
遺伝モードを検定する Tests of genetic modes 遺伝モデル Genetic modes 優性・劣性 Dominant Recessive 相加・相乗 Additive Multiplicative