生命情報科学人材養成コンソーシアムバイオインフォマティクス実習コース遺伝医学

Slides:

Advertisements

Similar presentations

統計学勉強会～カイ二乗検定～地理生態学研究室 3 年髙田裕之. カイ二乗検定とは期待値・理論値が存在するときに用いる。一般的にはピアソンのカイ二乗検定のことを指す。ノンパラメトリックな検定である。適合度検定と独立性検定がある。

Advertisements

5 章標本と統計量の分布湯浅直弘. 5-1 母集団と標本 ■ 母集合今までは確率的なことこれからは，確率や割合がわかっていないときに，推定することが目標．個体：実験や観測を行う 1 つの対象母集団：個体全部の集合  ・有限な場合：有限母集合 → １つの箱に入っているねじ．  ・無限な場合：無限母集合.

生物統計学・第 5 回比べる準備をする標準偏差、標準誤差、標準化 2013 年 11 月 7 日生命環境科学域応用生命科学類尾形善之.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

生物統計学・第 4 回比べる準備をする平均、分散、標準偏差、標準誤差、標準化 2015 年 10 月 20 日生命環境科学域応用生命科学類尾形善之.

第 2 章 : DNA 研究法 2.2DNA クローニングクローニングベクター大腸菌以外のベクターゲノム分子生物学年 5 月 7 日担当 : 中東.

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

エクセルと SPSS によるデータ分析の方法社会調査法・実習資料. 仮説の分析に使う代表的なモデル１クロス表２ｔ検定（平均値の差の検定）３相関係数.

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

統計的仮説検定の手順と用語の説明代表的な統計的仮説検定ー標準正規分布を用いた検定、ｔ分布を用いた検定、無相関検定、カイ二乗検定の説明

寺尾敦青山学院大学社会情報学部 Fisher の直接確率法寺尾　敦青山学院大学社会情報学部

看護学部中澤港統計学第５回看護学部　中澤　港

データ分析入門（12）第12章　単回帰分析廣野元久.

多次元楕円の正球化座標変換を利用した分割表検定のパーミュテーションテスト効率改善について

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

土木計画学第５回（１１月２日）調査データの統計処理と分析３担当：榊原　弘之.

構造的表現 Structure and Space

Bassモデルにおける最尤法を用いたパラメータ推定

確率･統計Ⅱ 第7回.

第3章重回帰分析ｰ計量経済学ｰ.

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

データ分析入門（13）第13章　主成分分析廣野元久.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

ガウス過程による回帰 Gaussian Process Regression GPR

分割表 Contingency table.

遺伝的アルゴリズムへの統計力学的アプローチ大阪大学大学院理学研究科鈴木譲 CISJ2005 於早稲田大学理工学部

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

対立仮説下でのみ存在する遺伝形式という母数を持つ２ｘ３分割表検定に関する考察～SNPによるケース・コントロール関連検定～

日本人類遺伝学会 2014/11/20 京都大学医学研究科統計遺伝学分野山田亮

量的表現 Quantitation.

確率論の基礎「ロジスティクス工学」第3章鞭効果第4章確率的在庫モデル補助資料

第14章　モデルの結合修士２年山川佳洋.

大規模なこと Large scale.

ゲノム科学概論～ゲノム科学における統計学の役割～ (遺伝統計学)

多変量解析ゼミ　第１０回第１２章クラスター分析発表者直江　宗紀.

イントロＤＮＡ配列意味. イントロＤＮＡ配列意味 3 DNA配列は化学的配列空間を占める 4.

主成分分析 Principal Component Analysis PCA

遺伝統計学の骨組み Skeleton of Genetic Statistics

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

多変量解析～主成分分析～１．主成分解析とは２．適用例と解析の目的３．解析の流れ４．変数が２個の場合の主成分分析

法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野山田亮

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

遺伝統計学集中講義（４） SNPによる領域の評価

東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのＤＮＡ鑑定

部分的最小二乗回帰 Partial Least Squares Regression PLS

2011/05/28 京都大学大学院附属ゲノム医学センター統計遺伝学分野山田亮

遺伝を表現するための言葉 Glossary for genetics

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

尤度の比較と仮説検定とを比較する～Ｐ値のことなど～

構造的表現 Structure and Space

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

第3章　線形回帰モデル修士1年山田　孝太郎.

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

クロス表とχ2検定.

親子鑑定に見る尤度比を角度を変えて眺めてみる

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

遺伝統計学集中講義（２）連鎖不平衡・連鎖不平衡マッピング

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

遺伝を表現するための言葉 Glossary for genetics

確率と統計2007（最終回）平成20年1月17日(木) 東京工科大学亀田弘之.

臨床統計入門（１）箕面市立病院小児科　　山本威久平成２３年１０月１１日.

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

分割表 Contingency table.

感受性遺伝子解析のデータ処理平成18年11月29日山田.

混合ガウスモデル Gaussian Mixture Model GMM

遺伝統計学 Genetic Statistics 2010

Presentation transcript:

生命情報科学人材養成コンソーシアムバイオインフォマティクス実習コース遺伝医学 2010年10月29日（金曜日）京都大学大学院医学研究科附属ゲノム医学センター統計遺伝学分野教授山田　亮 © 2010 山田　亮

本日の構成「遺伝統計学」遺伝統計学概観遺伝学基礎遺伝統計学でのデータの扱い分割表検定連鎖解析たくさんの検定

目標データ解析をする立場で、研究対象を捉えることにイメージを持つデータを眺めるスタイルを理解する既存の手法や用語に対して、自分の理解の役に立つのかどうかという視点で客観的(批判的)に対する

受講の動機は？出身・背景は？内容は、受講者の希望に応じて変更しながら進みますせっかくなので知りたいことを知って帰りましょう個別研究？/研究全般のアシスト？/ ”遺伝統計学”研究?/シリーズ受講なのでついでに? 出身・背景は？生物・遺伝系？/統計・計算機系？

今日の教材の元ネタ遺伝統計学の基礎 Rによる遺伝因子解析・遺伝子機能解析 ISBN 978-4-274-06822-5 Download Sources of R http://www.genome.med.kyoto-u.ac.jp/wiki_tokyo/index.php/StatGenetOhm

※　使用するRコードの入手とその使用法 -"http://www.genome.med.kyoto-u.ac.jp/wiki_tokyo/index.php/StatGenetOhm"から、 -Rsrc.zipファイルをダウンロードして解凍 -Rの作業ディレクトリを解凍してできたRsrcディレクトリに指定する -"Rコードのソースを読み込み"で、"StatGenetDemo.R"を読み込むと、デモ開始 -必要なパッケージのインストールが行われ、Rsrcディレクトリ内のRソースを順に実行する -ソースファイルを順送りするときと、表示図を確認するためのプロンプトが現れるので、"Enter"キー等でデモを進める

遺伝統計学概観

似ている似ていない Alike, not alike

10

離散的４カテゴリ：Ａ、Ｔ、Ｇ、Ｃ長さ　30億塩基対

acagccagag ggacgagcta gcccgacgat ggcccagggg acattgatcc gtgtgacccc agagcagccc acccatgccg tgtgtgtgct gggcaccttg actcagcttg acatctgcag ctctgcccct gaggactgca cgtccttcag catcaacgcc tccccagggg tggtcgtgga tattgcccac ggccctccag ccaagaagaa atccacaggt tcctccacat ggcccctgga ccctggggta gaggtgaccc tgacgatgaa agtggccagt ggtagcacag gcgaccagaa ggttcagatt tcatactacg gacccaagac tccaccagtc aaagctctac tctacctcac cggggtggaa atctccttgt gcgcagacat cacccgcacc ggcaaagtga agccaaccag agctgtgaaa gatcagagga cctggacctg gggcccttgt ggacagggtg ccatcctgct ggtgaactgt gacagagaca atctcgaatc ttctgccatg gactgcgagg atgatgaagt gcttgacagc gaagacctgc aggacatgtc gctgatgacc ctgagcacga agacccccaa ggacttcttc acaaaccata cactggtgct ccacgtggcc aggtctgaga tggacaaagt gagggtgttt caggccacac ggggcaaact gtcctccaag tgcagcgtag tcttgggtcc caagtggccc tctcactacc tgatggtccc cggtggaaag cacaacatgg acttctacgt ggaggccctc gctttcccgg acaccgactt cccggggctc attaccctca ccatctccct gctggacacg tccaacctgg agctccccga ggctgtggtg ttccaagaca gcgtggtctt ccgcgtggcg ccctggatca tgacccccaa cacccagccc ccgcaggagg tgtacgcgtg cagtattttt gaaaatgagg acttcctgaa gtcagtgact actctggcca tgaaagccaa gtgcaagctg accatctgcc ctgaggagga gaacatggat gaccagtgga tgcaggatga aatggagatc ggctacatcc aagccccaca caaaacgctg cccgtggtct tcgactctcc aaggaacaga ggcctgaagg agtttcccat caaacgcgtg atgggtccag attttggcta tgtaactcga gggccccaaa cagggggtat cagtggactg gactcctttg ggaacctgga agtgagcccc ccagtcacag tcaggggcaa ggaatacccg ctgggcagga ttctcttcgg ggacagctgt tatcccagca atgacagccg gcagatgcac caggccctgc aggacttcct cagtgcccag caggtgcagg cccctgtgaa gctctattct gactggctgt ccgtgggcca cgtggacgag ttcctgagct ttgtgccagc acccgacagg aagggcttcc ggctgctcct ggccagcccc aggtcctgct acaaactgtt ccaggagcag cagaatgagg gccacgggga ggccctgctg ttcgaaggga tcaagaaaaa aaaacagcag aaaataaaga acattctgtc aaacaagaca ttgagagaac ataattcatt tgtggagaga tgcatcgact ggaaccgcga gctgctgaag cgggagctgg gcctggccga gagtgacatc attgacatcc cgcagctctt caagctcaaa gagttctcta aggcggaagc ttttttcccc aacatggtga acatgctggt gctagggaag cacctgggca tccccaagcc cttcgggccc gtcatcaacg gccgctgctg cctggaggag aaggtgtgtt ccctgctgga gccactgggc ctccagtgca ccttcatcaa cgacttcttc acctaccaca tcaggcatgg ggaggtgcac tgcggcacca acgtgcgcag aaagcccttc tccttcaagt ggtggaacat ggtgccctga gcccatcttc cctggcgtcc tctccctcct ggccagatgt cgctgggtcc tctgcagtgt ggcaagcaag agctcttgtg aatattgtgg ctccctgggg gcggccagcc ctcccagcag tggcttgctt tcttctcctg tgatgtccca gtttcccact ctgaagatcc caacatggtc ctagcactgc acactcagtt ctgctctaag aagctgcaat aaagtttttt taagtcactt tgtac

染色体伝達図系統樹

遺伝統計学の位置づけ

The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century [ペーパーバック] David Salsburg ISBN-13: 978-0805071344 統計学を拓いた異才たち―経験則から科学へ進展した一世紀 [単行本] デイヴィッドサルツブルグ (著), David S. Salsburg (原著), 竹内惠行 (翻訳), 熊谷悦生 (翻訳) ISBN-13: 978-4532351946

遺伝学基礎

血縁関係　→　似る似る程度にばらつき似る特徴もあれば似ない特徴もある似るか似ないかには「理由」がある

遺伝的に伝わることと多様であること Heredity and Variation 何が伝わり、何が多様か？ “もの”と”こと” 遺伝子型と表現型

ジェノタイプとフェノタイプ

フェノタイプ分類のこつ

ジェノタイプ

染色体

遺伝的多様性の３要素変異交叉・組換え遺伝的浮動

遺伝子多型・変異

遺伝子多型構造分類

遺伝子多型サイズ分類

遺伝子座アレルハプロタイプディプロタイプ

交叉

組み換え起源の一致(ＩＢＳ)は、２本の染色体ができるまでの交叉の回数の偶奇で決まる

交叉回数ポアッソン分布 R2-6.R

#R2-6.R # 可能箇所すべてで交叉がおきるかどうかを試す方法 RecombSim<-function(L=10000,r=0.001,Niter=1000){ # Lは配列長,rは箇所あたりの交叉確率,Niterはシミュレーション試行回数 # 行数Niter、列数L-1箇所の行列にする m<-matrix(rbinom((L-1)*Niter,1,r),nrow=Niter) apply(m,1,sum) } # ポアッソン分布を使う方法 RecombPois<-function(L=10000,r=0.001,Niter=1000){ rpois(Niter,(L-1)*r) # rpois() 関数については付録A.5 確率分布関数・疑似乱数列の発生を参照

#R2-6.R(続き) L<-10000;r<-0.0001;Niter<-1000 NumSim<-RecombSim(L=L,r=r,Niter=Niter) NumPois<-RecombPois(L=L,r=r,Niter=Niter) ylim<-c(0,max(NumSim,NumPois)) plot(ppoints(Niter,a=0),sort(NumSim),ylim=ylim,col=gray(6/8)) par(new=T) plot(ppoints(Niter,a=0),sort(NumPois),type="l",ylim=ylim)

交叉間距離指数分布 R2-7.R

#R2-7.R Niter<-1000 # シミュレーション回数 L<-1000000 #染色体の長さ r<-0.0001 #塩基間あたりの交叉確率 # 交叉箇所数をポアッソン分布からの乱数で指定し、交叉箇所をsample関数で指定する crosses<-sort(sample(1:(L-1),rpois(1,(L-1)*r),replace=FALSE)) # 交叉間距離のベクトルを作る A<-c(0,crosses) # 染色体の始点と交叉箇所のベクトル B<-c(crosses,L) # 交叉箇所と染色体の終点のベクトル C<-B-A #交叉間距離のベクトル # 平均がmean(C)の指数分布からの乱数をlength(C)の数だけ発生させてプロット rexps<-rexp(length(C),1/mean(C)) # rexp() 関数については付録A.5 確率分布関数、疑似乱数列の発生を参照 # 交叉間距離をソートしてプロット ylim<-c(0,max(C,rexps)) plot(sort(C),ylim=ylim,cex=0.5,pch=15) #交叉間距離の昇順プロット par(new=T) plot(sort(rexps),col="red",ylim=ylim,type="l") # 指数分布からの乱数の昇順プロット

遺伝的浮動

#”a”と”b”の集団を作る Na<-1;Nb<-11;k<-4 Ns<-Na+Nb A<-c(rep("a",Na),rep("b",Nb)) A #k倍する B<-rep(A,k) #Ns個抜き取る sample(B,Ns) Niter<-1000 #Niter回、繰り返して Numa<-rep(0,Niter) for(i in 1:Niter){ S<-sample(B,Ns) Numa[i]<-length(which(S=="a")) } #"a"の抜き取られ数の分布をみる hist(Numa) #"a"が２個抜き取られた確率は？ length(which(Numa==2))/Niter #n!を使って計算してみる gamma(12+1)/(gamma(2+1)*gamma(10+1))*gamma(36+1)/(gamma(2+1)*gamma(34+1))*gamma(4+1)*gamma(44+1)/gamma(48+1) 多型性を失うドリフトアウト

#"a"の抜き取り数は、0,1,2,3,4のいずれか #その確率を計算して足し合わせてみる P0<-gamma(12+1)/(gamma(0+1)*gamma(12+1))*gamma(36+1)/(gamma(4+1)*gamma(32+1))*gamma(4+1)*gamma(44+1)/gamma(48+1) P1<-gamma(12+1)/(gamma(1+1)*gamma(11+1))*gamma(36+1)/(gamma(3+1)*gamma(33+1))*gamma(4+1)*gamma(44+1)/gamma(48+1) P2<-gamma(12+1)/(gamma(2+1)*gamma(10+1))*gamma(36+1)/(gamma(2+1)*gamma(34+1))*gamma(4+1)*gamma(44+1)/gamma(48+1) P3<-gamma(12+1)/(gamma(3+1)*gamma(9+1))*gamma(36+1)/(gamma(1+1)*gamma(35+1))*gamma(4+1)*gamma(44+1)/gamma(48+1) P4<-gamma(12+1)/(gamma(4+1)*gamma(8+1))*gamma(36+1)/(gamma(0+1)*gamma(36+1))*gamma(4+1)*gamma(44+1)/gamma(48+1) P0+P1+P2+P3+P4

酔歩 Random walk R16-sup1.R

#R16-sup1.R nstep<-100 rwalk<-matrix(0,nstep,2) rtheta<-rnorm(nstep-1) stepx<-cos(rtheta) stepy<-sin(rtheta) for(i in 1:(nstep-1)){ rwalk[i+1,1]<-rwalk[i,1]+stepx[i] rwalk[i+1,2]<-rwalk[i,2]+stepy[i] } plot(rwalk,type="l")

差が大きいときには急速に差が小さいときにはゆっくりと差と「時間微分」が比例拡散方程式拡散 R6-4.R

差が大きいときには急速に差が小さいときにはゆっくりと差と「時間微分」が比例拡散方程式

# R6-4.R # pa,pb:２集団の人口,d:単位時間あたりの移住人数,t:世代 pa<-9000 pb<-1000 d<-100 t<-0:100 fa<-(pa+pb*exp(-2*d*(pa+pb)/(pa*pb)*t))/(pa+pb) fb<-(pa*(1-exp(-2*d*(pa+pb)/(pa*pb)*t)))/(pa+pb) plot(t,fa,ylim=c(0,1),type="l",xlab="t",ylab="frequency") par(new=T) plot(t,fb,ylim=c(0,1),type="l",xlab="t",ylab="frequency")

アレルの行く末どちらかのアレルのみになるアレル頻度 R2-8.R 時間片方のアレルに固定低頻度ながら、こちら側にも固定

遺伝統計学でのデータの扱い

カテゴリカルデータ全体を覆う重なりがない

カテゴリと順序量的形質とカテゴリカテゴリと次元

カテゴリカルデータの表現分割表

自由度

自由度　記述するための変数の数２ｘ２ table

いくつの数値で表を説明するか？

テーブルを説明するのに必要な変数の数 (自由度)

自由度　１

有意性を判断する説明をするのに、変数を増やすか増やさないか、それが問題

珍しさで順序をつける δが大きさで順序をつける δが大きいほど「珍しい」

独立を仮定したとき順列(パーミュテーション) 項目１項目２ ○１ ■１ ○２ ■２ ○３ □３ ●４ □４ ●５ □５ ●６ ■６項目１項目２ ○１ □５ ○２ □４ ○３ ■１ ●４ □３ ●５ ■２ ●６ ■６項目１と項目２のラベル付けは独立だと仮定すれば並べ替えない並べ替える順列(パーミュテーション) N個の並べ替え：N!

独立を仮定したとき順列(パーミュテーション) 項目１項目２ ○１ ■１ ○２ ■２ ○３ □３ ●４ □４ ●５ □５ ●６ ■６項目１項目２ ○１ □５ ○２ □４ ○３ ■１ ●４ □３ ●５ ■２ ●６ ■６項目１と項目２のラベル付けは独立だと仮定すれば順列(パーミュテーション) N個の並べ替え：N! 並べ替えごとに、分割表ができる δの分布がとれる珍しいδとありきたりなδがわかる観測データのδのありきたりな程度を0-1の値で表わす

完全パーミュテーションとモンテカルロパーミュテーション全順列(N!)は膨大しらみつぶしにするか 1部を使うか(乱数を使う：モンテカルロ)

パーミュテーションの網羅とサンプリング library(gtools) n<-3 permutations(n,n) permutations(n,n,repeats=TRUE) sample(1:n,n)

パーミュテーション(順列)の計算パーミュテーション(順列)の足し合わせ N!は膨大モンテカルロをするにしても膨大モンテカルロの回数とパーミュテーションテストのｐ値便法はないか？

便法ないこともある

便法ないこともある分割表にはある

分割表の正確生起確率珍しさの計算 G1,G2をn..人に割り付ける場合はn..!/(n1.! n2.!)通り A,aをn..人に割り付ける場合はn..!/(n.1! n.2!) “G1-A”,”G1-a”,”G2-A”,”G2-a”をn..人に割り付ける場合はn..!/(n11! n12!n21!n22!)

正確確率と完全パーミュテーションの結果は同じラベルの枚数を考慮するかしないかしないパーミュテーションする正確確率計算

δと生起確率生起確率 δ R13-2.R

正確確率の計算正確確率の足し合わせ計算自体が面倒臭い足し合わせるためには、「膨大な」観測可能テーブルのすべてについて計算が必要自由度が上がると非現実的便法はないか？

正確確率のプロットを近似できる関数があれば・・・生起確率 δ R13-2.R

２つの便法確率ピアソンの独立性検定のカイ自乗値尤度尤度比検定

正確生起確率とはなんだったか「ある仮説(帰無仮説)」の下で「あるデータ」が観察される確率

正確生起確率はなんだったか「ある仮説(帰無仮説)」の下で「あるデータ」「別のデータ」 … 「すべてのデータ」が観察される確率 →　確率分布に照らす(カイ自乗検定)

正確生起確率はなんだったか「ある仮説(帰無仮説)」「別のある仮説(対立仮説)」 … 「すべての仮説(対立仮説と帰無仮説)」の下で「あるデータ」が観察される確率 →　仮説に基づく確率(尤度)の比較

確率と尤度 Probability and likelihood 仮説を固定、観察を動かす確率：G1,G2に差がないときにn11=x (x=0,1,2,…)という観察をする確率尤度：G1ではAの割合がp1でG2ではAの割合がp2であるという仮定のもとでn11=n11という観察をする確率(p1=0～1,p2=0～1) 仮説を動かす、観察を固定

observation hypothesis

ピアソンの独立性検定のカイ自乗値独立仮説でのデータ観測確率を知る

尤度による方法確率pの事象がn回続けて起きる確率確率pの事象がn回続けて起きて、そのあとm回続けて起きない確率 p^n x (1-p)^m n+m回のうちn回起きてm回起きない確率 C x p^n (1-p)^m C: (n+m)からnを取り出す場合の数

２ｘ２表の尤度 A a All G1 N1A N1a N1 G2 N2A N2a N2 Gall NA Na T A a All G1 P(1A) P(1a) 1 G2 P(2A) P(2a) Gall P(A) P(a)

ピアソンのカイ自乗検定の自由度尤度比検定の自由度表の中身を変更するときに、自由に動かせるセルの数尤度比検定比較する２つの仮説で使う変数の差２ｘ２表の場合はなぜ、自由度が１？

検定３種 Three types of tests 正確確率検定 Exact tests パーミュテーションテスト Permutation-based テーブルの正確生起確率による Exact Probability based on table ピアソンの独立性検定 Pearson's independence test 尤度比検定 Likelihood ratio test

だいたい同じ少し違う Similar each other but a bit different

漸近近似 Nが大きいとほとんど一緒

カテゴリカルデータの検定検定の手法Ｐ値に持ち込む形式の違いでわける正確確率に基づく検定期待値表からの距離に基づく検定尤度に基づく検定

カテゴリと順序量的形質とカテゴリカテゴリと次元

ディプロタイプというカテゴリ AaとaA AA, Aa(=aA),aaの３つ Aを父からaを母から Aを母からaを父からアレルの並び順を区別するかしないか、と、エピジェネティック効果 AA, Aa(=aA),aaの３つ

ディプロタイプというカテゴリＳＮＰの場合３タイプが対等３タイプに順序(アレルについて評価) アレルの本数の力相乗的相加的それ以外優性　劣性　ヘテロが特別

多アレルの場合順序ありリピート数など（タンデムリピート、ＣＮＶ) 順序なしハプロタイプ

順序あり・多アレルのディプロタイプの場合 1 2 (0,0) (0,1) (0,2) (1,0) (1,1) (1,2) (2,0) (2,1) (2,2) 順序をつける足し算・・・ (0,0)=0, (0,1)=(1,0)=1,…,(2,2)=2

順序なし(かもしれない)多アレルハプロタイプというカテゴリＳＮＰのアレルの組み合わせ組み合わせは多次元多次元のまま扱う順序を入れられる？ディプロタイプにすると？ Na+Na(Na-1)/2 カテゴリ

普通の表サンプルＧＰ S1 G1 P1 S2 P2 S3 G2 S4 S5 G3 … Sn P1 P2 G1 N11 N12 G2

普通の表 2x2, 2x3, …, NxM 表どれも同じ自由度は(N-1)(M-1) 自由度が大きくなると正確確率検定は大変すぎる

正確確率検定の重さ #行列を作る m<-matrix(c(10,20,30,40,50,60),nrow=2,nrow=3) m #作る行列の値の納め方を変える m<-matrix(c(10,20,30,40,50,60),nrow=2,nrow=3,byrow=TRUE) fisher.test(m) #大きな表、大きな自由度 nrow=4;ncol=4 m<-matrix(round(runif(nrow*ncol)*10,0),nrow=nrow,ncol=ncol)

普通の表の検定検定の手法Ｐ値に持ち込む形式の違いでわける正確検定・ピアソン・尤度比検定

普通の表の検定検定の手法Ｐ値に持ち込む形式の違いでわける正確検定・ピアソン・尤度比検定表の形とカテゴリの順序関係の違いでわける

普通の表の検定検定の手法確率・尤度生起確率を元に、それをまねる確率分布(カイ自乗のような)を使う方法傾向性検定、ＫＷ、ＪＴ比較するべき仮説(帰無と対立)を変数でモデル化する方法(尤度比検定のような) 線形回帰・ロジスティック・それ以外のもっといろいろな回帰(一般化線形回帰とか)

普通の表サンプルＧＰ S1 G1 P1 S2 P2 S3 G2 S4 S5 G3 … Sn P1 P2 G1 N11 N12 G2

普通ではない表ハーディ・ワインバーグ平衡検定を例に

ハーディワインバーグ平衡(HWE)とは AA Aa aa ALL N(AA) N(Aa) N(aa) N(ALL)

ランダムメイティング

HWEの期待値表 P(AA)=P(A) ^2 P(Aa)=2P(A)p(a) P(aa)=P(a)^2 AA Aa aa ALL N(AA) N(ALL) E(AA)=P(A)^2 N(ALL) E(Aa)=2P(A)P(a) N(ALL) E(aa)=P(a)^2 N(ALL) P(AA)=P(A) ^2 P(Aa)=2P(A)p(a) P(aa)=P(a)^2

ＨＷＥと近交係数 N(AA)/N(ALL) = E(AA) + f p(A)p(a) f:近交係数 (HWEの指数) f=0 : HWE f=1 : 全員ホモ接合体

HWEの観察表からカイ二乗検定アレル本数 M(A)=(2N(AA)+N(Aa))/2 M(a)=(N(Aa)+2(aa))/2 ALL N(AA) N(Aa) N(aa) N(ALL) アレル本数 M(A)=(2N(AA)+N(Aa))/2 M(a)=(N(Aa)+2(aa))/2 アレル頻度 (の推定値) P(A)=M(A)/(2 N(ALL)) P(a)=M(a)/(2 N(ALL))

HWEの期待値からのずれカイ自乗値自由度:1 (自由変数:f) N(AA)/N(ALL) = E(AA)+ f p(A)p(a) E(AA)=P(A)^2 N(ALL) E(Aa)=2P(A)P(a) N(ALL) E(aa)=P(a)^2 N(ALL) カイ自乗値自由度:1 (自由変数:f) N(AA)/N(ALL) = E(AA)+ f p(A)p(a) N(Aa) /N(ALL)= E(Aa) – 2f p(A)p(a) N(aa)/N(ALL) = E(aa) + f p(A)p(A)

ＨＷＥ検定カイ自乗値と近交係数 N(AA)/N(ALL) = E(AA) + f p(A)p(a) f:近交係数 (HWEの指数) f=0 : HWE f=1 : 全員ホモ接合体 f^2 x N(ALL)=カイ自乗値 Chi^2 = N f^2

普通ではない表　HWEの表 AA Aa aa ALL N(AA) N(Aa) N(aa) N(ALL)

ＨＷＥ正確確率検定正確率検定はできるデータの生起確率を計算できてすべての場合を網羅できればよい

ＨＷＥ正確確率検定 R4-1.R 正確率検定はできるデータの生起確率を計算できて

ＨＷＥ正確確率検定正確率検定はできるすべての場合を網羅できればよいヘテロの人数は奇数か偶数かのどちらか R4-1.R

ハーディ・ワインバーグ平衡 ↓ 連鎖平衡

アレル関連連鎖不平衡連鎖平衡ハプロタイプ

アレル関連数を確認アレル数が２の多型 k個ハプロタイプ種類数 2^k ディプロタイプ種類数 3^k

アレルの関係が独立とは独立は直交内積がゼロ～相関がゼロ独立は掛け算

ハプロイド：２ローカスの独立ハプロイド同一染色体上同一配偶子(精子・卵子)内

LE状態 2SNP haplotype ((1)AB,(2)Ab,(3)aB,(4)ab) H1 = pA pB H2 = pA pb

２ローカスが独立でなくなるとき同一分子上にあるから、自由でない交差してよければ・・・遠ければ遠いほど完全な自由：無限遠：異なる染色体

２ローカスが独立でなくなるとき「無限」に遠くても不自由メイティングが不自由(HWD,集団の構造化)

LE状態からのずれを表す 2SNP haplotype ((1)AB,(2)Ab,(3)aB,(4)ab) H1 = pA pB +d d=r SQRT(pA pa pB pb) r^2 : LD 指標

HWD と LD H1 = pA pB +d MM : p(M)^2 +f p(M)p(m) H2 = pA pb -d Mm : 2p(M)p(m) – fp(M)p(m) mm : p(m)^2 +f p(M)p(m) MM : p(M)p(M) + d Mm : p(M)p(m) – d mM : p(m)p(M) – d mm : p(m)p(m) + d d= f sqrt(p(M)p(m)p(M)p(m)) H1 = pA pB + d H2 = pA pb – d H3 = pa pB – d H4 = pa pb + d d=r sqrt(pA pa pB pb)

HWE LE

指数と統計量 MM : p(M)p(M) +d Mm : p(M)p(m) – d mM : p(m)p(M) – d d= f sqrt(p(M)p(m)p(M)p(m)) H1 = pA pB +d H2 = pA pb -d H3 = pa pB –d H4 = pa pb + d d=r sqrt(pA pa pB pb) r^2 : LD index N : No. samples Chi^2 = N r^2 r : 相関係数 Chi^2 = N f^2

LDは染色体上に広がる

染色体上に広がるLE/LDの具合 K個のマーカーペアワイズな比較 K^2 な分布 K(K-1)/2 ペア Mx とMy (x , yは異なる) との関係(K(K-1)/2 ペア) Mx とMx (自身) との関係分散・共分散行列　　　　　　　　　 (K^2の要素)

多数のＳＮＰペアについてのr^2から絵を描く R5-2.R R5-3.R m<-matrix(rbinom(120,1,0.5),20,6) heatmap(m) cormatrix<-cor(m);rsqmatrix<-cormatrix^2 image(1:nrow(rsqmatrix),1:ncol(rsqmatrix),rsqmatrix,col=gray((100:0)/100))

ペアワイズLDプロットペアワイズ情報を用いるマーカーの位置を変えないパターンから染色体に沿った交叉・組み換えの様子を読み取る

LDプロットができるまで M1 M2 M3 M4 … N1 1 N2 O N3 N4 N5 N6 NxM MxM

NxMのデータの処理ペアワイズな関係

多数の要素のペアワイズ関係の図示要素の順番を並びかえれば、それは階層的クラスタリング R5-1.R

階層的クラスタリングは樹形図の１方法

クラスタリング階層的クラスタリング非階層的クラスタリングクラスタ化する方法の違いクラスタ化して残す情報の違い

『階層的』クラスタリング樹形図化ペアワイズ比較情報５つの要素(葉)が３つの結合点(節)を介して７本の線(辺)で結びつけられている葉への要素の割り当てパターンと辺の長短がクラスタを定めている

『非階層的』クラスタリング要素の数だけ点がある点が空間に配置されている位置の情報が、帰属クラスタを決めている R6-2.R

類別してプロットする主成分分析 PCA

分散の分解 Decomposition of variance into pieces R7-5.R

適切な軸 Appropriate axes

固有値分解・主成分分析 (PCA) R7-5.R 正規直交基底どうして「直交」　分散が基底成分の分散に分解できるから

エッセンス　連鎖解析木の解析尤度の解析

家系図 Pedigree

家系の観察マーカーＸに想定される木マーカーＹに想定される木表現型に想定される木

木の解析尤度の解析マーカーのジェノタイプの伝達木個体のフェノタイプの伝達木異なる伝達木を一致させるためのねじれ交叉交叉の起きやすさ(尤度)は距離の関数面倒くさいのは、木の場合分けが多いから

教科書　第10章伝達の木たくさんあるけれど、数えられるマーカーＸの木(Tx)、表現型の木(Tp)、マーカーＹの木(Ty)が異なるときには、間で『組換え』が起きたと考える距離が遠ければ、組換えが起きやすい木のパターンによって、Tx,Tp,Tyの遠近関係として「ありそうな位置」が推定できる

マルチプルテスティングたくさんの検定教科書　第17章

均一分布 N<-1000 X<-runif(N) plot(X) plot(sort(X)) plot(ppoints(N,a=0),sort(X))

均一分布からのk個の乱数の最小値はどれくらい小さいか

N<-10000 k<-5 Xs<-matrix(runif(N*k),N,k) Mins<-apply(Xs,1,min) mean(Mins) 1/(k+1) kの値を振ってやってみる

１番小さいｐ値の期待値 k個の独立なテスト 1/(k+1) i番目に小さいｐ値の期待値?

N<-1000 k<-10 Xs<-matrix(runif(N*k),N,k) Sorted<-matrix(apply(Xs,1,sort),N,k,byrow=TRUE) plot(apply(Sorted,2,mean)) kの値を振ってやってみる

期待値は1/(k+1) 分布は？ N<-1000 k<-100 Xs<-matrix(runif(N*k),N,k) Mins<-apply(Xs,1,min) mean(Mins) plot(density(Mins)) abline(v=mean(Mins))

このグラフをどう読む

plot(sort(Mins)) abline(h=mean(Mins))

i番目に大きいｐ値の期待値はi/(k+1) 分布は？ doubleSorted<-apply(Sorted,2,sort) matplot(doubleSorted,type="l")

独立なp値

Sidak’s family-wise error rate Bonferroni’s method すべての検定を「排他的」に考えるもっとも保守的 p_corrected= kp Sidak’s family-wise error rate すべての検定を「独立」と考える p_corrected=1-(1-p)^k k<-100000 plot(1:k,1/k*(1:k),ylim=c(0,1),type="l") par(new=TRUE) plot(1:k,1-(1-1/k)^(1:k),ylim=c(0,1),col="red",type="l")

実際には、すべての検定は排他的でもなく、独立でもないパーミュテーションで、「全通り」を調べるモンテカルロ・パーミュテーションで「全通り」に近い分布を調べる

対立仮説が正しいとき非心カイ自乗分布カイ自乗分布に１変数追加

強弱いろいろな対立仮説が成り立つときたとえば、集団構造化があるときのＧＷＡＳ「集団構造化」を１追加変数でモデル化すれば、観察データから、その変数の値を推定することができて、その推定値に基づいて補正ができる

たくさんの対立仮説が正しいとき 1変数でモデル化するほど単純ではない大雑把に「正しい対立仮説の数」が分かっている(と仮定する) False Discovery Rate（FDR)