法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮 連鎖不平衡 と 連鎖不平衡ありのデータ作成 法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
マイクロサテライト と 一塩基多型 SNP http://blog.livedoor.jp/j0kerj0j0shin-syoshin/tag/SNP
ジェノタイプの多様性が大事 同一人物判定 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)]
ジェノタイプの多様性が大事 同一人物判定 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)] 偏微分
ジェノタイプの多様性が大事 同一人物判定 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)] P1=P2=…=Pk = 1/kのときにΠは最小になる
ジェノタイプの多様性が大事 ジェノタイプ数 k すべてのジェノタイプの頻度が等しい (1/k) Π=P1^2 + … + Pk^2 = (1/k)^2+…+(1/k)^2 = ? -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)]
アレル数と ディプロイド・ジェノタイプ数 SNPのアレル数 2 MSのアレル数 r H: Homo ? H: hetero ? k = r + r(r-1)/2 = ? H h 組み合わせ
Hardy-Weinberg 平衡(HWE) アレルの組み合わせが独立に決まる状態 アレル数 r アレル頻度 Q1,Q2,…,Qr ジェノタイプ頻度 Qi^2 2Qi Qj
練習問題 アレル数 r=2 (SNP)で、アレル頻度が等しいときに、 の値は? ただし、HWEを仮定せよ r を一般化すると? 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 の値は? ただし、HWEを仮定せよ r を一般化すると? (1/r)^2 がr通り (2(1/r)^2) がr(r-1)/2通り r (1/r)^4 + r(r-1)/2 (2(1/r)^2)^2 = 1/r^3 + 2(r-1)/r^3 = (2r-1)/r^3 In case of r=2, 3/8
家系データ と マイクロサテライトマーカー 連鎖解析ではMSを使う
ヘテロが大事 組み換えが起きている場所がわかるから
ヘテロの割合が最大 ホモの割合が最小 偶然に同一ジェノタイプが出る確率と同じ考え方 Π=P1^2 + … + Pk^2 すべてのアレル頻度が等しいときに ホモ割合は最小になる
練習問題 アレル数rの座位について、アレル頻度が均等であるときのヘテロ接合体の割合を求めよ ただし、HWEを仮定せよ 1- 1/r
マーカーとしての「力」 偶然に一致する確率が低い ヘテロ・ジェノタイプの割合が高い アレル数が多いとよい アレル頻度が均等な方がよい
SNP 数は多いしゲノム全体に存在する
ぎっしり並んだマーカーの 共有具合で血縁推定
SNPのアレル数は r=2 SNPを使ってアレル数を増やす ハプロタイプ http://www.mext.go.jp/b_menu/hakusho/html/hpaa200601/column/002.htm
ぎっしり並んだマーカーの 共有具合で血縁推定 どんな推定法がよいか? 推定法がよくワークするかどうかはどうやって判断するか?
ぎっしり並んだSNPの ジェノタイプデータを シミュレーションして シミュレーションデータで うまくワークすることを 確かめたい 手法評価をするときの定番
よくできた SNPジェノタイプデータ と そこからの家系データ とは
ハプロタイプデータを作る (A,a) - (B,b) – (C,c) (ABC,abc) と (ABC, ABc, abc) とは違う 何が? (ABC, ABc, abc) と (ABC, AbC, abc) とは違う
A B C A B C A B C a b c a b c a b c (ABC,abc) (ABC, ABc, abc)
A B C A B C A B C a b c a b c a b c (ABC,abc) (ABC, ABc, abc) 「斜め」は交叉・組み換えの歴史(後述)
異同の区別がつくならば 同じものは作れる 似ているものは、それだけでは作れない
「似ている」とは 比較尺度が必要 似ている 似ていない
ハプロタイプの評価尺度 連鎖不平衡係数
連鎖不平衡 2SNPの場合 独立と非独立 「独立」な状態は1つ 「非独立」な状態はいろいろ 「非独立」な状態の中にも「もっとも独立から遠い」状態がある
B b A P(AB) P(Ab) P(A) a P(aB) P(ab) P(a) P(B) P(b) 1 D = P(AB) – P(A) P(B)
2SNPの独立 と 分割表
連鎖不平衡係数 r2, D’ D = P(AB) – P(A) P(B)
2SNPの連鎖不平衡 歴史 変異と交差・組み換え・遺伝的浮動
多数のSNPの 連鎖不平衡パターン SNPペアがたくさん。ペアワイズLDインデックスを色表現する
ハプロタイプを シミュレーションするとは 同一ではないが、似たようなパターンを作る 「似ている」かどうかを判断するには パターンが似ているかどうかを測る尺度、が必要
連鎖不平衡 多SNPの場合 パターンを読む
連鎖不平衡 何が把握できて 何が把握できないのか バリアント箇所とその組み合わせ 個々の多バリアントのアレル頻度 バリアント・ペア バリアント・トリオ バリアント・カルテット …
複雑怪奇なLDの評価尺度 答えは、まだ、ない
とはいえ やってみるしかない
色々な方法 大きく分けて 前方シミュレーション・後方シミュレーション 用途別 予測 歴史推定 統計手法のバリデーション用
色々な方法 決め手に欠ける からこそ たくさんの方法がある Population Simulation https://popmodels.cancercontrol.cancer.gov/gsr/search/ LD structure Simulation GenomeSIM -> GenomeSIMLA SIMLA : Familial data HAP-sample : resampling hapmap data Genome MaCS SimuGWAS Biochem Genet. 2011 Jun;49(5-6):395-409. doi: 10.1007/s10528-011-9416-x. Epub 2011 Jan 14. Simulating linkage disequilibrium structures in a human population for SNP association studies. Nat Rev Genet. 2012 Jan 10;13(2):110-22. doi: 10.1038/nrg3130. Computer simulations: tools for population and evolutionary genetics.
現実データから リ・サンプリング そして 家系データ作成 交叉・組み換えシミュレーション 現実データから リ・サンプリング そして 家系データ作成 交叉・組み換えシミュレーション
交叉・組み換え 1 モルガンは 1 回の減数分裂において 1 回の乗換えが期待できる距離として定義されますが、よく用いられる 1 cM とは 100 回の減数分裂で 1 回の交叉が起こることが期待される距離です。 https://www.rikanenpyo.jp/FAQ/seibutsu/faq_sei_002.html
交叉・組み換え どうやって交叉・組み換えシミュレーションする? Polymorphic Variation in Human Meiotic Recombination Am J Hum Genet. 2007 Mar; 80(3): 526–530.
まとめ SNPの位置づけ ハプロタイプ ハプロタイプ・パターンの評価尺度 ハプロタイプのシミュレーション作成とその「良さ」の評価方法 未解決問題がたくさん