法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
第 2 章 : DNA 研究法 2.2DNA クローニング クローニングベクター 大腸菌以外のベクター ゲノム分子生物学 年 5 月 7 日 担当 : 中東.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
重回帰分析入門 経済データ解析 2009年度.
統計学 10/25(木) 鈴木智也.
アルゴリズムイントロダクション第5章( ) 確率論的解析
重回帰分析入門 経済データ解析 2011年度.
確率・統計Ⅱ 第7回.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
統計解析 第10回 12章 標本抽出、13章 標本分布.
黒澤 馨 (茨城大学) 情報セキュリティ特論(7) 黒澤 馨 (茨城大学)
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
数理統計学 第4回 西山.
法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮
分割表 Contingency table.
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
対立仮説下でのみ存在する 遺伝形式という母数を持つ 2x3分割表検定に関する考察 ~SNPによるケース・コントロール関連検定~
日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮
法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
訓練データとテストデータが 異なる分布に従う場合の学習
Golden State Killer Case ~GEDmatch~
統計遺伝学 講義 Sep 26 (Mon, 13:00-15:00) Overview of this lecture series in Japanese with basics on population genetics. (a) What does statistical genetics handle.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
M022 ゲノム科学と医療 統計遺伝学分野 2010/11/18,25 山田 亮
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
予測に用いる数学 2004/05/07 ide.
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
イントロ DNA配列 意味. イントロ DNA配列 意味 3 DNA配列は化学的配列空間 を占める 4.
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
遺伝統計学の骨組み Skeleton of Genetic Statistics
分子生物情報学(2) 配列のマルチプルアライメント法
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
法数学勉強会(京大法医学講座) 2012/02/18 京都大学 統計遺伝学 山田
遺伝統計学 集中講義 (4) SNPによる領域の評価
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮
遺伝を表現するための言葉 Glossary for genetics
Genetic Statistics Lectures (4) Evaluation of a region with SNPs
Genetic Statistics Lectures (2) Linkage disequilibrium(LD) LD mapping
川口 喬久 川上 弘人 山田 亮 関根 章博 中村 祐輔 山本 一彦 角田 達彦 理化学研究所 遺伝子多型研究センター
尤度の比較と仮説検定とを比較する ~P値のことなど~
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
プログラミング 3 2 次元配列.
Data Clustering: A Review
遺伝関係のグラフ Hereditary graphs
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
親子鑑定に見る尤度比を 角度を変えて眺めてみる
第16章 動的計画法 アルゴリズムイントロダクション.
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
DNA鑑定を理解するために必要な数学の学び方
薬理学研究科 のための 遺伝的多様性 11/02/2013 医学研究科 統計遺伝学分野 山田
遺伝統計学 集中講義 (2) 連鎖不平衡・連鎖不平衡マッピング
遺伝を表現するための言葉 Glossary for genetics
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
回帰分析入門 経済データ解析 2011年度.
分割表 Contingency table.
遺伝統計学 集中講義 (6) 終わりに.
統計解析 第11回.
感受性遺伝子解析の データ処理 平成18年11月29日 山田.
混合試料の構成人数 Nuisance パラメタ
Presentation transcript:

法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮 連鎖不平衡 と 連鎖不平衡ありのデータ作成 法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮

マイクロサテライト と 一塩基多型 SNP http://blog.livedoor.jp/j0kerj0j0shin-syoshin/tag/SNP

ジェノタイプの多様性が大事 同一人物判定 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)]

ジェノタイプの多様性が大事 同一人物判定 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)] 偏微分

ジェノタイプの多様性が大事 同一人物判定 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)] P1=P2=…=Pk = 1/kのときにΠは最小になる

ジェノタイプの多様性が大事 ジェノタイプ数 k すべてのジェノタイプの頻度が等しい (1/k) Π=P1^2 + … + Pk^2 = (1/k)^2+…+(1/k)^2 = ? -[tex:P_k = 1-(P_1 + ... P_{k-1})] -[tex:\Pi=P_1^2+... + P_k^2=P_1^2+...+P_{k-1}^2 + (1-(P_1+...+P_{k-1}))^2] -[tex:\frac{\partial \Pi}{\partial P_i} = 2P_i + (-1) * 2*(1-(P_1+...+P_{k-1})] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(P_1+...+P_{k-1} + P_i -1)] -[tex:\frac{\partial \Pi}{\partial P_i} = 2(1-P_k + P_i-1)=2(P_i-P_k)]

アレル数と ディプロイド・ジェノタイプ数 SNPのアレル数 2 MSのアレル数 r H: Homo ? H: hetero ? k = r + r(r-1)/2 = ? H h 組み合わせ

Hardy-Weinberg 平衡(HWE) アレルの組み合わせが独立に決まる状態 アレル数 r アレル頻度 Q1,Q2,…,Qr ジェノタイプ頻度 Qi^2 2Qi Qj

練習問題 アレル数 r=2 (SNP)で、アレル頻度が等しいときに、 の値は? ただし、HWEを仮定せよ r を一般化すると? 偶然に同じジェノタイプが出現する確率 Π=P1^2 + … + Pk^2 の値は? ただし、HWEを仮定せよ r を一般化すると? (1/r)^2 がr通り (2(1/r)^2) がr(r-1)/2通り r (1/r)^4 + r(r-1)/2 (2(1/r)^2)^2 = 1/r^3 + 2(r-1)/r^3 = (2r-1)/r^3 In case of r=2, 3/8

家系データ と マイクロサテライトマーカー 連鎖解析ではMSを使う

ヘテロが大事 組み換えが起きている場所がわかるから

ヘテロの割合が最大 ホモの割合が最小 偶然に同一ジェノタイプが出る確率と同じ考え方 Π=P1^2 + … + Pk^2 すべてのアレル頻度が等しいときに ホモ割合は最小になる

練習問題 アレル数rの座位について、アレル頻度が均等であるときのヘテロ接合体の割合を求めよ ただし、HWEを仮定せよ 1- 1/r

マーカーとしての「力」 偶然に一致する確率が低い ヘテロ・ジェノタイプの割合が高い アレル数が多いとよい アレル頻度が均等な方がよい

SNP 数は多いしゲノム全体に存在する

ぎっしり並んだマーカーの 共有具合で血縁推定

SNPのアレル数は r=2 SNPを使ってアレル数を増やす ハプロタイプ http://www.mext.go.jp/b_menu/hakusho/html/hpaa200601/column/002.htm

ぎっしり並んだマーカーの 共有具合で血縁推定 どんな推定法がよいか? 推定法がよくワークするかどうかはどうやって判断するか?

ぎっしり並んだSNPの ジェノタイプデータを シミュレーションして シミュレーションデータで うまくワークすることを 確かめたい 手法評価をするときの定番

よくできた SNPジェノタイプデータ と そこからの家系データ とは

ハプロタイプデータを作る (A,a) - (B,b) – (C,c) (ABC,abc) と (ABC, ABc, abc) とは違う  何が? (ABC, ABc, abc) と (ABC, AbC, abc) とは違う

A B C A B C A B C a b c a b c a b c (ABC,abc) (ABC, ABc, abc)

A B C A B C A B C a b c a b c a b c (ABC,abc) (ABC, ABc, abc) 「斜め」は交叉・組み換えの歴史(後述)

異同の区別がつくならば 同じものは作れる 似ているものは、それだけでは作れない

「似ている」とは 比較尺度が必要 似ている 似ていない

ハプロタイプの評価尺度 連鎖不平衡係数

連鎖不平衡 2SNPの場合 独立と非独立 「独立」な状態は1つ 「非独立」な状態はいろいろ 「非独立」な状態の中にも「もっとも独立から遠い」状態がある

B b A P(AB) P(Ab) P(A) a P(aB) P(ab) P(a) P(B) P(b) 1 D = P(AB) – P(A) P(B)

2SNPの独立 と 分割表

連鎖不平衡係数 r2, D’ D = P(AB) – P(A) P(B)

2SNPの連鎖不平衡 歴史 変異と交差・組み換え・遺伝的浮動

多数のSNPの 連鎖不平衡パターン SNPペアがたくさん。ペアワイズLDインデックスを色表現する

ハプロタイプを シミュレーションするとは 同一ではないが、似たようなパターンを作る 「似ている」かどうかを判断するには パターンが似ているかどうかを測る尺度、が必要

連鎖不平衡 多SNPの場合 パターンを読む

連鎖不平衡 何が把握できて 何が把握できないのか バリアント箇所とその組み合わせ  個々の多バリアントのアレル頻度  バリアント・ペア  バリアント・トリオ  バリアント・カルテット  …

複雑怪奇なLDの評価尺度 答えは、まだ、ない

とはいえ やってみるしかない

色々な方法 大きく分けて 前方シミュレーション・後方シミュレーション 用途別 予測 歴史推定 統計手法のバリデーション用

色々な方法 決め手に欠ける からこそ たくさんの方法がある Population Simulation https://popmodels.cancercontrol.cancer.gov/gsr/search/ LD structure Simulation GenomeSIM -> GenomeSIMLA SIMLA : Familial data HAP-sample : resampling hapmap data Genome MaCS SimuGWAS Biochem Genet. 2011 Jun;49(5-6):395-409. doi: 10.1007/s10528-011-9416-x. Epub 2011 Jan 14. Simulating linkage disequilibrium structures in a human population for SNP association studies. Nat Rev Genet. 2012 Jan 10;13(2):110-22. doi: 10.1038/nrg3130. Computer simulations: tools for population and evolutionary genetics.

現実データから リ・サンプリング そして 家系データ作成 交叉・組み換えシミュレーション 現実データから リ・サンプリング そして 家系データ作成 交叉・組み換えシミュレーション

交叉・組み換え 1 モルガンは 1 回の減数分裂において 1 回の乗換えが期待できる距離として定義されますが、よく用いられる 1 cM とは 100 回の減数分裂で 1 回の交叉が起こることが期待される距離です。 https://www.rikanenpyo.jp/FAQ/seibutsu/faq_sei_002.html

交叉・組み換え どうやって交叉・組み換えシミュレーションする? Polymorphic Variation in Human Meiotic Recombination Am J Hum Genet. 2007 Mar; 80(3): 526–530.

まとめ SNPの位置づけ ハプロタイプ ハプロタイプ・パターンの評価尺度 ハプロタイプのシミュレーション作成とその「良さ」の評価方法 未解決問題がたくさん