2011/05/28 京都大学大学院附属ゲノム医学センター統計遺伝学分野山田亮

Slides:

Advertisements

Similar presentations

A Simple Constant Time Enumeration Algorithm for Free Trees 中野眞一宇野毅明群馬大学情報学研究所 2003 年 9 月 19 日アルゴリズム研究会.

Advertisements

J: Magical Switches JAG 模擬地区予選 2013 原案：保坂解答：保坂・楠本解説：保坂.

Rubyでニコニコをごにょごにょ MH35.

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

多人数一括ＤＮＡプロファイリングのための確率計算法に関する考察

極小集合被覆を列挙する実用的高速アルゴリズム

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

統計学１０/25（木）鈴木智也.

仮説の立て方、ＲＱの絞り方論文を考える根本的思考担当・柴田真吾

確率･統計Ⅰ 第11回 i.i.d.の和と大数の法則ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

On the Enumeration of Colored Trees

プロセッシング入門３初歩のプログラミング.

An Algorithm for Enumerating Maximal Matchings of a Graph

法数学勉強会(京大法医学講座) 2012/02/18 京都大学統計遺伝学山田

クイズ　「インターネットを使う前に」ネチケット(情報モラル)について学ぼう.

社会心理学のStudy -集団を媒介とする適応- （仮）

確率･統計Ⅱ 第7回.

　Combinations(2) 　　　　　　　古川　勇輔.

統計学 10/19 鈴木智也.

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム

ケータイの使い道に関心を子どもがケータイをどのように使っているかご存知ですか？

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 Model validation

も　　じま　ほう文字の魔法文字の魔法、っていったいなんでしょう？文字は、ものすごい魔法を持っているんですよ。

母集団と標本：基本概念母集団パラメーターと標本統計量標本比率の標本分布

多人数一括ＤＮＡプロファイリングのための確率計算法に関する考察

生物統計学・第2回全体を眺める（１）各種グラフ、ヒストグラム、分布

ゲノム解析の立場から、皮膚のフェノタイプについて考える

法数学勉強会 2011/11/26 京都大学大学院医学研究科統計遺伝学分野山田亮

一流老人の条件民生児童委員　山田.

日本人類遺伝学会 2014/11/20 京都大学医学研究科統計遺伝学分野山田亮

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

アルゴリズムとプログラミング (Algorithms and Programming)

教育工学を始めよう～研究テーマの選び方から論文の書き方まで～（第１章）

細胞の形と変形のためのデータ駆動型解析手法

M022 ゲノム科学と医療統計遺伝学分野 2010/11/18,25 山田亮

ゲノム科学概論～ゲノム科学における統計学の役割～ (遺伝統計学)

ゲノム科学概論～ゲノム科学における統計学の役割～ (遺伝統計学)

法数学勉強会 2016年4月会京都大学(医)統計遺伝学分野山田亮

法数学におけるベイジアンネットワーク（２）～成書で学ぶ～

数理統計学西　山.

法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野山田亮

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈報告書の作成標本デザイン、データ収集

法数学勉強会(京大法医学講座) 2012/02/18 京都大学統計遺伝学山田

東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのＤＮＡ鑑定

母分散の信頼区間 F分布母分散の比の信頼区間

第２４回日本法科学技術学会 2018/11/08 京都大学医学研究科統計遺伝学分野山田亮

尤度の比較と仮説検定とを比較する～Ｐ値のことなど～

ダスキンサービスマスターの仕事清潔で快適な環境づくりのお手伝い！業務向けもっとたくさんある

法数学のための機械学習の基礎京大(医)　統計遺伝学分野山田　亮 2017/04/15.

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

決断のための分布合算京大(医)統計遺伝学分野山田　亮.

法医学会２０１３年６月２６日京都大学(医)統計遺伝学山田亮

親子鑑定に見る尤度比を角度を変えて眺めてみる

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

第5回確率変数の共分散確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

構造的類似性を持つ半構造化文書における頻度分析

第３日目第４時限の学習目標第１日目第３時限のスライドによる、名義尺度２変数間の連関のカイ２乗統計量についての復習

DNA鑑定を理解するために必要な数学の学び方

薬理学研究科のための遺伝的多様性 11/02/2013 医学研究科統計遺伝学分野山田

業務５Ｓカイゼンミーティングのしかた開会宣言カイゼンネタの確認あらかじめカードを配って書いてきてもらう

命のつながり Ⅰ 人のつながり.

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

小標本に関する平均の推定と検定標本が小さい場合，標本分散から母分散を推定するときの不確実さを加味したｔ分布を用いて，推定や検定を行う

遺伝を表現するための言葉 Glossary for genetics

平成23年12月22日(木) No.9 東京工科大学担当：亀田弘之

法数学におけるベイジアンネットワーク（２）～成書で学ぶ～

遺伝統計学集中講義（６）終わりに.

混合試料の構成人数 Nuisance パラメタ

Presentation transcript:

2011/05/28 京都大学大学院附属ゲノム医学センター統計遺伝学分野山田亮家系ジェノタイプデータの確率・尤度計算 2011/05/28 京都大学大学院附属ゲノム医学センター統計遺伝学分野山田　亮

確率を計算するジェノタイプがわかっているか、わかっていないか場合に分ける場合は網羅する

何が確率的に起きるのか library(kinship) MakePedigreeFromFamilyInfo<-function(p){ ns<-length(p[,1]) affected<-status<-rep(1,ns) affected[which(p[,5]==2)]<-0 affected[which(p[,5]==3)]<-0 status[which(p[,5]==1)]<-0 status[which(p[,5]==2)]<-0 ptemp<-pedigree(id=p[,1],dadid=p[,3],momid=p[,2],sex=p[,4],affected=affected,status=status) if(sum(ptemp$affected)==0)ptemp$affected<-affected ptemp } def.par <- par(no.readonly = TRUE) peds<-list() peds[[1]]<-matrix( c(1,2,3, 0,0,1, 0,0,2, 1,0,1, 1,1,1), ncol=5) plot(MakePedigreeFromFamilyInfo(peds[[1]]),symbolsize=0.5) peds[[2]]<-matrix( c(1,2,3,4,5, 0,0,1,0,3, 0,0,2,0,4, 1,0,1,0,1, 1,1,1,1,1), nf <- layout(matrix(c(0,1,2,2),2,2), TRUE) layout.show(nf) plot(MakePedigreeFromFamilyInfo(peds[[1]]),symbolsize=0.3) plot(MakePedigreeFromFamilyInfo(peds[[2]])) peds[[3]]<-matrix( c(1,2,3,4,5,6,7, 0,0,1,0,3,0,5, 0,0,2,0,4,0,6, 1,0,1,0,1,0,1, 1,1,1,1,1,1,1), peds[[4]]<-matrix( c(1,2,3,4,5,6,7,8,9, 0,0,1,0,3,0,5,0,7, 0,0,2,0,4,0,6,0,8, 1,0,1,0,1,0,1,0,1, 1,1,1,1,1,1,1,1,1), nf <- layout(matrix(c(0,0,0,1,0,0,2,2,0,3,3,3,4,4,4,4),4,4), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[1]]),symbolsize=0.2) plot(MakePedigreeFromFamilyInfo(peds[[2]]),symbolsize=3) plot(MakePedigreeFromFamilyInfo(peds[[3]])) plot(MakePedigreeFromFamilyInfo(peds[[4]])) par(def.par) peds[[5]]<-matrix( c(1,2,3,4, 0,0,1,1, 0,0,2,2, 1,0,1,0, 1,1,1,1), nf <- layout(matrix(c(1,1,2,2),2,2), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[5]]),symbolsize=0.5) peds[[6]]<-matrix( 0,0,1,1,1, 0,0,2,2,2, peds[[7]]<-matrix( c(1,2,3,4,5,6, 0,0,1,1,1,1, 0,0,2,2,2,2, 1,0,1,0,1,0, 1,1,1,1,1,1), nf <- layout(matrix(c(1,2,3,4),2,2,byrow=TRUE), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[6]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[7]]),symbolsize=0.5) peds[[8]]<-matrix( c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15, 0,0,1,0,3,0,5,0,7,1,3,1,3,1,5, 0,0,2,0,4,0,6,0,8,2,4,2,4,2,6, 1,0,1,0,1,0,1,0,1,0,1,0,1,0,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[8]]),symbolsize=1) peds[[11]]<-matrix( 2,1,1), plot(MakePedigreeFromFamilyInfo(peds[[11]]),symbolsize=0.5) peds[[12]]<-matrix( 1,1,2,1,1), plot(MakePedigreeFromFamilyInfo(peds[[11]]),symbolsize=0.3) plot(MakePedigreeFromFamilyInfo(peds[[12]])) peds[[13]]<-matrix( 1,1,2,1,2,1,1), peds[[14]]<-matrix( 1,1,2,1,2,1,2,1,1), plot(MakePedigreeFromFamilyInfo(peds[[11]]),symbolsize=0.2) plot(MakePedigreeFromFamilyInfo(peds[[12]]),symbolsize=3) plot(MakePedigreeFromFamilyInfo(peds[[13]])) plot(MakePedigreeFromFamilyInfo(peds[[14]])) peds[[15]]<-matrix( 2,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[15]]),symbolsize=0.5) peds[[16]]<-matrix( 2,1,1,1,1), peds[[17]]<-matrix( 2,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[16]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[17]]),symbolsize=0.5) peds[[18]]<-matrix( c(1,2,3,4,5,6,7,8, 7,0,1,1,1,1,0,0, 8,0,2,2,2,2,0,0, 1,0,1,0,1,0,1,0, 2,1,1,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[18]]),symbolsize=1) peds[[19]]<-matrix( 1,1,2,1,2,1,2,1,1,1,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[19]]),symbolsize=1) peds[[21]]<-matrix( peds[[22]]<-matrix( peds[[23]]<-matrix( 2,2,1), nf <- layout(matrix(c(1,2,3,0,0,0),2,3,byrow=TRUE), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[21]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[22]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[23]]),symbolsize=0.5) peds[[20]]<-matrix( 2,1,1,1,1,1,2,2), nf <- layout(matrix(c(1,2,0,0),2,2,byrow=TRUE), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[20]]),symbolsize=1) for(i in 1:4){ stat<-sample(c(1,2),15,replace=TRUE,prob=c(0.6,0.4)) stat[c(10,12,14,11,13,15,9)]<-1 peds[[24]]<-matrix( stat), plot(MakePedigreeFromFamilyInfo(peds[[24]]),symbolsize=1,id=rep("",15)) stat[c(3,5,7)]<-2 peds[[25]]<-matrix( 0,0,1,0,3,3, 0,0,2,0,4,4, 2,1,2,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[25]]),symbolsize=1,id=rep("",6))

親子父：A B 母：B B 子： A A : 0 A B : 1/2 B B : 1/2 AB BB AA ? AB BB

親子を探せ

親子を探せ

親子を探せ

親子を探せ

親子を探せ

家系図での「確率」計算親子ごとに確率を計算する親子を数え上げる全部の親子について掛け合わせる家系図での「確率」計算親子ごとに確率を計算する親子を数え上げる全部の親子について掛け合わせるもう、できる！

ジェノタイプがわかっているときの確率とジェノタイプがわかっていないときの確率

母親のジェノタイプがわからない BB AA AB BB AA AB BB

母親のジェノタイプがわからないってどういうこと？ BB AA AB

わからないってどういうこと？わからない → 計算できないわからない → 計算できるようにする BB AA AB わからない　→　計算できないわからない　→　計算できるようにする母親のジェノタイプがわかっていれば、計算できる母親のジェノタイプは「わからないけれど」場合分けすれば、「わかる」

場合に分ける BB AA AB AA AB BB AB AA BB BB AA AB これなら、計算できる！

場合に分けた後にどうやってまとめる？ BB AA AB AA AB BB AB AA BB BB AA AB これなら、計算できる！

場合に分けた後にどうやってまとめる？ BB AA AB 場合に重みが付けばよい AA AB BB AB AA BB BB AA AB

場合に重みが付けばよいこれならできる！

これならできる！

子供が増えても？

子供が増えても、できる

これも大丈夫

これは。先祖がたどれない・・・

わからないってどういうこと？わからない → 計算できないわからない → 計算できるようにする BB AA AB 困ったら、「困ったときの経験」を活かそうわからない　→　計算できないわからない　→　計算できるようにする母親のジェノタイプがわかっていれば、計算できる母親のジェノタイプは「わからないけれど」場合分けすれば、「わかる」

先祖がたどれない、ってどういうこと？たどれない → 計算できないたどれない → 計算できるようにするたどれない　→　計算できないたどれない　→　計算できるようにする先祖のジェノタイプがわかっていれば、計算できる先祖のジェノタイプは「わからないけれど」場合分けすれば、「わかる」先祖のジェノタイプの場合の重みづけがわかれば計算できる

先祖は集団

集団のジェノタイプ頻度が『重みづけ』

たどれない先祖が誰かわかれば、対処できるたどれない先祖は誰か～集団の雲はどこか？

集団の雲はどこか？

集団の雲はどこか？

集団の雲はどこか？

集団の雲はどこか？

集団の雲はどこか？

すべて解決

復習親子を見つけるジェノタイプ不明なら、場合分けする場合分けしたら、重みづけする重みは、親が決める親は「実在」する「親」かもしれないし、「集団」という「雲」かもしれない

問親子関係はいくつ？ジェノタイプの場合分けが必要なのは何人？「集団雲」で隠されるメンバーは何人？

何ができるようになったのか？ある集団に属する家系と家系メンバーのジェノタイプとがあったときに、その確率を計算することができるようになった

『この身元不明者はこの行方不明者なのか？』という質問と確率との関係

行方不明者身元不明者

行方不明者身元不明者

？『行方不明者＝身元不明者』？を考え始める前に、少し回り道をすることにします

？『行方不明者＝身元不明者』？何の情報を使うのか？行方不明者の、「何」？身元不明者の、「何」？

？『行方不明者＝身元不明者』？何の情報を使うのか？行方不明者の、「何」？ジェノタイプの確率分布特別な場合いろいろと可能性があるジェノタイプの、どれがどれくらいの確率なのか特別な場合場合１：行方不明者のDNAはある場合ただ一つのジェノタイプである確率が１であって、それ以外のジェノタイプである確率が０である場合２：本人のDNAも家族のDNAもない場合「集団」という「雲」のジェノタイプの確率を使うしかない ※　特別な場合は、一般的な場合に含まれますから、この先は気にしないことにします

行方不明者のジェノタイプの確率分布行方不明者本人のDNAがあれば、確定する家族のジェノタイプを調べるのは、行方不明者のジェノタイプの確率分布をよりよく推定するため家族のジェノタイプがわからなければ、行方不明者のジェノタイプの確率分布は、集団のそれと同じ

？『行方不明者＝身元不明者』？何の情報を使うのか？行方不明者の、「何」？身元不明者の、「何」？ DNAはあるのでジェノタイプは確定しています

？『行方不明者＝身元不明者』？行方不明者のジェノタイプの確率分布身元不明者の確定しているジェノタイプ一致する確率は？

行方不明者身元不明者この確率が計算できる？

行方不明者身元不明者この確率が計算できる？はい、できます！

確率の計算はできた。さて、それで何がわかったか？行方不明者身元不明者この確率が計算できる？はい、できます！

確率の計算はできた。さて、それで何がわかるのか？確率が０である確率が１である確率が０から１の間である「ありえない」「絶対そうだ」「ありえるけれど、絶対ではない」確率という数字の大きさをどう考えるか・・・

確率大きいか小さいかを測るもの確率が０から１の間である「大きい」か「小さい」か「ありえるけれど、絶対ではない」絶対評価相対評価「ありえない」＝０「絶対」＝１相対評価何かと比較することで意味を持つ

比較したい　～　別の確率を計算したい

比較１比較したい　～　別の確率を計算したい別の身元不明者比較２

比較１身元不明者　　　　　が家系情報のない誰かである身元不明者　　　　　が行方不明者である

別の身元不明者　　　　　が家系情報のない誰かである別の身元不明者比較２身元不明者　　　　　が行方不明者である

いわゆる血縁鑑定はこちら比較１身元不明者　　　　　が家系情報のない誰かである身元不明者　　　　　が行方不明者である

話しの終盤で、両方の比較が出てくるので、忘れ去らないでおきましょう比較１話しの終盤で、両方の比較が出てくるので、忘れ去らないでおきましょう別の身元不明者比較２

話しの終盤までの長い道のり

行方不明者身元不明者この確率が計算できる？はい、できます！

この確率が計算できる？はい、できます！

この確率が計算できる？はい、できます！

この確率が計算できる？はい、できます！本当にできるのか？できるなら、やって見せよ！

話しの終盤までの長い道のり計算ができるまでの長い道のり

いわゆる血縁鑑定はこちら比較１身元不明者　　　　　が家系情報のない誰かである身元不明者　　　　　が行方不明者である

計算は親子を見つけるジェノタイプ不明なら、場合分けする場合分けしたら、重みづけする重みは、親が決める親は「実在」する「親」かもしれないし、「集団」という「雲」かもしれない

何が問題か場合分けが多すぎる場合の数が多すぎて、時間がかかりすぎるジェノタイプの種類数gはアレル数aのマーカーで G=a(a+1)/2 場合分けは、ジェノタイプが不明のメンバー数kについて Gk 場合の数が多すぎて、時間がかかりすぎる

場合の数を減らす工夫２倍体ではなく１倍体で扱う

場合の数を減らす工夫

場合の数を減らす工夫

アレルは必ず親アレルが決まる

ただし、受け渡しパターンはいろいろあって場合分けが必要

ただし、受け渡しパターンはいろいろあって場合分けが必要

ただし、受け渡しパターンはいろいろあって場合分けが必要

ただし、受け渡しパターンはいろいろあって場合分けが必要

ただし、受け渡しパターンはいろいろあって場合分けが必要

伝達のパターンはいくつある？

伝達のパターンはいくつある？ 2 2 2 2 2 2 2x2x2x2x2x2=(2x2)x(2x2)x(2x2)

伝達のパターンはいくつある？ 4 子供の数 2 2 2 2 2 2 2x2x2x2x2x2=(2x2)x(2x2)x(2x2)

場合分けはこれで終わり・・・ではない

A B A B A B B B A B A B

A B A B A B B B A B B A

A B A B A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

母方・父方由来アレルの場合分け

伝達パターンの場合分け　　　ｘ母方・父方アレルの割り付けの場合分けたくさんあるけれど、 G=a(a+1)/2　　→　Gk よりはまし

場合に分けたら確率を計算すべし

メンデルの法則は満足している？ A B A A A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

「雲の中」に突っ込んでいるときは「A」アレルの雲の中での確率を考慮しよう A B A A A B A B A B B A

いわゆる血縁鑑定両方で計算して比較しよう比較１身元不明者　　　　　が家系情報のない誰かである身元不明者　　　　　が行方不明者である

２つの仮説２つの確率～尤度２つの確率～尤度を比較する比を取る２つの仮説２つの確率～尤度２つの確率～尤度を比較する比を取る

なんとか、合いました・・・計算があっているかどうか、見せてみよ！

産みの苦しみ

休憩、必須

休憩、必須

休憩、必須ここまでで、十分なのでは

さて、終盤戦終盤戦ってなんだった？

身元不明者が複数いるときに、その情報をどう使うか別の身元不明者　　　　　が家系情報のない誰かである別の身元不明者比較２身元不明者　　　　　が行方不明者である

身元不明者が複数いるときに、その情報をどう使うか別の身元不明者　　　　　が家系情報のない誰かである別の身元不明者比較２別の身元不明者身元不明者　　　　　が行方不明者である

行方不明になった人数Nがわかっている身元不明なままの遺体がN体ある行方不明・身元不明となった「きっかけ」も確定している

身元不明者リスト行方不明

身元不明者リスト行方不明

L(1) L(2) L(1) L(1)+L(2)+L(3)+…+L(N) L(3) … … … L(N) すべての仮説に関して尤度を足し合わせたものが分母 … … L(N)

行方不明になった人数Nがわかっている身元不明な遺体が１体だけある行方不明・身元不明となった「きっかけ」は確定している

DNAがない場合には、「集団の子供」のジェノタイプを持っているとみなして計算できる身元不明者リスト行方不明

計算は同じ L(1) L(2) L(1) L(1)+L(2)+L(3)+…+L(N) L(3) … … … L(N) すべての仮説に関して尤度を足し合わせたものが分母 … … L(N)

行方不明者総数が少なければ、は大きくなる L(1) L(1)+L(2)+L(3)+…+L(N)

最後の最後さて、これをするのに必要なことは身元不明者１身元不明者１身元不明者１身元不明者１行方不明者１身元不明者１行方不明者２行方不明者３行方不明者４行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者N

身元不明者１身元不明者2 身元不明者3 身元不明者… 身元不明者M 行方不明者１行方不明者２行方不明者３ NxMの確率計算・・・だと思います申請のない行方不明者の扱いとか、検討する課題は残っているように思えますが、方向性は悪くないように思います。行方不明者４行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者N