法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮

Similar presentations


Presentation on theme: "法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮"— Presentation transcript:

1 法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮
ジェノタイプ以外の情報の利用 法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野  山田 亮

2 前回を振りかえる

3 多人数一括DNAプロファイリングのための 確率計算法に関する考察
法数学勉強会 2011/09/10 京都大学大学院医学研究科 統計遺伝学分野 奈良原舞子 山田 亮

4 状況 大災害が発生 多数の行方不明者 多数の身元不明遺体 外見や所持品などから身元が特定された遺体はすでに遺族に返還されている。
残っている遺体の手がかりは、主に遺伝情報

5 集団の鑑定 .. .. .. .. .. .. 行方不明者 Missing 身元不明者 found Body m1 b1 m2 b2 m3
mN bN

6 処理フロー Missings Bodies 血縁関係情報 遺体のDNA型 血縁者のDNA型 確率行列 パーマネント計算 尤度割合行列
引き取り・引き渡し判定

7 行列式(Determinant) 割り付けの場合ごとに掛け算をする「加える」要素と「引く」要素がある Wikipedia

8 パーマネント 割り付けの場合ごとに掛け算をする 全部を「加える」

9 「事前確率」を取り込める 性別・所持品等の情報を容易に取り込める
Missings 血縁関係情報 血縁者のDNA型 付加情報 Bodies 遺体のDNA型 付加情報 確率行列 パーマネント計算 尤度割合行列 引き取り・引き渡し判定

10 法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮
今日の本題 ジェノタイプ以外の情報の利用 法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野  山田 亮

11 個人識別 行方不明者Mは身元不明者B1かB2か… 現場に居たのは容疑者X1かX2か…

12 DNA鑑定とその他の情報の利用 行方不明者Mは身元不明者B1かB2か… 現場に居たのは容疑者X1かX2か… MがBiである尤度を計算する
その他の情報が合致するかを確認する その他の情報が合致するMとBiのペアを確認する 確認済みのペアについてのみDNAジェノタイプについて尤度を計算する

13 DNAとその他、その順序 2通りのやり方 どちらも、同じ DNA→その他で確認 その他で絞り込み→DNAで確認 では、どちらを先にする?
それには理由がある?

14 臨床診断では 病気の全国の頻度情報 患者さんの性別・年齢を用いて、ありそうな病気に重みづけ 症状を聞いて、さらにありそうな病気に重みづけ
検査を実施して、絞り込み (遺伝性疾患ならDNA情報を持ち込む) 診断確定

15 法数学←→臨床医学 行方不明者Mは身元不明者B1かB2か… 現場に居たのは容疑者X1かX2か… 患者Mの診断は病気D1かD2か…

16 情報を使って判断しよう DNA鑑定 犯人推定 臨床診断 DNAジェノタイプ情報 年齢・性別、着衣情報 (DNAジェノタイプ情報) 証言 検査
症状・・・証言 年齢・性別

17 場合ごとの使い方 DNAジェノタイプ情報 個人識別 犯人推定 臨床診断 ジェノタイプが「符合」する確率・尤度
「診断DならGジェノタイプのはずだ」

18 場合ごとの使い方 年齢情報 個人識別 犯人推定 臨床診断 行方不明者の年齢は確定 身元不明者は「推定年齢」 年齢に関する証言
現場から逃走したのは、「○才くらいだった」 容疑者の年齢は確定 臨床診断 年齢ごとに疾患のかかり易さが異なる 事前確率が変わる

19 場合ごとの使い方 性別情報 個人識別 犯人推定 臨床診断 行方不明者と身元不明者の性別は一致すべし 性別に関する証言
現場から逃走したのは、「男だった」4名、「女だった」2名 臨床診断 性別ごとに疾患のかかり易さが異なる 事前確率が変わる

20 場合ごとの使い方 その他の情報 個人識別 犯人推定 臨床診断 行方不明者がある色の服を着ていたかについての色々な証言
身元不明者の着衣の色についての推定 犯人推定 服装に関する証言 容疑者の衣服レパートリーに関する情報 臨床診断 検査をする、結果が出る、診断名をつけるかどうかは確率的に決める

21 事前確率→情報→事後確率

22 DNAジェノタイプの場合 単一マーカー 行方不明者 家系から計算 身元不明者 DNAを採取して観察 一致する確率は? 行方不明者 身元不明者

23 家系からのジェノタイプ保有確率推定 単一マーカー 伝達確率1/2 集団のアレル頻度・ディプロタイプ頻度 行方不明者 行方不明者 身元不明者
家系から計算 伝達確率1/2 集団のアレル頻度・ディプロタイプ頻度 行方不明者 身元不明者

24 身元不明者     が 家系情報のない誰かである だれでも適当に連れてきて、「たまたま」一致する確率は?

25 複数のマーカー 個々のマーカーの一致する確率 複数のマーカーでは、「すべてがそろって一致する確率」 確率の積

26 DNA多型情報の良さ 確率の計算がわかりやすい とは言え、「仮定」は入っている 集団のアレル頻度・ディプロタイプ頻度

27 年齢の場合 MがBである… M:行方不明者、B:身元不明者 M:被目撃者、B:容疑者 Mの年齢は既知 Bの年齢は状態から推定

28 年齢の場合 M:行方不明者、B:身元不明者 Mの年齢は既知 Bの年齢は状態から推定 Bの推定年齢は○才~○才 これはどういう意味?

29 やってみる Bの推定年齢は○才~○才 これはどういう意味?

30

31 やってみる 20歳から60歳まで2歳刻みで21人の乗客と運転手の乗ったバスが、宇宙人にさらわれた 乗客の家族は宇宙人との交信基地に集合した
宇宙人から連絡があり、「1人を解放するべく、解法地点Tに置いた。その1人の年齢について、運転手は『30歳から50歳』だと思うと言っている。この1人の氏名を当てたら、開放してやろう。ただし、間違えたら、解法予定者と、間違って指名された乗客は我々の星に連行する」、と。 さて、21人の乗客の家族が指名者を決める会議を始めた。その結果や、いかに?

32 やってみる 20歳から60歳まで2歳刻みで21人 『30歳から50歳』だと思う 家族の意見がまとまらないので、全員に
21人に候補とする順序を1,2,3でつけるアンケートを実施し、その意見の順序を足し合わせて、順序総点が最も小さい人を指名することとした 同点をつけてもよい。ただし、1,2,3,3、とつけたら、その次は4ではなく、5とするように

33 やってみよう 年齢 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 問1 問2

34 「『30歳から50歳』だと思う」 「『30歳から50歳』のどれかに、差をつけられないけれど、30歳未満、51歳以上の可能性はゼロ」
「『30歳から50歳』が95%になるような正規分布だと思う」

35 年齢の場合 M:被目撃者、B:容疑者 Mの目撃者は Mの年齢は目撃情報から推定 Bの年齢は既知 a1,a2,a3,...歳
これはどういう意味?

36 やってみる 20歳から60歳までのさらわれた20人 1人解放 宇宙人から、届いたメッセージは さあ、家族アンケートを行おう
「34歳だと思う」という意見が1つ 「39歳だと思う」という意見が1つ 「43歳だと思う」という意見が1つ さあ、家族アンケートを行おう

37 「34歳だと思う」 「34歳の可能性が最大になる1峰性の予想」…正規分布? 正規分布なら、その幅(分散は?)

38 性別の場合 犯人は男なのか、女なのか? 容疑者は複数 目撃者は複数

39

40 やってみる ある夕闇迫る夕方、「泥棒!」という叫び声とともに走り去る人影1人 向かいの小学校には帰宅しようとしていた小学生がたくさんいた
男か女かと訊いた 捜査の結果、男の容疑者が3人、女の容疑者が1人、見つかった

41 やってみる A 小学生:10人 「男だった」:6人、「女だった」:4人 B 小学生:100人 「男だった」:60人、「女だった」:40人 さて、女の容疑者は、「私は女だから、犯人じゃない」と主張したい、AとBとでは、どちらが、女の容疑者にとって有利だろうか?

42 やってみる 目撃時の状況から、性別を正しく判別できる確率を0.5<=p<=1とする
「男だった」人数Nm、「女だった」人数Nfとなるのは 実際に男(Hm)で、Nm回正解し、Nf回誤答する Lm=choose(Nm+Nf,Nm)p^Nm (1-p)^Nf 実際に女(Hf)で、Nf回正解し、Nm回誤答する Lf=choose(Nm+Nf,Nm)p^Nm (1-p)^Nf

43 やってみる pの尤度は「犯人は男」と信じる事前確率qについて 男女の仮説のそれぞれの尤度は Lp=qLm+(1-q)Lf
int(0.5<=p<=1) Lp x Lm dp int(0.5<=p<=1) Lp x Lf dp

44 6 vs. 4 60 vs. 40 「男」が真 「女」が真 正答確率pの尤度
# 男女別目撃情報数 Nm<-0 Nf<-2 N<-Nm+Nf # 目撃情報が正しい確率 p<-seq(from=0,to=1,length=101) # 男情報が正しいとき、女情報が正しいときの尤度 Lm<-choose(N,Nm)*p^Nm*(1-p)^Nf Lf<-choose(N,Nm)*(1-p)^Nm*p^Nf plot(p,Lm) par(new=TRUE) plot(p,Lf,col=2) # 事前確率 q<-0.5 # 正答率pの尤度 Lp<-q*Lm+(1-q)*Lf # 正答率pは0.5以上であると制約する phalfIndex<-which(p>=0.5) phalf<-p[phalfIndex] Lphalf<-Lp[phalfIndex] plot(p,Lp,col=2) plot(phalf,Lphalf,col=2) # 目撃情報の後の確率 postLm<-Lp*Lm postLf<-Lp*Lf ylim<-c(0,max(postLm[phalfIndex],postLf[phalfIndex])) plot(phalf,postLm[phalfIndex],type="l",ylim=ylim) plot(phalf,postLf[phalfIndex],col=2,type="l",ylim=ylim) # 目撃情報数を10倍する Nm<-4 Nf<-60 plot(p,Lm,type="b") plot(p,Lf,col=2,type="b")

45 「男」が真 「女」が真 2つの仮説を合算したときの 正答確率pに関する尤度

46 「男」が真 「女」が真の尤度を 正答確率pの関数で表す
実際の尤度は、このグラフの下面積 p>=0.5に限定

47 男:女=6:4 総人数 10,20,...,100 尤度比 総人数

48 Aimai<-function(Nm,Nf){# 男女の観察人数
# 男女の事後確率を男女2仮説に共通の係数部分を省略した関数 integrandM <- function(x) { exp(2*Nm*log(x)+2*Nf*log(1-x)) + exp(N*(log(x)+log(1-x))) } integrandF <- function(x) { exp(2*Nf*log(x)+2*Nm*log(1-x)) + exp(N*(log(x)+log(1-x))) # 積分する lower<-0.5 upper<-1 intM<-integrate(integrandM, lower = lower, upper = upper) intF<-integrate(integrandF, lower = lower, upper = upper) # 比とフラクションを計算 RatioMF<-intM$value/intF$value sumIntMF<-sum(intM$value,intF$value) FracM<-intM$value/sumIntMF FracF<-intF$value/sumIntMF list(RatioMF=RatioMF,Fraction=c(FracM,FracF),int.m=intM,int.f=intF) Aimai(Nm,Nf) # 総人数を振って、その男女観察の内訳も振ってデータを取る Ns<-seq(1:100) outRatio<-matrix(1,length(Ns),max(Ns)+1) outCol<-outFrac<-matrix(0,length(Ns),max(Ns)+1) for(i in 1:length(Ns)){ Nms<-0:Ns[i] for(j in 1:length(Nms)){ Nm<-Nms[j] Nf<-Ns[i]-Nm out.aimai<-Aimai(Nm,Nf) outRatio[i,j]<-out.aimai$RatioMF outFrac[i,j]<-out.aimai$Fraction[1] outCol[i,j]<-1 if(Nm/Ns[i]==0.6)outCol[i,j]<-2 image(log(outRatio)) persp(log(outRatio)) library(rgl) plot3d(row(outRatio),col(outRatio),log(c(outRatio)),col=outCol,xlab="Nm+Nf",ylab="Nm",zlab="log(Ratio)") image(log(outFrac)) # 特定の男女観察人数比について、総人数を振ってデータを取る Nms<-6*(1:10) Nfs<-4*(1:10) Ns<-Nms+Nfs out.R<-out.F<-rep(0,length(Nms)) for(i in 1:length(Nms)){ tmpout<-Aimai(Nms[i],Nfs[i]) out.R[i]<-tmpout$RatioMF out.F[i]<-tmpout$Fraction[1] plot(Ns,out.R,xlim=c(0,max(Ns)))

49 注意:この方法はベータ版

50 曖昧な情報 曖昧さの残る情報 DNA ジェノタイプ 年齢情報、個体情報、その他情報 アレル頻度を仮定、ハーディ・ワインバーグ平衡を仮定
曖昧さを含む 年齢情報、個体情報、その他情報 確実なもの 曖昧なのも

51 ジェノタイプも含めて、曖昧な情報 ジェノタイプ・DNA鑑定も「曖昧さ」を含む その他の情報も「曖昧さ」を含む 集団のアレル頻度を仮定
HWEを仮定 実験結果としての曖昧さ その他の情報も「曖昧さ」を含む

52 線形代数 等式 曖昧情報 不等式・・・

53 ジェノタイプも含めて、曖昧な情報 「どのように合わせる」 「どちらを先に」 「等式ではなくて不等式」 「判断の信頼区間」


Download ppt "法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮"

Similar presentations


Ads by Google