2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮

Slides:



Advertisements
Similar presentations
A Simple Constant Time Enumeration Algorithm for Free Trees 中野 眞一 宇野 毅明 群馬大学 情報学研究所 2003 年 9 月 19 日 アルゴリズム研究会.
Advertisements

J: Magical Switches JAG 模擬地区予選 2013 原案:保坂 解答:保坂・楠本 解説:保坂.
Rubyでニコニコをごにょごにょ MH35.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
多人数一括DNAプロファイリングのための 確率計算法に関する考察
極小集合被覆を列挙する 実用的高速アルゴリズム
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学 10/25(木) 鈴木智也.
仮説の立て方、RQの絞り方 論文を考える根本的思考 担当・柴田真吾
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
On the Enumeration of Colored Trees
プロセッシング入門3 初歩のプログラミング.
An Algorithm for Enumerating Maximal Matchings of a Graph
法数学勉強会(京大法医学講座) 2012/02/18 京都大学 統計遺伝学 山田
クイズ 「インターネットを使う前に」 ネチケット(情報モラル)について学ぼう.
社会心理学のStudy -集団を媒介とする適応- (仮)
確率・統計Ⅱ 第7回.
 Combinations(2)        古川 勇輔.
統計学 10/19 鈴木智也.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム
ケータイの使い道に関心を 子どもがケータイをどのように使っているかご存知ですか?
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
も  じ ま ほう 文字の魔法 文字の魔法、っていったいなんでしょう? 文字は、ものすごい魔法を持っているんですよ。
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
多人数一括DNAプロファイリングのための 確率計算法に関する考察
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
ゲノム解析の立場から、皮膚のフェノタイプについて考える
法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮
一流老人の条件 民生児童委員 山田.
日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
アルゴリズムとプログラミング (Algorithms and Programming)
教育工学を始めよう ~研究テーマの選び方から論文の書き方まで~ (第1章)
細胞の形と変形のための データ駆動型解析手法
M022 ゲノム科学と医療 統計遺伝学分野 2010/11/18,25 山田 亮
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
数理統計学 西 山.
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
法数学勉強会(京大法医学講座) 2012/02/18 京都大学 統計遺伝学 山田
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
母分散の信頼区間 F分布 母分散の比の信頼区間
第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮
尤度の比較と仮説検定とを比較する ~P値のことなど~
ダスキン サービスマスターの仕事 清潔で快適な環境づくりのお手伝い! 業務向け もっと たくさんある
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
親子鑑定に見る尤度比を 角度を変えて眺めてみる
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
構造的類似性を持つ半構造化文書における頻度分析
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
DNA鑑定を理解するために必要な数学の学び方
薬理学研究科 のための 遺伝的多様性 11/02/2013 医学研究科 統計遺伝学分野 山田
業務5Sカイゼン ミーティングのしかた 開会宣言 カイゼンネタの確認 あらかじめカードを配って書いてきてもらう
命のつながり Ⅰ 人のつながり.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
遺伝を表現するための言葉 Glossary for genetics
平成23年12月22日(木) No.9 東京工科大学 担当:亀田弘之
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
遺伝統計学 集中講義 (6) 終わりに.
混合試料の構成人数 Nuisance パラメタ
Presentation transcript:

2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮 家系ジェノタイプデータの 確率・尤度計算 2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮

確率を計算する ジェノタイプがわかっているか、わかっていないか 場合に分ける 場合は網羅する

何が確率的に起きるのか library(kinship) MakePedigreeFromFamilyInfo<-function(p){ ns<-length(p[,1]) affected<-status<-rep(1,ns) affected[which(p[,5]==2)]<-0 affected[which(p[,5]==3)]<-0 status[which(p[,5]==1)]<-0 status[which(p[,5]==2)]<-0 ptemp<-pedigree(id=p[,1],dadid=p[,3],momid=p[,2],sex=p[,4],affected=affected,status=status) if(sum(ptemp$affected)==0)ptemp$affected<-affected ptemp } def.par <- par(no.readonly = TRUE) peds<-list() peds[[1]]<-matrix( c(1,2,3, 0,0,1, 0,0,2, 1,0,1, 1,1,1), ncol=5) plot(MakePedigreeFromFamilyInfo(peds[[1]]),symbolsize=0.5) peds[[2]]<-matrix( c(1,2,3,4,5, 0,0,1,0,3, 0,0,2,0,4, 1,0,1,0,1, 1,1,1,1,1), nf <- layout(matrix(c(0,1,2,2),2,2), TRUE) layout.show(nf) plot(MakePedigreeFromFamilyInfo(peds[[1]]),symbolsize=0.3) plot(MakePedigreeFromFamilyInfo(peds[[2]])) peds[[3]]<-matrix( c(1,2,3,4,5,6,7, 0,0,1,0,3,0,5, 0,0,2,0,4,0,6, 1,0,1,0,1,0,1, 1,1,1,1,1,1,1), peds[[4]]<-matrix( c(1,2,3,4,5,6,7,8,9, 0,0,1,0,3,0,5,0,7, 0,0,2,0,4,0,6,0,8, 1,0,1,0,1,0,1,0,1, 1,1,1,1,1,1,1,1,1), nf <- layout(matrix(c(0,0,0,1,0,0,2,2,0,3,3,3,4,4,4,4),4,4), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[1]]),symbolsize=0.2) plot(MakePedigreeFromFamilyInfo(peds[[2]]),symbolsize=3) plot(MakePedigreeFromFamilyInfo(peds[[3]])) plot(MakePedigreeFromFamilyInfo(peds[[4]])) par(def.par) peds[[5]]<-matrix( c(1,2,3,4, 0,0,1,1, 0,0,2,2, 1,0,1,0, 1,1,1,1), nf <- layout(matrix(c(1,1,2,2),2,2), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[5]]),symbolsize=0.5) peds[[6]]<-matrix( 0,0,1,1,1, 0,0,2,2,2, peds[[7]]<-matrix( c(1,2,3,4,5,6, 0,0,1,1,1,1, 0,0,2,2,2,2, 1,0,1,0,1,0, 1,1,1,1,1,1), nf <- layout(matrix(c(1,2,3,4),2,2,byrow=TRUE), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[6]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[7]]),symbolsize=0.5) peds[[8]]<-matrix( c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15, 0,0,1,0,3,0,5,0,7,1,3,1,3,1,5, 0,0,2,0,4,0,6,0,8,2,4,2,4,2,6, 1,0,1,0,1,0,1,0,1,0,1,0,1,0,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[8]]),symbolsize=1) peds[[11]]<-matrix( 2,1,1), plot(MakePedigreeFromFamilyInfo(peds[[11]]),symbolsize=0.5) peds[[12]]<-matrix( 1,1,2,1,1), plot(MakePedigreeFromFamilyInfo(peds[[11]]),symbolsize=0.3) plot(MakePedigreeFromFamilyInfo(peds[[12]])) peds[[13]]<-matrix( 1,1,2,1,2,1,1), peds[[14]]<-matrix( 1,1,2,1,2,1,2,1,1), plot(MakePedigreeFromFamilyInfo(peds[[11]]),symbolsize=0.2) plot(MakePedigreeFromFamilyInfo(peds[[12]]),symbolsize=3) plot(MakePedigreeFromFamilyInfo(peds[[13]])) plot(MakePedigreeFromFamilyInfo(peds[[14]])) peds[[15]]<-matrix( 2,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[15]]),symbolsize=0.5) peds[[16]]<-matrix( 2,1,1,1,1), peds[[17]]<-matrix( 2,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[16]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[17]]),symbolsize=0.5) peds[[18]]<-matrix( c(1,2,3,4,5,6,7,8, 7,0,1,1,1,1,0,0, 8,0,2,2,2,2,0,0, 1,0,1,0,1,0,1,0, 2,1,1,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[18]]),symbolsize=1) peds[[19]]<-matrix( 1,1,2,1,2,1,2,1,1,1,1,1,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[19]]),symbolsize=1) peds[[21]]<-matrix( peds[[22]]<-matrix( peds[[23]]<-matrix( 2,2,1), nf <- layout(matrix(c(1,2,3,0,0,0),2,3,byrow=TRUE), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[21]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[22]]),symbolsize=0.5) plot(MakePedigreeFromFamilyInfo(peds[[23]]),symbolsize=0.5) peds[[20]]<-matrix( 2,1,1,1,1,1,2,2), nf <- layout(matrix(c(1,2,0,0),2,2,byrow=TRUE), TRUE) plot(MakePedigreeFromFamilyInfo(peds[[20]]),symbolsize=1) for(i in 1:4){ stat<-sample(c(1,2),15,replace=TRUE,prob=c(0.6,0.4)) stat[c(10,12,14,11,13,15,9)]<-1 peds[[24]]<-matrix( stat), plot(MakePedigreeFromFamilyInfo(peds[[24]]),symbolsize=1,id=rep("",15)) stat[c(3,5,7)]<-2 peds[[25]]<-matrix( 0,0,1,0,3,3, 0,0,2,0,4,4, 2,1,2,1,1,1), plot(MakePedigreeFromFamilyInfo(peds[[25]]),symbolsize=1,id=rep("",6))

親子 父:A B 母:B B 子: A A : 0 A B : 1/2 B B : 1/2 AB BB AA ? AB BB

親子を探せ

親子を探せ

親子を探せ

親子を探せ

親子を探せ

家系図での「確率」計算 親子ごとに確率を計算する 親子を数え上げる 全部の親子について掛け合わせる 家系図での「確率」計算 親子ごとに確率を計算する 親子を数え上げる 全部の親子について掛け合わせる もう、できる!

ジェノタイプがわかっているときの確率 と ジェノタイプがわかっていないときの確率

母親のジェノタイプがわからない BB AA AB BB AA AB BB

母親のジェノタイプがわからないって どういうこと? BB AA AB

わからないって どういうこと? わからない → 計算できない わからない → 計算できるようにする BB AA AB わからない → 計算できない わからない → 計算できるようにする 母親のジェノタイプがわかっていれば、計算できる 母親のジェノタイプは「わからないけれど」場合分けすれば、「わかる」

場合に分ける BB AA AB AA AB BB AB AA BB BB AA AB これなら、計算できる!

場合に分けた後に どうやってまとめる? BB AA AB AA AB BB AB AA BB BB AA AB これなら、計算できる!

場合に分けた後に どうやってまとめる? BB AA AB 場合に重みが付けばよい AA AB BB AB AA BB BB AA AB

場合に重みが付けばよい これならできる!

これならできる!

子供が増えても?

子供が増えても、できる

これも大丈夫

これは。 先祖がたどれない・・・

わからないって どういうこと? わからない → 計算できない わからない → 計算できるようにする BB AA AB 困ったら、「困ったときの経験」を活かそう わからない → 計算できない わからない → 計算できるようにする 母親のジェノタイプがわかっていれば、計算できる 母親のジェノタイプは「わからないけれど」場合分けすれば、「わかる」

先祖がたどれない、って どういうこと? たどれない → 計算できない たどれない → 計算できるようにする たどれない → 計算できない たどれない → 計算できるようにする 先祖のジェノタイプがわかっていれば、計算できる 先祖のジェノタイプは「わからないけれど」場合分けすれば、「わかる」 先祖のジェノタイプの場合の重みづけがわかれば計算できる

先祖は集団

集団のジェノタイプ頻度が 『重みづけ』

たどれない先祖が誰かわかれば、 対処できる たどれない先祖は誰か ~ 集団の雲はどこか?

集団の雲はどこか?

集団の雲はどこか?

集団の雲はどこか?

集団の雲はどこか?

集団の雲はどこか?

すべて解決

復習 親子を見つける ジェノタイプ不明なら、場合分けする 場合分けしたら、重みづけする 重みは、親が決める 親は 「実在」する「親」かもしれないし、 「集団」という「雲」かもしれない

問 親子関係はいくつ? ジェノタイプの場合分けが必要なのは何人? 「集団雲」で隠されるメンバーは何人?

何ができるようになったのか? ある集団に属する 家系と 家系メンバーのジェノタイプとがあったときに、 その確率を計算することができるようになった

『この身元不明者は この行方不明者なのか?』 という質問と 確率との 関係

行方不明者 身元不明者

行方不明者 身元不明者

?『行方不明者=身元不明者』? を 考え始める前に、 少し回り道をすることにします

?『行方不明者=身元不明者』? 何の情報を使うのか? 行方不明者の、「何」? 身元不明者の、「何」?

?『行方不明者=身元不明者』? 何の情報を使うのか? 行方不明者の、「何」? ジェノタイプの確率分布 特別な場合 いろいろと可能性があるジェノタイプの、どれがどれくらいの確率なのか 特別な場合 場合1:行方不明者のDNAはある場合 ただ一つのジェノタイプである確率が1であって、それ以外のジェノタイプである確率が0である 場合2:本人のDNAも家族のDNAもない場合 「集団」という「雲」のジェノタイプの確率を使うしかない ※ 特別な場合は、一般的な場合に含まれますから、この先は気にしないことにします

行方不明者のジェノタイプの確率分布 行方不明者本人のDNAがあれば、確定する 家族のジェノタイプを調べるのは、行方不明者のジェノタイプの確率分布をよりよく推定するため 家族のジェノタイプがわからなければ、行方不明者のジェノタイプの確率分布は、集団のそれと同じ

?『行方不明者=身元不明者』? 何の情報を使うのか? 行方不明者の、「何」? 身元不明者の、「何」? DNAはあるので ジェノタイプは確定しています

?『行方不明者=身元不明者』? 行方不明者のジェノタイプの確率分布 身元不明者の確定している ジェノタイプ 一致する確率は?

行方不明者 身元不明者 この確率が計算できる?

行方不明者 身元不明者 この確率が計算できる? はい、できます!

確率の計算はできた。 さて、それで何がわかったか? 行方不明者 身元不明者 この確率が計算できる? はい、できます!

確率の計算はできた。 さて、それで何がわかるのか? 確率が0である 確率が1である 確率が0から1の間である 「ありえない」 「絶対そうだ」 「ありえるけれど、絶対ではない」 確率という数字の大きさをどう考えるか・・・

確率 大きいか小さいかを測るもの 確率が0から1の間である 「大きい」か「小さい」か 「ありえるけれど、絶対ではない」 絶対評価 相対評価 「ありえない」=0 「絶対」=1 相対評価 何かと比較することで意味を持つ

比較したい  ~ 別の確率を計算したい

比較1 比較したい  ~ 別の確率を計算したい 別の身元不明者 比較2

比較1 身元不明者     が 家系情報のない誰かである 身元不明者     が 行方不明者である

別の身元不明者     が 家系情報のない誰かである 別の身元不明者 比較2 身元不明者     が 行方不明者である

いわゆる 血縁鑑定はこちら 比較1 身元不明者     が 家系情報のない誰かである 身元不明者     が 行方不明者である

話しの終盤で、両方の比較が出てくるので、忘れ去らないでおきましょう 比較1 話しの終盤で、両方の比較が出てくるので、忘れ去らないでおきましょう 別の身元不明者 比較2

話しの終盤までの長い道のり

行方不明者 身元不明者 この確率が計算できる? はい、できます!

この確率が計算できる? はい、できます!

この確率が計算できる? はい、できます!

この確率が計算できる? はい、できます! 本当にできるのか? できるなら、 やって見せよ!

話しの終盤までの長い道のり 計算ができるまでの長い道のり

いわゆる 血縁鑑定はこちら 比較1 身元不明者     が 家系情報のない誰かである 身元不明者     が 行方不明者である

計算は 親子を見つける ジェノタイプ不明なら、場合分けする 場合分けしたら、重みづけする 重みは、親が決める 親は 「実在」する「親」かもしれないし、 「集団」という「雲」かもしれない

何が問題か 場合分けが多すぎる 場合の数が多すぎて、時間がかかりすぎる ジェノタイプの種類数gは アレル数aのマーカーで G=a(a+1)/2 場合分けは、ジェノタイプが不明のメンバー数kについて Gk 場合の数が多すぎて、時間がかかりすぎる

場合の数を減らす工夫 2倍体ではなく1倍体で扱う

場合の数を減らす工夫

場合の数を減らす工夫

アレルは必ず親アレルが決まる

ただし、 受け渡しパターンは いろいろあって 場合分けが必要

ただし、 受け渡しパターンは いろいろあって 場合分けが必要

ただし、 受け渡しパターンは いろいろあって 場合分けが必要

ただし、 受け渡しパターンは いろいろあって 場合分けが必要

ただし、 受け渡しパターンは いろいろあって 場合分けが必要

伝達のパターンはいくつある?

伝達のパターンはいくつある? 2 2 2 2 2 2 2x2x2x2x2x2=(2x2)x(2x2)x(2x2)

伝達のパターンはいくつある? 4 子供の数 2 2 2 2 2 2 2x2x2x2x2x2=(2x2)x(2x2)x(2x2)

場合分けはこれで終わり・・・ ではない

A B A B A B B B A B A B

A B A B A B B B A B B A

A B A B A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

母方・父方由来アレルの場合分け

伝達パターンの場合分け    x 母方・父方アレルの割り付けの場合分け たくさんあるけれど、 G=a(a+1)/2  → Gk よりはまし

場合に分けたら 確率を計算すべし

メンデルの法則は満足している? A B A A A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

A B A A A B A B A B B A

「雲の中」に突っ込んでいるときは 「A」アレルの雲の中での確率を考慮しよう A B A A A B A B A B B A

いわゆる 血縁鑑定 両方で計算して比較しよう 比較1 身元不明者     が 家系情報のない誰かである 身元不明者     が 行方不明者である

2つの仮説 2つの確率~尤度 2つの確率~尤度を比較する 比を取る 2つの仮説 2つの確率~尤度 2つの確率~尤度を比較する 比を取る

なんとか、合いました・・・ 計算があっているかどうか、見せてみよ!

産みの苦しみ

休憩、必須

休憩、必須

休憩、必須 ここまでで、十分なのでは

さて、終盤戦 終盤戦ってなんだった?

身元不明者が複数いるときに、 その情報をどう使うか 別の身元不明者     が 家系情報のない誰かである 別の身元不明者 比較2 身元不明者     が 行方不明者である

身元不明者が複数いるときに、 その情報をどう使うか 別の身元不明者     が 家系情報のない誰かである 別の身元不明者 比較2 別の身元不明者 身元不明者     が 行方不明者である

行方不明になった人数Nがわかっている 身元不明なままの遺体がN体ある 行方不明・身元不明となった「きっかけ」も確定している

身元不明者リスト 行方不明

身元不明者リスト 行方不明

L(1) L(2) L(1) L(1)+L(2)+L(3)+…+L(N) L(3) … … … L(N) すべての仮説に関して尤度を足し合わせたものが分母 … … L(N)

行方不明になった人数Nがわかっている 身元不明な遺体が1体だけある 行方不明・身元不明となった「きっかけ」は確定している

DNAがない場合には、「集団の子供」のジェノタイプを持っているとみなして計算できる 身元不明者リスト 行方不明

計算は同じ L(1) L(2) L(1) L(1)+L(2)+L(3)+…+L(N) L(3) … … … L(N) すべての仮説に関して尤度を足し合わせたものが分母 … … L(N)

行方不明者総数が少なければ、 は大きくなる L(1) L(1)+L(2)+L(3)+…+L(N)

最後の最後 さて、これをするのに必要なことは 身元不明者1 身元不明者1 身元不明者1 身元不明者1 行方不明者1 身元不明者1 行方不明者2 行方不明者3 行方不明者4 行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者N

身元不明者1 身元不明者2 身元不明者3 身元不明者… 身元不明者M 行方不明者1 行方不明者2 行方不明者3 NxMの確率計算・・・ だと思います 申請のない行方不明者の扱いとか、検討する課題は残っているように思えますが、方向性は悪くないように思います。 行方不明者4 行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者… 行方不明者N