第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
第4章補足 分散分析法入門 統計学 2010年度.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
ゲーム理論・ゲーム理論Ⅰ (第6回) 第4章 戦略形ゲームの応用
統計学 12/3(月).
分布の非正規性を利用した行動遺伝モデル開発
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
統計学 11/30(木).
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
Bias2 - Variance - Noise 分解
確率・統計Ⅱ 第7回.
ベイズ的ロジスティックモデル に関する研究
心理測定法 4月14日~21日 感覚の測定.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
統計学 10/19 鈴木智也.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計学  第6回 西山.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮
細胞の形と変形のための データ駆動型解析手法
第3章 統計的推定 (その1) 統計学 2006年度.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
法数学勉強会(京大法医学講座) 2012/02/18 京都大学 統計遺伝学 山田
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
A16 - SNSから漏れるプライバシー情報の調査
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
尤度の比較と仮説検定とを比較する ~P値のことなど~
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
経営学研究科 M1年 学籍番号 speedster
クロス表とχ2検定.
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
親子鑑定に見る尤度比を 角度を変えて眺めてみる
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
DNA鑑定を理解するために必要な数学の学び方
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
重回帰分析入門 (第5章補足) 統計学 2007年度.
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
混合試料の構成人数 Nuisance パラメタ
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮 1人に絞り込む統計学 第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮

私は誰? 医師 遺伝学 統計学 応用数学 DNA多型 DNA鑑定 法数学勉強会

はじめまして、法科学技術学会 どんな学会? どんな方々? 学会誌の中を覗く

『証拠、がキーワードらしい』

証拠とは 英文の「証拠学」のサマリー Relevance ちゃんと関連があること 選別能力があること 尤度比を変えること 証言(口頭) 検察の書類(文書) 「いわゆる証拠」 The Legal Concept of Evidence. Stanford Encyclopedia of Philosophy https://plato.stanford.edu/entries/evidence-legal/ Relevance ちゃんと関連があること   選別能力があること   尤度比を変えること

容疑者は・・・ 男 50代 丸刈り 京都市在住

容疑者は・・・ 男 50代 丸刈り 京都市在住 https://www.kyoto-marathon.com/

容疑者は・・・ 男 50代 丸刈り 京都市在住 男

容疑者は・・・ 男 50代 丸刈り 京都市在住 50代 男

容疑者は・・・ 男 50代 丸刈り 京都市在住 男 50代 丸刈り

「男」「丸刈り」は関係が強すぎて ほとんど役にたっていない 容疑者は・・・ 男 50代 丸刈り 京都市在住 50代 男 丸刈り

容疑者は・・・ 男 50代 丸刈り 京都市在住 50代 男 丸刈り

容疑者は・・・ 男 50代 丸刈り 京都市在住 札幌市 京都市 三重県

さらに 絞込む ための証拠

容疑者は・・・ 男 50代 丸刈り 京都市在住

容疑者は・・・ 男 50代 丸刈り 京都市在住 自転車通勤

容疑者は・・・ 男 50代 丸刈り 京都市在住 自転車通勤 大学教員

容疑者は・・・ 男 50代 丸刈り 京都市在住 自転車通勤 大学教員 遺伝学

容疑者は・・・ 男 50代 丸刈り 京都市在住 自転車通勤 大学教員 遺伝学 DNA鑑定

容疑者は・・・誰? 男 50代 丸刈り 京都市在住 自転車通勤 大学教員 遺伝学 DNA鑑定

1人を特定する ための証拠

証拠が目指すこと 絞り込む 1人を特定する

証拠が目指すこと 絞り込む 1人を特定する 証拠に求められる性質は同じか?

証拠が目指すこと Relevance ちゃんと関連があること 証拠とは: 選別能力があること 尤度比を変えること 絞り込む 1人を特定する   選別能力があること   尤度比を変えること 絞り込む 1人を特定する 証拠に求められる性質は同じか?

絞込みのための分割表 50代 男 丸刈り 対象は全体 なるべく均等分割 判断分岐同士は独立がよい すべてのセルは(ほぼ)平等な確率 すくない情報で容疑者リストが短くなる 男 50代 丸刈り

やってみる 身長が170cm以上 誕生日が奇数月

2分岐木での絞り込みの説明

1人を特定するための分割表 50代 男 丸刈り なるべく不均等分割 同じ数の項目で1人を特定するには、項目同士に関連があった方が よい 特定できるセルとそうでないセルとの差が大きくなる 男 50代 丸刈り

1人を特定するための分割表 50代 強い絞込み 男 丸刈り 丸刈り 女 なるべく不均等分割 同じ数の項目で1人を特定するには、項目同士に関連があった方が よい 特定できるセルとそうでないセルとの差が大きくなる 男 50代 丸刈り 強い絞込み 丸刈り 女

1人を特定するための分割表 その代わり 50代 男では意味が弱い 男 丸刈り 丸刈り 男 なるべく不均等分割 同じ数の項目で1人を特定するには、項目同士に関連があった方が よい 特定できるセルとそうでないセルとの差が大きくなる その代わり 男では意味が弱い 男 50代 丸刈り 丸刈り 男

やってみる 身長が170cm以上 誕生日が奇数月 体重が60kg以下

特定のための分割表 あ い A 25 50 B 100 あ い A 1 49 50 B 100 相互に独立な2項目 相互に良く似た2項目

証拠のための検討・研究

尤度を上げる証拠 「女性である」 vs. 『「女性でした」という証言』 「●●である」は「0/1」 『「●●である」と推定』は確率的・尤度的 証拠のための研究の多くは、『「●●である」と推定』の確率・尤度に ついて検討・改善するものなのでは?

「女」で「丸刈り」 男 丸刈り 女

「女」 → 「女と思った」 男 丸刈り 「女で丸刈り」より 「実は男で丸刈り」 女

「女」 → 「女と思った」 「女で丸刈り」より 「実は男で丸刈り」 の可能性が高い

ここから本題 1人に絞り込む、1つしかない、に関する統計

本題 1人に絞り込む、1つしかない、に関する統計 証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか?

本題 1人に絞り込む、1つしかない、に関する統計 証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか? Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか?

本題 1人に絞り込む、1つしかない、に関する統計 証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか? Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず

本題 1人に絞り込む、1つしかない、に関する統計 証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか? Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず 個票開示問題との類似

個票開示問題とは 標本の情報を匿名化して開示したとき あるパターンを持つ標本が1件しかないかもしれない 標本一意 もし、母集団全体でも1件しかないパターンであったら 母集団一意 個人の識別情報の開示になってしまう データ公開のときに個票開示にならないようにしながら、 いかに公開を促進するかが課題になる

個票開示問題と、犯人特定問題 個票開示問題 たくさんの人が居る(母集団) いくつかの尺度を定め、標本 を取って調べたら、パターン が特異的な人が含まれてい た この人のパターンは母集団 の中でこの人に特有だろう か? 犯人特定問題 たくさんの人が居る(母集団) いくつかの尺度を定め、調べ たら、犯人のパターンは、そ の中の1つだと考えられた ある容疑者はそのパターン を持っていた 母集団の中に、このパターン を持つ人は他にはいないだ ろうか?

個票開示問題の考え方 多元分割表とセル セルの生起確率とその推定値 標本で観測数1のセルは母集団でも存在数1か? 観測数0のセルの生起確率はいくつか? 観測数1のセルの生起確率はいくつか? ディリクレ分布。ディリクレ過程 標本で観測数1のセルは母集団でも存在数1か? 標本一意が母集団一意でもあるか?

個票開示問題の考え方 「ある人がこれにあてはまった」 「どこを探しても、これにあてはまる人は他にはいない」 多元分割表とセル セルの生起確率とその推定値 観測数0のセルの生起確率はいくつか? 観測数1のセルの生起確率はいくつか? ディリクレ分布。ディリクレ過程 標本で観測数1のセルは母集団でも存在数1か? 標本一意が母集団一意でもあるか? 「ある人がこれにあてはまった」 「どこを探しても、これにあてはまる人は他にはいない」

個票開示問題の考え方 観察数1の「生起確率」がわかれば、あるサイズの母集団にて、「唯一である確率」が計算できる → 一人に(確率的に)絞り込む 多元分割表とセル セルの生起確率とその推定値 観測数0のセルの生起確率はいくつか? 観測数1のセルの生起確率はいくつか? ディリクレ分布。ディリクレ過程 標本で観測数1のセルは母集団でも存在数1か? 標本一意が母集団一意でもあるか? 「ある人がこれにあてはまった」 「どこを探しても、これにあてはまる人は他にはいない」

1人に絞り込む 100%確実に「一人に絞り込む」ことはできないが 「一人であろう」と強く信じられるようにすることが、『一人に絞り込む』こと

1人に絞り込む 100%確実に「一人に絞り込む」ことはできないが 「一人であろう」と強く信じられるようにすることが、『一人に絞り込む』こと 標本セットに1件だけあるタイプの 全体集団での割合が推定できれば、『全体一意』の確実性が計算できる

標本から全体の割合を推定しよう 10人観察したら、以下のようになった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人 タイプXの母集団での割合は、いくつか? Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人 タイプXの母集団での割合は、いくつか? ゼロ? Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人 タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない 0でないとしたら、いくつか? Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人 タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない 0でないとしたら、いくつか? 正確にはわかりっこない Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

10人観察して、タイプXの人数が0であった 1 タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない 0でないとしたら、いくつか? かなり低いかもしれないし、結構高いかもしれない 1

10人観察して、タイプYの人数が1であった タイプYの母集団での割合は、いくつか?

10人観察して、タイプXの人数が0であった タイプYの母集団での割合は、いくつか? ゼロでないことはわかる 1 / 10 ?

10人観察して、タイプXの人数が0であった タイプXの母集団での割合は、いくつか? ゼロでないことはわかる 1 / 10 ? 1 / 10 かもしれないし、それより低いかもしれないし、高いかもしれない 正確にはわかりっこない

10人観察して、タイプXの人数が0であった 1 タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない 0でないとしたら、いくつか? かなり低いかもしれないし、結構高いかもしれない 1

正確にはわかりっこないが・・・ 1 (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1

正確にはわかりっこないが・・・ 1 (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1

正確にはわかりっこないが・・・ 1 (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1

正確にはわかりっこないが・・・ 1 存在するタイプ数が解っているくらいなら、 苦労はしない (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1 存在するタイプ数が解っているくらいなら、 苦労はしない

正確にはわかりっこないが・・・ 1 存在するタイプ数が解っているくらいなら、 苦労はしない (観測されている・観測されてない、に関わらず) 50歳代 男 東北地方出身 170cm以上 引越し回数5回以上 裸眼視力0.5以上 JALに乗ったことがない 今朝、朝食にパンを食べた これにあてはまる人が居るか居ないかがわかるのなら、 存在タイプ数が解ると言えるが… (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1 存在するタイプ数が解っているくらいなら、 苦労はしない

存在するタイプ数が解っていないとき 1 A 6人、B 3人、Y 1人、X 0人 観察されていないタイプはXだけではないかもしれない A 6人、B 3人、Y 1人、X 0人 観察されていないタイプはXだけではないかもしれない A、B、Y、X1、X2,… いったい、Xはいくつあるのだろう? Xが1つ Xが2つ Xが3つ … それぞれでYタイプの割合の推定分布は変わる 1

存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布

存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っていないので かなり簡単に、「割合」の「分布」は推定できない ベイズ推定、ディリクレ分布

存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っていないので かなり簡単に、「割合」の「分布」は推定できない ベイズ推定、ディリクレ分布 Ewens モデル、Pitman モデル を導入する

存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っていないので かなり簡単に、「割合」の「分布」は推定できない ベイズ推定、ディリクレ分布 Ewens モデル、Pitman モデル を導入する

Ewens モデル、Pitman モデル 全部で何種類のパターンがあるかわからないままに ある設定をすることで 標本のみから、母集団のタイプ別比率の推定が計算できる

Ewens モデル、Pitman モデル 全部で何種類のパターンがあるかわからないままに ある設定をすることで 標本のみから、母集団のタイプ別比率の推定が計算できる 『モデル』なので、「モデルにフィットしている限りでは」正しい モデルにフィットしていないかもしれない フィットしていない分、推定結果に怪しさを考慮して使う必要がある

Ewens モデル、Pitman モデル 1 今やっているのは、全体の割合の推定 割合はばらつきをもって分布として推定される その推定分布自体に怪しさを考慮する必要がある 全部で何種類のパターンがあるかわからないままに ある設定をすることで 標本のみから、母集団のタイプ別比率の推定が計算できる 『モデル』なので、「モデルにフィットしている限りでは」正しい モデルにフィットしていないかもしれない フィットしていない分、推定結果に怪しさを考慮して使う必要がある 1

さらに改善 Ewens モデル、Pitman モデルは、コンピュータが発達する前の手法 コンピュータ時代になり… 20世紀半ば アマゾンで新種生物を探すときなどの発見可能性 コンピュータ時代になり… グラフィカルモデル・分解可能モデル 多元尺度が作る分割表をグラフとして表し、特に、そこに分解可能性を持ち 込むことで 標本一意セルが母集団一意である確率を推定できる グラフィカルモデル・分解可能モデルは多数設定できる →フレキシブル、答えが一つには決まらない~分布として決まる

さらに改善 モデルは改善したが… 今やっているのは、全体の割合の推定 割合はばらつきをもって分布として推定される その推定分布自体に怪しさを考慮する必要がある Ewens モデル、Pitman モデルは、コンピュータが発達する前の手法 20世紀半ば 新種の発見可能性 コンピュータ時代になり… グラフィカルモデル・分解可能モデル 多元尺度が作る分割表をグラフとして表し、特に、そこに分解可能性を持ち 込むことで 標本一意セルが母集団一意である確率を推定できる グラフィカルモデル・分解可能モデルは多数設定できる →フレキシブル、答えが一つには決まらない~分布として決まる

個票開示問題を通じて 『一人に絞り込むための統計学』では 何が明らかになっているか? 「見つかった一人」が、「全体でも一人」であることは、確率的にわかる 「全体でも一人」である確率は、「見つかった一人」が「全体に占める割合 の推定」を通じて行われる 「全体に占める割合」の推定は、「ただ一つの推定値」として得られるので はなく、「値の分布」として得られる 全体がいくつのタイプから構成されているかが不明なときは、モデルを入 れて推定する モデルはコンピュータ時代化しているが、あいかわらず、「モデル」を設定 したがための曖昧さは残る

http://statgenet-kyotouniv.wikidot.com/

本題 1人に絞り込む、1つしかない、に関する統計 証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか?(個票開示問題との類似) Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず

Y染色体データベース

Y染色体ハプロタイプ頻度推定 標本頻度

Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする

Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする ディリクレ分布を用いる方法は、母集団に何種類のハプロタイプが あるのかを前提として決めないとできないし、前提が異なると推定結 果も異なる

Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする ディリクレ分布を用いる方法は、母集団に何種類のハプロタイプが あるのかを前提として決めないとできないし、前提が異なると推定結 果も異なる 解決策として登場するのが、母集団の種類数が無限でも可能なモデ ルを投入する方法 その一つが、個別開示問題でも出てきた Ewens, Pitman 別の方法が、コンピュータを使ってベイズ法で推定する方法(ディリクレ過程 ベイズ法)

Y染色体頻度問題が同根であることがわかる Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする ディリクレ分布を用いる方法は、母集団に何種類のハプロタイプが あるのかを前提として決めないとできないし、前提が異なると推定結 果も異なる 解決策として登場するのが、母集団の種類数が無限でも可能なモデ ルを投入する方法 その一つが、個別開示問題でも出てきた Ewens, Pitman 別の方法が、コンピュータを使ってベイズ法で推定する方法(ディリクレ過程 ベイズ法) 個票開示問題・犯人特定問題と Y染色体頻度問題が同根であることがわかる

本題 1人に絞り込む、1つしかない、に関する統計 証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか?(個票開示問題との類似) Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず

DNA鑑定を個票開示問題的に考える 複数マーカー(15マーカー) 多数のアレル→さらに多数のジェノタイプ ジェノタイプ頻度は推定されているとみなす マーカー同士は独立とみなす 非常に細かい多元分割表 個々のセルの確率期待値は、母集団の逆数よりはるかに小さい

DNA鑑定を個票開示問題的に考える 非常に細かい多元分割表 個々のセルの確率期待値は、母集団の逆数よりはるかに小さい 母集団での実際の多元分割表は… 大多数のセルは0 残りのセルはほとんど1 一卵性双生児の数だけ2

データがきれいで、エラーがなければ 非常にシャープに識別できる

もし、標本パターンに 一致する人が見つからなかったらどうするか? かなり似ている人は見つかったが、完全に一致する人が見つからな かったらどうするか?

完全に一致する人が見つからなかったら 周辺度数で考える A,B,Cの3尺度で一意 A,Bの2尺度でも一意 B,Cの2尺度でも一意 A,Cの2尺度でも一意 たとえ1尺度にミスがあっても、相変わ らず、その人でしかありえない、という 特定ができる A B C 人数 1 k p

謝辞 分野 京大(医)法医学講座 法数学勉強会の参加者のみなさん 資料 The Legal Concept of Evidence. Stanford Encyclopedia of Philosophy https://plato.stanford.edu/entries/evidence-legal/ 分割表の分解可能モデルの個票開示問題への応用について 竹村彰道 http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/091022-kohyo.pdf

完全に一致する人が見つからなかったら たくさんのセル すべてのセル A B C 人数 1 k p

モンテカルロベイズ

事前確率分布

DNA鑑定という、ほぼ1セルのテーブル 1人を特定するための分割表 とくに、13マーカー 各マーカーのカテゴリ数が多い 1セル当たりの頻度がとても低い 独立を仮定 1つ違うと、周辺頻度の変化が大きい

1人に絞り込む実例 会場で、個人を特定する バースデイ問題をやって、結構、特定しにくいことを

1人しかいない カテゴリが独立か偏りがあるか、どちらが効果的か 万遍無い方が「特定できないセル」は少ない 偏りがある方が「特定できてしまうセル」が多い

ベイジアンネットワークで考えると… ベイジアンネットワークの説明 グラフ 同時分布テーブル 事前確率 事後確率 事後確率を変えるのは、偏った同時分布テーブル 同次分布テーブルは「非独立」なもの…採用される証拠の必要条件

絞込みを助ける 1人を特定するのを助ける 目撃情報としての性別 現場試料から推定される年齢 現場にその時刻に居なかったという主張 スーツを着ていた 運動靴を履いていた

証拠 定義 ベイジアンネットワーク 尤度のテーブル 関連する

尤度に影響を与える テーブルの独立と非独立と影響