Presentation is loading. Please wait.

Presentation is loading. Please wait.

第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮

Similar presentations


Presentation on theme: "第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮"— Presentation transcript:

1 第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮
1人に絞り込む統計学 第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮

2 私は誰? 医師 遺伝学 統計学 応用数学 DNA多型 DNA鑑定 法数学勉強会

3 はじめまして、法科学技術学会 どんな学会? どんな方々? 学会誌の中を覗く

4 『証拠、がキーワードらしい』

5 証拠とは 英文の「証拠学」のサマリー Relevance ちゃんと関連があること 選別能力があること 尤度比を変えること 証言(口頭)
検察の書類(文書) 「いわゆる証拠」 The Legal Concept of Evidence. Stanford Encyclopedia of Philosophy Relevance ちゃんと関連があること   選別能力があること   尤度比を変えること

6 容疑者は・・・ 50代 丸刈り 京都市在住

7 容疑者は・・・ 50代 丸刈り 京都市在住

8 容疑者は・・・ 50代 丸刈り 京都市在住

9 容疑者は・・・ 50代 丸刈り 京都市在住 50代

10 容疑者は・・・ 50代 丸刈り 京都市在住 50代 丸刈り

11 「男」「丸刈り」は関係が強すぎて ほとんど役にたっていない 容疑者は・・・ 50代 丸刈り 京都市在住 50代 丸刈り

12 容疑者は・・・ 50代 丸刈り 京都市在住 50代 丸刈り

13 容疑者は・・・ 50代 丸刈り 京都市在住 札幌市 京都市 三重県

14 さらに 絞込む ための証拠

15 容疑者は・・・ 50代 丸刈り 京都市在住

16 容疑者は・・・ 50代 丸刈り 京都市在住 自転車通勤

17 容疑者は・・・ 50代 丸刈り 京都市在住 自転車通勤 大学教員

18 容疑者は・・・ 50代 丸刈り 京都市在住 自転車通勤 大学教員 遺伝学

19 容疑者は・・・ 50代 丸刈り 京都市在住 自転車通勤 大学教員 遺伝学 DNA鑑定

20 容疑者は・・・誰? 50代 丸刈り 京都市在住 自転車通勤 大学教員 遺伝学 DNA鑑定

21 1人を特定する ための証拠

22 証拠が目指すこと 絞り込む 1人を特定する

23 証拠が目指すこと 絞り込む 1人を特定する 証拠に求められる性質は同じか?

24 証拠が目指すこと Relevance ちゃんと関連があること 証拠とは: 選別能力があること 尤度比を変えること 絞り込む 1人を特定する
  選別能力があること   尤度比を変えること 絞り込む 1人を特定する 証拠に求められる性質は同じか?

25 絞込みのための分割表 50代 男 丸刈り 対象は全体 なるべく均等分割 判断分岐同士は独立がよい すべてのセルは(ほぼ)平等な確率
すくない情報で容疑者リストが短くなる 50代 丸刈り

26 やってみる 身長が170cm以上 誕生日が奇数月

27 2分岐木での絞り込みの説明

28 1人を特定するための分割表 50代 男 丸刈り なるべく不均等分割 同じ数の項目で1人を特定するには、項目同士に関連があった方が よい
特定できるセルとそうでないセルとの差が大きくなる 50代 丸刈り

29 1人を特定するための分割表 50代 強い絞込み 男 丸刈り 丸刈り 女 なるべく不均等分割
同じ数の項目で1人を特定するには、項目同士に関連があった方が よい 特定できるセルとそうでないセルとの差が大きくなる 50代 丸刈り 強い絞込み 丸刈り

30 1人を特定するための分割表 その代わり 50代 男では意味が弱い 男 丸刈り 丸刈り 男 なるべく不均等分割
同じ数の項目で1人を特定するには、項目同士に関連があった方が よい 特定できるセルとそうでないセルとの差が大きくなる その代わり 男では意味が弱い 50代 丸刈り 丸刈り

31 やってみる 身長が170cm以上 誕生日が奇数月 体重が60kg以下

32 特定のための分割表 A 25 50 B 100 A 1 49 50 B 100 相互に独立な2項目 相互に良く似た2項目

33

34 証拠のための検討・研究

35 尤度を上げる証拠 「女性である」 vs. 『「女性でした」という証言』
「●●である」は「0/1」 『「●●である」と推定』は確率的・尤度的 証拠のための研究の多くは、『「●●である」と推定』の確率・尤度に ついて検討・改善するものなのでは?

36 「女」で「丸刈り」 丸刈り

37 「女」 → 「女と思った」 丸刈り 「女で丸刈り」より 「実は男で丸刈り」

38 「女」 → 「女と思った」 「女で丸刈り」より 「実は男で丸刈り」 の可能性が高い

39 ここから本題 1人に絞り込む、1つしかない、に関する統計

40 本題 1人に絞り込む、1つしかない、に関する統計
証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか?

41 本題 1人に絞り込む、1つしかない、に関する統計
証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか? Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか?

42 本題 1人に絞り込む、1つしかない、に関する統計
証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか? Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず

43 本題 1人に絞り込む、1つしかない、に関する統計
証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか? Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず 個票開示問題との類似

44 個票開示問題とは 標本の情報を匿名化して開示したとき あるパターンを持つ標本が1件しかないかもしれない
標本一意 もし、母集団全体でも1件しかないパターンであったら 母集団一意 個人の識別情報の開示になってしまう データ公開のときに個票開示にならないようにしながら、 いかに公開を促進するかが課題になる

45 個票開示問題と、犯人特定問題 個票開示問題 たくさんの人が居る(母集団)
いくつかの尺度を定め、標本 を取って調べたら、パターン が特異的な人が含まれてい た この人のパターンは母集団 の中でこの人に特有だろう か? 犯人特定問題 たくさんの人が居る(母集団) いくつかの尺度を定め、調べ たら、犯人のパターンは、そ の中の1つだと考えられた ある容疑者はそのパターン を持っていた 母集団の中に、このパターン を持つ人は他にはいないだ ろうか?

46 個票開示問題の考え方 多元分割表とセル セルの生起確率とその推定値 標本で観測数1のセルは母集団でも存在数1か?
観測数0のセルの生起確率はいくつか? 観測数1のセルの生起確率はいくつか? ディリクレ分布。ディリクレ過程 標本で観測数1のセルは母集団でも存在数1か? 標本一意が母集団一意でもあるか?

47 個票開示問題の考え方 「ある人がこれにあてはまった」 「どこを探しても、これにあてはまる人は他にはいない」 多元分割表とセル
セルの生起確率とその推定値 観測数0のセルの生起確率はいくつか? 観測数1のセルの生起確率はいくつか? ディリクレ分布。ディリクレ過程 標本で観測数1のセルは母集団でも存在数1か? 標本一意が母集団一意でもあるか? 「ある人がこれにあてはまった」 「どこを探しても、これにあてはまる人は他にはいない」

48 個票開示問題の考え方 観察数1の「生起確率」がわかれば、あるサイズの母集団にて、「唯一である確率」が計算できる
→ 一人に(確率的に)絞り込む 多元分割表とセル セルの生起確率とその推定値 観測数0のセルの生起確率はいくつか? 観測数1のセルの生起確率はいくつか? ディリクレ分布。ディリクレ過程 標本で観測数1のセルは母集団でも存在数1か? 標本一意が母集団一意でもあるか? 「ある人がこれにあてはまった」 「どこを探しても、これにあてはまる人は他にはいない」

49 1人に絞り込む 100%確実に「一人に絞り込む」ことはできないが 「一人であろう」と強く信じられるようにすることが、『一人に絞り込む』こと

50 1人に絞り込む 100%確実に「一人に絞り込む」ことはできないが 「一人であろう」と強く信じられるようにすることが、『一人に絞り込む』こと
標本セットに1件だけあるタイプの 全体集団での割合が推定できれば、『全体一意』の確実性が計算できる

51 標本から全体の割合を推定しよう 10人観察したら、以下のようになった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

52 10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人
タイプXの母集団での割合は、いくつか? Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

53 10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人
タイプXの母集団での割合は、いくつか? ゼロ? Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

54 10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人
タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない 0でないとしたら、いくつか? Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

55 10人観察して、タイプXの人数が0であった Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人
タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない 0でないとしたら、いくつか? 正確にはわかりっこない Aタイプが6人 Bタイプが3人 Yタイプが1人 Xタイプが0人

56 10人観察して、タイプXの人数が0であった 1 タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない
0でないとしたら、いくつか? かなり低いかもしれないし、結構高いかもしれない 1

57 10人観察して、タイプYの人数が1であった タイプYの母集団での割合は、いくつか?

58 10人観察して、タイプXの人数が0であった タイプYの母集団での割合は、いくつか? ゼロでないことはわかる 1 / 10 ?

59 10人観察して、タイプXの人数が0であった タイプXの母集団での割合は、いくつか? ゼロでないことはわかる 1 / 10 ?
1 / 10 かもしれないし、それより低いかもしれないし、高いかもしれない 正確にはわかりっこない

60 10人観察して、タイプXの人数が0であった 1 タイプXの母集団での割合は、いくつか? ゼロ? 0かも知れないし、0ではないかもしれない
0でないとしたら、いくつか? かなり低いかもしれないし、結構高いかもしれない 1

61 正確にはわかりっこないが・・・ 1 (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら
かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1

62 正確にはわかりっこないが・・・ 1 (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら
かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1

63 正確にはわかりっこないが・・・ 1 (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら
かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1

64 正確にはわかりっこないが・・・ 1 存在するタイプ数が解っているくらいなら、 苦労はしない (観測されている・観測されてない、に関わらず)
いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1 存在するタイプ数が解っているくらいなら、 苦労はしない

65 正確にはわかりっこないが・・・ 1 存在するタイプ数が解っているくらいなら、 苦労はしない (観測されている・観測されてない、に関わらず)
50歳代 東北地方出身 170cm以上 引越し回数5回以上 裸眼視力0.5以上 JALに乗ったことがない 今朝、朝食にパンを食べた これにあてはまる人が居るか居ないかがわかるのなら、 存在タイプ数が解ると言えるが… (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布 1 存在するタイプ数が解っているくらいなら、 苦労はしない

66 存在するタイプ数が解っていないとき 1 A 6人、B 3人、Y 1人、X 0人 観察されていないタイプはXだけではないかもしれない
A 6人、B 3人、Y 1人、X 0人 観察されていないタイプはXだけではないかもしれない A、B、Y、X1、X2,… いったい、Xはいくつあるのだろう? Xが1つ Xが2つ Xが3つ それぞれでYタイプの割合の推定分布は変わる 1

67 存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っているなら
かなり簡単に、「割合」の「分布」は推定できる ベイズ推定、ディリクレ分布

68 存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っていないので
かなり簡単に、「割合」の「分布」は推定できない ベイズ推定、ディリクレ分布

69 存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っていないので
かなり簡単に、「割合」の「分布」は推定できない ベイズ推定、ディリクレ分布 Ewens モデル、Pitman モデル を導入する

70 存在するタイプ数が解っていないとき (観測されている・観測されてない、に関わらず) いくつのタイプがあるのかが解っていないので
かなり簡単に、「割合」の「分布」は推定できない ベイズ推定、ディリクレ分布 Ewens モデル、Pitman モデル を導入する

71 Ewens モデル、Pitman モデル 全部で何種類のパターンがあるかわからないままに ある設定をすることで
標本のみから、母集団のタイプ別比率の推定が計算できる

72 Ewens モデル、Pitman モデル 全部で何種類のパターンがあるかわからないままに ある設定をすることで
標本のみから、母集団のタイプ別比率の推定が計算できる 『モデル』なので、「モデルにフィットしている限りでは」正しい モデルにフィットしていないかもしれない フィットしていない分、推定結果に怪しさを考慮して使う必要がある

73 Ewens モデル、Pitman モデル 1 今やっているのは、全体の割合の推定 割合はばらつきをもって分布として推定される
その推定分布自体に怪しさを考慮する必要がある 全部で何種類のパターンがあるかわからないままに ある設定をすることで 標本のみから、母集団のタイプ別比率の推定が計算できる 『モデル』なので、「モデルにフィットしている限りでは」正しい モデルにフィットしていないかもしれない フィットしていない分、推定結果に怪しさを考慮して使う必要がある 1

74 さらに改善 Ewens モデル、Pitman モデルは、コンピュータが発達する前の手法 コンピュータ時代になり…
20世紀半ば アマゾンで新種生物を探すときなどの発見可能性 コンピュータ時代になり… グラフィカルモデル・分解可能モデル 多元尺度が作る分割表をグラフとして表し、特に、そこに分解可能性を持ち 込むことで 標本一意セルが母集団一意である確率を推定できる グラフィカルモデル・分解可能モデルは多数設定できる →フレキシブル、答えが一つには決まらない~分布として決まる

75 さらに改善 モデルは改善したが… 今やっているのは、全体の割合の推定 割合はばらつきをもって分布として推定される
その推定分布自体に怪しさを考慮する必要がある Ewens モデル、Pitman モデルは、コンピュータが発達する前の手法 20世紀半ば 新種の発見可能性 コンピュータ時代になり… グラフィカルモデル・分解可能モデル 多元尺度が作る分割表をグラフとして表し、特に、そこに分解可能性を持ち 込むことで 標本一意セルが母集団一意である確率を推定できる グラフィカルモデル・分解可能モデルは多数設定できる →フレキシブル、答えが一つには決まらない~分布として決まる

76 個票開示問題を通じて 『一人に絞り込むための統計学』では 何が明らかになっているか?
「見つかった一人」が、「全体でも一人」であることは、確率的にわかる 「全体でも一人」である確率は、「見つかった一人」が「全体に占める割合 の推定」を通じて行われる 「全体に占める割合」の推定は、「ただ一つの推定値」として得られるので はなく、「値の分布」として得られる 全体がいくつのタイプから構成されているかが不明なときは、モデルを入 れて推定する モデルはコンピュータ時代化しているが、あいかわらず、「モデル」を設定 したがための曖昧さは残る

77

78 本題 1人に絞り込む、1つしかない、に関する統計
証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか?(個票開示問題との類似) Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず

79 Y染色体データベース

80 Y染色体ハプロタイプ頻度推定 標本頻度

81 Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする

82 Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする
ディリクレ分布を用いる方法は、母集団に何種類のハプロタイプが あるのかを前提として決めないとできないし、前提が異なると推定結 果も異なる

83 Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする
ディリクレ分布を用いる方法は、母集団に何種類のハプロタイプが あるのかを前提として決めないとできないし、前提が異なると推定結 果も異なる 解決策として登場するのが、母集団の種類数が無限でも可能なモデ ルを投入する方法 その一つが、個別開示問題でも出てきた Ewens, Pitman 別の方法が、コンピュータを使ってベイズ法で推定する方法(ディリクレ過程 ベイズ法)

84 Y染色体頻度問題が同根であることがわかる
Y染色体ハプロタイプ頻度推定 標本頻度 ディリクレ分布を推定頻度分布とする ディリクレ分布を用いる方法は、母集団に何種類のハプロタイプが あるのかを前提として決めないとできないし、前提が異なると推定結 果も異なる 解決策として登場するのが、母集団の種類数が無限でも可能なモデ ルを投入する方法 その一つが、個別開示問題でも出てきた Ewens, Pitman 別の方法が、コンピュータを使ってベイズ法で推定する方法(ディリクレ過程 ベイズ法) 個票開示問題・犯人特定問題と Y染色体頻度問題が同根であることがわかる

85 本題 1人に絞り込む、1つしかない、に関する統計
証拠を積み上げて、すべての証拠を満足する人は、この人しかいな いのか?(個票開示問題との類似) Y染色体のハプロタイプは多数ある。1000標本の中に1本しか観察 されていないハプロタイプはどれくらい珍しいのだろうか? DNA鑑定で型が一致するのは、世界で「1人」しかいないはず

86 DNA鑑定を個票開示問題的に考える 複数マーカー(15マーカー) 多数のアレル→さらに多数のジェノタイプ
ジェノタイプ頻度は推定されているとみなす マーカー同士は独立とみなす 非常に細かい多元分割表 個々のセルの確率期待値は、母集団の逆数よりはるかに小さい

87 DNA鑑定を個票開示問題的に考える 非常に細かい多元分割表 個々のセルの確率期待値は、母集団の逆数よりはるかに小さい
母集団での実際の多元分割表は… 大多数のセルは0 残りのセルはほとんど1 一卵性双生児の数だけ2

88 データがきれいで、エラーがなければ 非常にシャープに識別できる

89 もし、標本パターンに 一致する人が見つからなかったらどうするか?
かなり似ている人は見つかったが、完全に一致する人が見つからな かったらどうするか?

90 完全に一致する人が見つからなかったら 周辺度数で考える A,B,Cの3尺度で一意 A,Bの2尺度でも一意 B,Cの2尺度でも一意
A,Cの2尺度でも一意 たとえ1尺度にミスがあっても、相変わ らず、その人でしかありえない、という 特定ができる A B C 人数 1 k p

91 謝辞 分野 京大(医)法医学講座 法数学勉強会の参加者のみなさん 資料
The Legal Concept of Evidence. Stanford Encyclopedia of Philosophy 分割表の分解可能モデルの個票開示問題への応用について 竹村彰道

92

93 完全に一致する人が見つからなかったら たくさんのセル すべてのセル A B C 人数 1 k p

94 モンテカルロベイズ

95 事前確率分布

96 DNA鑑定という、ほぼ1セルのテーブル 1人を特定するための分割表 とくに、13マーカー 各マーカーのカテゴリ数が多い
1セル当たりの頻度がとても低い 独立を仮定 1つ違うと、周辺頻度の変化が大きい

97 1人に絞り込む実例 会場で、個人を特定する バースデイ問題をやって、結構、特定しにくいことを

98 1人しかいない カテゴリが独立か偏りがあるか、どちらが効果的か 万遍無い方が「特定できないセル」は少ない
偏りがある方が「特定できてしまうセル」が多い

99 ベイジアンネットワークで考えると… ベイジアンネットワークの説明 グラフ 同時分布テーブル 事前確率 事後確率
事後確率を変えるのは、偏った同時分布テーブル 同次分布テーブルは「非独立」なもの…採用される証拠の必要条件

100 絞込みを助ける 1人を特定するのを助ける 目撃情報としての性別 現場試料から推定される年齢 現場にその時刻に居なかったという主張
スーツを着ていた 運動靴を履いていた

101 証拠 定義 ベイジアンネットワーク 尤度のテーブル 関連する

102 尤度に影響を与える テーブルの独立と非独立と影響


Download ppt "第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮"

Similar presentations


Ads by Google