法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮

Slides:



Advertisements
Similar presentations
数理統計学 西 山. 前回のポイント<ルート N の法則> 1. データ(サンプル)の合計値 正規分布をあてはめる ルート N をかけて標準偏差を求める 2. データ(サンプル)の平均値 正規分布を当てはめる 定理8がポイント ルート N で割って標準偏差を求める.
Advertisements

1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学  第7回 西 山.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
確率・統計Ⅱ 第7回.
第7回 二項分布(続き)、幾何分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
統計学 12/13(木).
3章 Analysing averages and frequencies (前半 p )
シミュレーション物理7 乱数.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学  第6回 西山.
1時限で理解する 統計の基礎 応用情報処理II 2015/12/4 講師:新居雅行.
数理統計学 第11回 西 山.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
法数学勉強会 2011/11/26 京都大学大学院医学研究科 統計遺伝学分野 山田 亮
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
中澤 港 統計学第4回 中澤 港
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
数理統計学 西 山.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
法数学勉強会(京大法医学講座) 2012/02/18 京都大学 統計遺伝学 山田
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
尤度の比較と仮説検定とを比較する ~P値のことなど~
第4章 統計的検定 (その2) 統計学 2006年度.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.
経営学研究科 M1年 学籍番号 speedster
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
親子鑑定に見る尤度比を 角度を変えて眺めてみる
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
統計学  第9回 西 山.
数理統計学 西 山.
DNA鑑定を理解するために必要な数学の学び方
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
統計現象 高嶋 隆一 6/26/2019.
確率と統計 年1月7日(木) Version 3.
混合試料の構成人数 Nuisance パラメタ
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮 区間推定_尤度比 法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮

尤度比 尤度比が 3.2 x 107 あくまでも 推定値 真の値は、それより高いかもしれないし、低いかもしれない

推定 点推定値 期待値~平均値 最尤推定値 区間推定値

推定 点推定値 期待値~平均値 最尤推定値 区間推定値

推定 点推定値 期待値~平均値 最尤推定値 区間推定値 頻度主義信頼区間 ベイジアン区間 その他いろいろ…

平均体重を推定する サンプルの平均値 「真実の分布」が平均50、標準偏差10のとき、どうしたら「真実の平 均」を知ることができるか? 一部のサンプルを取り出して、そのサンプルの平均を計算して、代 用する。

サンプル数10、そのサンプル平均値 ## 65.36669 ## 73.16953 ## 68.45564 ## 69.41692 ## 71.3132 ## 73.16633 ## 66.35471 ## 72.59056 ## 70.57345 ## 67.77196

10サンプル、1000回

サンプルから信頼区間 本当の値を当てることはできない 「ここから、ここの間に真の平均は入る」と言えば、当たる確率が出 せる 95% 信頼区間とは、 「サンプルがあったときに、その値を使って、『ここからここまでと予想する』と いうルールを決める」 「そのルールに従うと、95%の場合、真の値が、その範囲に入る」 と言うようにデザインされた『ルール』のこと。 もしくは、その『ルール』に従っ て算出した『区間』のこと。

「あるルール」 = 赤い線 たしかに、1000 回のうち951回は、赤い線が緑を含んだ 「あるルール」 = 赤い線 たしかに、1000 回のうち951回は、赤い線が緑を含んだ

正規分布を仮定して、比較的簡単に、+ - x / で計算している。 一応、式を載せますが、今日は、式は気にしないで行きます。

分布がきれいでないとき 正規分布でないとどうなるか。

分布がきれいでないとき 正規分布でないとどうなるか。

「信頼区間」はあたっているのか? サンプル数10 サンプル数を増やせば (サンプル数 100) 当たった確率 0.887 サンプル数を増やせば (サンプル数 100) 当たった確率 0.940 真の分布をだいたいカバーできれば、当たる。真の分布の複雑さに 比べてサンプル数が少なすぎると、当たらなくなる。

信頼区間が広め

DNA鑑定のための区間推定 体重の区間推定がしたいわけではない。

頻度推定 簡単のために、「あたり vs. はずれ」という枠組みで、成功率を推定 することにする。 確率pで当たりが出るくじ引きがある。 10回引いて、3回当たった。 さて、pはいくつか? その信頼区間は?

成功=1、失敗=0 真の成功率は0.05 30回の試行、1回の成功 「成功率」を「成功と失敗の平均」と考えれば、体重のときと同じこと ができる。 平均成功率とその信頼区間とみなせば… 平均 0.033333 -0.04555021 ~ 0.64555021 マイナス!

成功=1、失敗=0 真の成功率は0.05 30回の試行、1回の成功 「成功率」を「成功と失敗の平均」と考えれば、体重のときと同じこと ができる。 平均成功率とその信頼区間とみなせば… 平均 0.033333 -0.03484099 ~ 0.10150765 マイナス!

成功=1、失敗=0 真の成功率は0.05 30回の試行、1回の成功 「成功率」を「成功と失敗の平均」と考えれば、体重のときと同じこと ができる。 平均成功率とその信頼区間とみなせば… 平均 0.033333 -0.03484099 ~ 0.10150765 マイナス!

区間推定をするときには 考慮するべきことがある 信頼区間に「負」があるのはどうして『いけない』か? 成功率は0から1だと「知っている」から。

ベイズ推定 DNA鑑定界ではベイズ推定の方が主流 よく考えたら、二項分布の観察はベータ分布でベイズ推定もできた はず…

3回引いて、1回の当たり 最尤推定値 1/3 期待値 (1+1)/(3+2)

区間推定はベイズ推定だけではない

(とはいえ)DNA鑑定に使ってみよう アレル頻度の推定 3アレルのマーカー(アレル頻度 (A,B,C)=(0.5,0.3,0.2)) 6種類のジェノタイプ Hardy-Weinberg 平衡

観測ジェノタイプデータ

観測ジェノタイプデータ A, B, C の観測本数は?

観測ジェノタイプデータ A, B, C の観測本数は? 107 57 36

Aアレルの頻度と信頼区間は、A vs non-Aなので、二項分布に基づく方法が使えそう

ディプロタイプ頻度の推定 AAの人数を元にすれば、 AA vs. non-AA として、二項分布に基づいて推定できる。

ディプロタイプ頻度の推定 AAの人数を元にすれば、 AA vs. non-AA として、二項分布に基づいて推定できる。 この場合は、HWEを仮定していないことになる。

ディプロタイプ頻度の推定 AAの人数を元にすれば、 AA vs. non-AA として、二項分布に基づいて推定できる。 この場合は、HWEを仮定していないことになる。 HWEを仮定するべきか、しないべきか、それ「も」問題だ。

ディプロタイプ頻度の推定 AAの人数を元にすれば、 AA vs. non-AA として、二項分布に基づいて推定できる。 この場合は、HWEを仮定していないことになる。 HWEを仮定するべきか、しないべきか、それ「も」問題だ。 が。 HWEを仮定したとして、アレルAの推定頻度を基に、どうやって、AAディプ ロタイプの信頼区間推定をするのか? AAの頻度はアレル頻度の2乗なので…

横軸を p -> p x p に変換する?

ABの頻度はどうする? アレルAの頻度とアレルBの頻度をそれぞれ求める? アレルAの頻度が高いとき、アレルBの頻度は低いはず。 お互いに影響し合っているので、別々に推定したり、別々の信頼区 間を考えるのはまずい。 多項分布のベイズ推定はディリクレ分布 A + B + C = 1 を満足する自由度2の分布

乱数を使ってみては? 今回のように、ベータ分布・ディリクレ分布などを使うこともできる もっと、複雑になってくると、「○○分布」は使えない そんなときは乱数をつかったり、リサンプリングを行ったりする

DNA鑑定での尤度比 容疑者のジェノタイプが現場の試料のそれと一致したとき。 たまたま、一致したのか、同一人物だから一致したのかは、それぞ れの仮説の尤度の比で計算する。 同一人物の場合の尤度は1だから、たまたまの場合の尤度を計算 すればよい。

DNA鑑定での尤度比 マーカーごとの観察が独立とみなせるならば、個々のマーカーでの 尤度の積。 複数のマーカー、それぞれのマーカーのアレル数を適当に与えてシ ミュレーションしてみる。 ディプロタイプのデータベースをシミュレーション作成する。

たとえば マーカー数5 アレル数 3~6 各マーカーのジェノタイプが、最頻アレルと第二最頻アレルのホモ接 合型であるような場合 ## 2.5% 97.5% ## 5.340572e-07 1.358108e-06 ## たとえば マーカー数5 アレル数 3~6 各マーカーのジェノタイプが、最頻アレルと第二最頻アレルのホモ接 合型であるような場合 95% 区間推定値 5.340572e-07 1.358108e-06

今日、触れなかったこと 2つの仮説から尤度が出て、その比を問題にするとき 片方の尤度が高いときに もう片方の尤度が高い場合と低い場合とを考慮 その逆も ある仮説が真であるとみなしたときに、別の仮説は真ではなくなる。 その相互作用を考えるとき。しかもそれが多人数に及ぶとき そもそも「事前分布」をどうするのがよいのかは、統計学的に未解決 の問題 「成功率」の事前分布は、一様分布ではない(かもしれない)…

本日のスライド、資料 http://statgenet-kyotouniv.wikidot.com/handouts-slides http://statgenet-kyotouniv.wikidot.com/handouts-slides  尤度比の信頼区間(法数学勉強会2016年6月)