尤度の比較と仮説検定とを比較する ~P値のことなど~

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
4. 統計的検定 ( ダイジェスト版 ) 保健統計 2014 年度. Ⅰ 仮説検定の考え方 次のような問題を考える。 2014 年のセンター試験、英語の平均点は 119 点であった。 T 高校では 3 年生全員がセンター試験を受験したが、受験生の中から 25 人を選んで調査したところ、その平均点は.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
logistic regression をしたい場合の STATISTICA2000のアプリケーションの使い方について
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
一般化線形モデル(GLM) generalized linear Models
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
統計解析 第7回 第6章 離散確率分布.
検定 P.137.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
カイ二乗検定の応用 カイ二乗検定はメンデル遺伝の分離比や計数(比率)データの標本(群)の差の検定にも利用できる 自由度
計算値が表の値より小さいので「異なるとは言えない」。
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
クロス集計とχ2検定 P.144.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
対立仮説下でのみ存在する 遺伝形式という母数を持つ 2x3分割表検定に関する考察 ~SNPによるケース・コントロール関連検定~
日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮
法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮
統計学 西 山.
第10回授業(12/4)の目標 カイ2乗検定の実習 WEB を用いたカイ2乗検定と、授業で行った検定結果の正誤の確認方法(宿題)
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
統計処理2  t検定・分散分析.
1.母平均の検定:小標本場合 2.母集団平均の差の検定
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「パレスチナ社会の民主主義的価値観」 報告のアウトライン はじめに 民主主義的価値観 仮説とデータ 検証1:パレスチナ社会における民主化の
母分散の検定 母分散の比の検定 カイ2乗分布の応用
第4章 統計的検定 (その2) 統計学 2006年度.
クロス表分析補遺 。堀 啓造(香川大学経済学部) 2003年5月.
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
親子鑑定に見る尤度比を 角度を変えて眺めてみる
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
第2章 統計データの記述 データについての理解 度数分布表の作成.
重回帰分析入門 (第5章補足) 統計学 2007年度.
平成23年12月22日(木) No.9 東京工科大学 担当:亀田弘之
混合試料の構成人数 Nuisance パラメタ
Presentation transcript:

尤度の比較と仮説検定とを比較する ~P値のことなど~ 法数学勉強会 2011/02/19 京大(医)ゲノム医学センター 統計遺伝学分野 山田 亮 ryamada@genome.med.kyoto-u.ac.jp

今日の内容 確率と尤度 尤度を比較する 尤度比 ここまでが復習 尤度比を用いた「検定」:尤度比検定 仮説検定 尤度を比較する 尤度比       ここまでが復習 尤度比を用いた「検定」:尤度比検定 仮説検定 『○○が××であるという仮説は棄却されない』

確率と尤度 色々な「仮説(条件)」があって 色々な「こと」が起きる

「トランプ」 (1,2,...,12,13) x (4つのマーク) = 52枚 6人の人に配ります マークは無視して、数字別の枚数を数えます 7 8 9 10 11 12 13 計 H1 H2 H3 H4 H5 H6

確率は足し合わせると1 1 2 3 4 5 6 7 8 9 10 11 12 13 計 H4 1 1 0 1 2 0 0 0 0 0 1 1 1 8 確率 1/8, 1/8, 0, 1/8, 2/8,0,..., 1/8, 1/8, 1/8

確率 仮説(条件)H1 こと H1でD1,D2,...が起きる確率 D1,D2,..... Pr(H1)(D1),Pr(H1)(D2),... P(D1|H1),P(D2|H1),...とも書きますが。

確率2 仮説(条件)を変えてみよう H1→H2 こと H1ではなくて H2 でD1,D2,...が起きる確率 D1,D2,..... Pr(H2)(D1),Pr(H2)(D2),... P(D1|H2),P(D2|H2),...とも書きますが。

確率と尤度 確率を「仮説(条件)」について見る 確率を「こと」について見る:尤度 D1 D2 ... Dn 合計 H1 Pr(H1)(D1) Pr(H1)(Dn) 1 H2 Pr(H2)(D1) Pr(H2)(D2) Pr(H2)(Dn) Hm Pr(Hm)(D1) Pr(Hm)(D2) Pr(Hm)(Dn)

同じ「こと」を起こす確率=尤度を比べる 複数の「仮説(条件)」が 同じ「こと」を起こす確率=尤度 を比較する 比率 「仮説1は仮説2の○倍」

『尤度比検定』 尤度比は「○倍」 ありそうなこと、ありそうもないことを「P値」で表す 「P値」

仮説を検定してP値で答える 「その『仮説(条件)』を信じたら、こんな『こと』はほとんど起きない(起きたとしてもその確率は『P値』未満でしょう」 対象とする『仮説(条件)』が1つ 比べる相手の『仮説(条件)』は一つではない 『こと』は観察されている

1番簡単な仮説検定 2x2分割表 検出(A) 検出限界未満(a) 合計 検査機器P 75 21 96=75+21 検査機器Q 54 15 69=54+15 129=75+54 36=21+15 165=96+69 =129+36

『PもQも検出率が0.78である』という『仮説(条件)』 で、『たまたま「(75,21),(54,15)」という観察をする』確率は? ((75+21)から75を選ぶ選び方) x ((54+15)から54を選ぶ選び方) x 式は面倒くさいけれど、計算できなくはない

確率か尤度か 「仮説(条件)」を固定して、「こと」をいろいろにして調べるか 「こと」を固定して、「仮説(条件)」をいろいろにして調べるか 『確率』 よくある「仮説検定」はこちら 「こと」を固定して、「仮説(条件)」をいろいろにして調べるか 『尤度』

「仮説(条件)」と「こと」 「仮説(条件)」を固定する=「こと」を色々に 「(75,21),(54,15)」

「仮説(条件)」と「こと」 「仮説(条件)」を固定する=「こと」を色々に 「(75,21),(54,15)」 「(75+1,21-1),(54-1,15+1)」 「(75+2,21-2),(54-2,15+2)」 ... 「(75-1,21+1),(54+1,15-1)」 「(75-2,21+2),(54+2,15-2)」 計算できる 足して1になる ((75+21)から75を選ぶ選び方) x ((54+15)から54を選ぶ選び方) x

「(75,21),(54,15)」 likelihoodRatioTest<-function(m=matrix(c(10,20,30,40),nrow=2)){ etable<-makeExptable(m) chi2<-2*sum(log(m/etable)*m) df<-(length(m[,1])-1)*(length(m[1,])-1) p<-pchisq(chi2,df,lower.tail=FALSE) return(list(statistic=chi2,p.value=p,df=df)) } likelihoodRatioTest(m=matrix(c(10,20,30,40),nrow=2)) m<-matrix(c(75,21,54,15),nrow=2) N<-sum(m) x<-0:N m1<-apply(m,1,sum) m2<-apply(m,2,sum) y<--x+m1[1] z<--x+m2[1] w<--(x+y+z)+N data<-matrix(c(x,y,z,w),ncol=4) min4<-apply(data,1,min) dataOK<-data[min4>=0,] L<-length(dataOK[,1]) pFisher<-pChiNoCorrect<-pChiNoCorrect<-ChiNoCorrect<-pLRT<-ChiLRT<-rep(0,L) for(i in 1:L){ tmptable<-matrix(dataOK[i,],nrow=2) chisqout<-chisq.test(tmptable,correct=FALSE) LRTout<-likelihoodRatioTest(tmptable) pChiNoCorrect[i]<-chisqout$p.value ChiNoCorrect[i]<-chisqout$statistic pLRT[i]<-LRTout$p.value ChiLRT[i]<- LRTout$statistic pFisher[i]<-fisher.test(tmptable)$p.value ylim=c(0,1) ylim<-c(0,1) plot(x[min4>=0],pChiNoCorrect,ylim=ylim,type="l") par(new=T) plot(x[min4>=0],pLRT,ylim=ylim,col="red",type="l") plot(x[min4>=0],pFisher,ylim=ylim,col="blue",type="l") ylim<-c(log(min(pFisher),10),1) plot(x[min4>=0],log(pChiNoCorrect,10),ylim=ylim,type="l") plot(x[min4>=0],log(pLRT,10),ylim=ylim,col="red",type="l") plot(x[min4>=0],log(pFisher,10),ylim=ylim,col="blue",type="l")

『PもQも検出率が0.78である』という『仮説(条件)』の下、『「(80,16),(49,20)」という観察をする』『珍しさ』は、この場合たちの確率の和とする。 likelihoodRatioTest<-function(m=matrix(c(10,20,30,40),nrow=2)){ etable<-makeExptable(m) chi2<-2*sum(log(m/etable)*m) df<-(length(m[,1])-1)*(length(m[1,])-1) p<-pchisq(chi2,df,lower.tail=FALSE) return(list(statistic=chi2,p.value=p,df=df)) } likelihoodRatioTest(m=matrix(c(10,20,30,40),nrow=2)) m<-matrix(c(75,21,54,15),nrow=2) N<-sum(m) x<-0:N m1<-apply(m,1,sum) m2<-apply(m,2,sum) y<--x+m1[1] z<--x+m2[1] w<--(x+y+z)+N data<-matrix(c(x,y,z,w),ncol=4) min4<-apply(data,1,min) dataOK<-data[min4>=0,] L<-length(dataOK[,1]) pFisher<-pChiNoCorrect<-pChiNoCorrect<-ChiNoCorrect<-pLRT<-ChiLRT<-rep(0,L) for(i in 1:L){ tmptable<-matrix(dataOK[i,],nrow=2) chisqout<-chisq.test(tmptable,correct=FALSE) LRTout<-likelihoodRatioTest(tmptable) pChiNoCorrect[i]<-chisqout$p.value ChiNoCorrect[i]<-chisqout$statistic pLRT[i]<-LRTout$p.value ChiLRT[i]<- LRTout$statistic pFisher[i]<-fisher.test(tmptable)$p.value ylim=c(0,1) ylim<-c(0,1) plot(x[min4>=0],pChiNoCorrect,ylim=ylim,type="l") par(new=T) plot(x[min4>=0],pLRT,ylim=ylim,col="red",type="l") plot(x[min4>=0],pFisher,ylim=ylim,col="blue",type="l") ylim<-c(log(min(pFisher),10),1) plot(x[min4>=0],log(pChiNoCorrect,10),ylim=ylim,type="l") plot(x[min4>=0],log(pLRT,10),ylim=ylim,col="red",type="l") plot(x[min4>=0],log(pFisher,10),ylim=ylim,col="blue",type="l")

『PもQも検出率が0.78である』という『仮説(条件)』の下、『「(80,16),(49,20)」という観察をする』『珍しさ』は、この場合たちの確率の和とする。 (フィッシャーの)正確確率検定 likelihoodRatioTest<-function(m=matrix(c(10,20,30,40),nrow=2)){ etable<-makeExptable(m) chi2<-2*sum(log(m/etable)*m) df<-(length(m[,1])-1)*(length(m[1,])-1) p<-pchisq(chi2,df,lower.tail=FALSE) return(list(statistic=chi2,p.value=p,df=df)) } likelihoodRatioTest(m=matrix(c(10,20,30,40),nrow=2)) m<-matrix(c(75,21,54,15),nrow=2) N<-sum(m) x<-0:N m1<-apply(m,1,sum) m2<-apply(m,2,sum) y<--x+m1[1] z<--x+m2[1] w<--(x+y+z)+N data<-matrix(c(x,y,z,w),ncol=4) min4<-apply(data,1,min) dataOK<-data[min4>=0,] L<-length(dataOK[,1]) pFisher<-pChiNoCorrect<-pChiNoCorrect<-ChiNoCorrect<-pLRT<-ChiLRT<-rep(0,L) for(i in 1:L){ tmptable<-matrix(dataOK[i,],nrow=2) chisqout<-chisq.test(tmptable,correct=FALSE) LRTout<-likelihoodRatioTest(tmptable) pChiNoCorrect[i]<-chisqout$p.value ChiNoCorrect[i]<-chisqout$statistic pLRT[i]<-LRTout$p.value ChiLRT[i]<- LRTout$statistic pFisher[i]<-fisher.test(tmptable)$p.value ylim=c(0,1) ylim<-c(0,1) plot(x[min4>=0],pChiNoCorrect,ylim=ylim,type="l") par(new=T) plot(x[min4>=0],pLRT,ylim=ylim,col="red",type="l") plot(x[min4>=0],pFisher,ylim=ylim,col="blue",type="l") ylim<-c(log(min(pFisher),10),1) plot(x[min4>=0],log(pChiNoCorrect,10),ylim=ylim,type="l") plot(x[min4>=0],log(pLRT,10),ylim=ylim,col="red",type="l") plot(x[min4>=0],log(pFisher,10),ylim=ylim,col="blue",type="l")

分割表が難しくなると、そもそも計算が終わらない ((75+21)から75を選ぶ選び方) x ((54+15)から54を選ぶ選び方) x 計算が面倒くさい 分割表が難しくなると、そもそも計算が終わらない 何か簡単な方法はない?

分割表の 行と列とが無関係であるという仮説のための (ピアソンの)カイ二乗検定 ちょちょっと、+-×÷の計算をするだけの便法 計算して出した値:「カイ二乗値」の大小で「P値」を求める

カイ二乗値

カイ二乗値

カイ二乗値

「仮説(条件)」と「こと」 「こと」を固定する=「仮説」を色々に P、Qともに「成功率=0.78」 P、Qの成功率が、「p」と「q」

「仮説(条件)」と「こと」 「こと」を固定する=「仮説」を色々に P、Qともに「成功率=0.78」 P、Qの成功率が、「p」と「q」 ... 「p=0.78-0.1,q=0.78+0.1」 「p=0.78-0.2,q=0.78+0.2」 「p=0.78,q=0.78」 「p=0.78+0.01,q=0.78-0.01」 「p=0.78+0.02,q=0.78-0.02」 ... 「p=0.78-0.01,q=0.78+0.01」 「p=0.78-0.02,q=0.78+0.02」

数えきれない「仮説(条件)」 「ここぞ」という仮説は何か? P、Qともに「成功率=0.78」 これは、外せない

数えきれない「仮説(条件)」 「ここぞ」という仮説は何か? P、Qともに「p=q=0.78」 もう1つの仮説をとるとしたら。 これは、外せない もう1つの仮説をとるとしたら。 「p=80/96, q=49/69」 検出(A) 検出限界未満(a) 合計 検査機器P 80 16 96 検査機器Q 49 20 69 129 36 165

2つの「仮説(条件)」、1つの「こと」 2つの確率~尤度が計算できる 2つの尤度は比較できる 尤度比 帰無仮説の尤度: もっとも観察データを「尊重」した仮説の尤度: 尤度比 

尤度比検定はいつ使う? 『帰無仮説』を棄却するための方法 『もっとも観察データを「尊重」した仮説』を考える 『最大限に動かした仮説』

尤度比検定はいつ使う? 『帰無仮説』を棄却するための方法 『もっとも観察データを「尊重」した仮説』を考える 何を、動かした? 『最大限に動かした仮説』 何を、動かした? 変数 たとえば、pとqの差

変数とは? 帰無仮説の変数 対立仮説の変数 世界には、たった1つの変数 P,Qに共通する『成功率』という変数 対立仮説の変数 『もっとも観察データを「尊重」した仮説』を扱うには、帰無仮説よりも変数を多く使う必要がある 変数の多い『モデル』 P,Qの中間的な『成功率』という変数と P,Qの違いを説明するための変数

変数 モデルの変数は、「いろいろな値」をとる モデルを構成する変数の数はいくつでもよい 変数の数が多いと 「こと」が起きる尤度は高くなる 「こと」をもっともよくするような「値」がある 変数の最尤推定値

増やした変数の数を「自由度」と言う 自由度が大きくなると、同じχ2値でも珍しくなくなる

仮説の変数が自由か不自由か 仮説が複数の変数でできていて、その変数の値が「固定」されている場合と、「動かしてもよい場合」とを比較したいときに、「棄却検定」 変数の値が固定された1個と、固定されたもう1個とで比較したいときには、「変数」が自由でないので、χ2分布に持ち込まれず、尤度比→「○倍」で考える

実例…