医学に活かす 確率・統計
A4用紙の配布 縦に使います 学生番号 氏名
避けて通れない確率・統計 不確実だから 研究も 臨床も、論理的・科学的であることが必要だから 論理・科学の(唯一の)共通言語だから 研究はわからないことを対象にする 未知が対象 臨床は不十分な情報に基づいて行動する 既知のリストから選び出す 研究も 臨床も、論理的・科学的であることが必要だから 他人を説得する 自分が納得する 論理・科学の(唯一の)共通言語だから
手法は不要 考え方は必要 過去問になっている問題 過去問の類似問題 新しい問題
計算機は不要(かも) 勘は必要 確率的思考をしているときに、電卓をたたいている暇はない そこそこ、はずれない「勘」を持っていることが大事 計算機は不要(かも) 勘は必要 確率的思考をしているときに、電卓をたたいている暇はない そこそこ、はずれない「勘」を持っていることが大事 その「勘」のよさが、臨床のセンス、研究のセンスのよさ・・・のような気がします この辺りのことに、なにがしかのイメージを持つことが3コマの目標です
計算機が欲しいなら フリーソフトをどうぞ R http://www.r-project.org/ http://www.okada.jp.org/RWiki/index.php
確率・統計的な考え方のこつ 自分なりにわかること 覚えることは何もない 自分で考えを進められれば、よし 疑う 「絶対」はない 情報を鵜呑みにしない 理由を見つける こだわらない・こだわっている自分に気づく 「絶対」はない 場合にわける 条件をつける
推定* : 斜字体の言葉はこの講義で理解するべき概念(「学問的」部分) 推定* : 斜字体の言葉はこの講義で理解するべき概念(「学問的」部分)
合格したい試験がある 自分が合格する確率は?
合格したい試験がある 自分が合格する確率は? 「当てる」ために必要な情報は?
合格したい試験がある 自分が合格する確率は? 「当てる」ために有用な情報は? 合格率は?
合格したい試験がある 自分が合格する確率は? 「当てる」ために有用な情報は? 合格率は? どうしてそれを知ることが有用?
合格したい試験がある 自分が合格する確率は? 「当てる」ために必要な情報は? 合格率は? 何の試験? どうしてそれを知ることが有用?
【医師国家試験・医学部のある大学別合格率と合格者数】 (2008年度医師国家試験のデータ) 大学名 新卒 既卒 (受験者数・合格者数・合格率) <受験者数・合格者数・合格率> 国立大学医学部(42校)(4,016 3,819 95.1%)<434 257 59.2%> 北海道大学 (106 104 98.1%) <17 10 58.8%> 旭川医科大学 ( 96 89 92.7%) < 8 3 37.5%> 弘前大学 (102 101 99.0%) < 9 5 55.6%> 東北大学 ( 88 84 95.5%) <16 4 25.0%> 秋田大学 (103 94 91.3%) < 8 6 75.0%> 山形大学 ( 99 97 98.0%) < 3 3 100.0%> 筑波大学 (108 105 97.2%) < 8 8 100.0%> 群馬大学 (103 94 91.3%) < 7 6 85.7%> 千葉大学 (103 99 96.1%) < 7 4 57.1%> 東京大学 ( 95 88 92.6%) < 2 0 0.0%> 東京医科歯科大学 ( 86 82 95.3%) < 7 6 85.7%> 新潟大学 ( 94 86 91.5%) < 6 2 33.3%> 富山大学 ( 91 88 96.7%) < 7 5 71.4%> 金沢大学 (101 97 96.0%) <11 4 36.4%> 福井大学 (107 97 90.7%) <12 5 41.7%> 山梨大学 ( 97 90 92.8%) <14 11 78.6%> 信州大学 ( 98 93 94.9%) < 8 2 25.0%> 岐阜大学 ( 80 78 97.5%) < 8 5 62.5%> 浜松医科大学 (112 109 97.3%) < 6 4 66.7%> 名古屋大学 (100 96 96.0%) < 5 2 40.0%> 三重大学 ( 97 95 97.9%) < 7 5 71.4%> 滋賀医科大学 (100 95 95.0%) < 3 2 66.7%> 京都大学 ( 97 95 97.9%) <16 9 56.3%> 大阪大学 ( 98 92 93.9%) <11 6 54.5%> 神戸大学 (100 98 98.0%) <11 7 63.6%> 鳥取大学 ( 78 76 97.4%) <11 8 72.7%> 島根大学 ( 89 82 92.1%) < 7 4 57.1%> 岡山大学 ( 92 87 94.6%) < 8 5 62.5%> 広島大学 ( 95 89 93.7%) <10 5 50.0%> 山口大学 ( 96 83 86.5%) <10 9 90.0%> 徳島大学 ( 89 85 95.5%) <15 7 46.7%> 香川大学 ( 89 87 97.8%) < 8 7 87.5%> 愛媛大学 ( 92 91 98.9%) <10 7 70.0%> 高知大学 ( 88 81 92.0%) <13 5 38.5%> 九州大学 (100 98 98.0%) <15 10 66.7%> 佐賀大学 ( 91 88 96.7%) < 7 3 42.9%> 長崎大学 ( 77 72 93.5%) <18 11 61.1%> 熊本大学 ( 94 93 98.9%) <18 8 44.4%> 大分大学 ( 84 80 95.2%) <11 9 81.8%> 宮崎大学 ( 96 90 93.8%) <15 12 80.0%> 鹿児島大学 ( 93 89 95.7%) <24 16 66.7%> 琉球大学 (112 102 91.1%) <17 7 41.2%>
【医師国家試験・医学部のある大学別合格率と合格者数】 (2008年度医師国家試験のデータ) 大学名 新卒 既卒 (受験者数・合格者数・合格率) <受験者数・合格者数・合格率> 国立大学医学部(42校)(4,016 3,819 95.1%)<434 257 59.2%> 北海道大学 (106 104 98.1%) <17 10 58.8%> 旭川医科大学 ( 96 89 92.7%) < 8 3 37.5%> 弘前大学 (102 101 99.0%) < 9 5 55.6%> 東北大学 ( 88 84 95.5%) <16 4 25.0%> 秋田大学 (103 94 91.3%) < 8 6 75.0%> 山形大学 ( 99 97 98.0%) < 3 3 100.0%> 筑波大学 (108 105 97.2%) < 8 8 100.0%> 群馬大学 (103 94 91.3%) < 7 6 85.7%> 千葉大学 (103 99 96.1%) < 7 4 57.1%> 東京大学 ( 95 88 92.6%) < 2 0 0.0%> 東京医科歯科大学 ( 86 82 95.3%) < 7 6 85.7%> 新潟大学 ( 94 86 91.5%) < 6 2 33.3%> 富山大学 ( 91 88 96.7%) < 7 5 71.4%> 金沢大学 (101 97 96.0%) <11 4 36.4%> 福井大学 (107 97 90.7%) <12 5 41.7%> 山梨大学 ( 97 90 92.8%) <14 11 78.6%> 信州大学 ( 98 93 94.9%) < 8 2 25.0%> 岐阜大学 ( 80 78 97.5%) < 8 5 62.5%> 浜松医科大学 (112 109 97.3%) < 6 4 66.7%> 名古屋大学 (100 96 96.0%) < 5 2 40.0%> 三重大学 ( 97 95 97.9%) < 7 5 71.4%> 滋賀医科大学 (100 95 95.0%) < 3 2 66.7%> 京都大学 ( 97 95 97.9%) <16 9 56.3%> 大阪大学 ( 98 92 93.9%) <11 6 54.5%> 神戸大学 (100 98 98.0%) <11 7 63.6%> 鳥取大学 ( 78 76 97.4%) <11 8 72.7%> 島根大学 ( 89 82 92.1%) < 7 4 57.1%> 岡山大学 ( 92 87 94.6%) < 8 5 62.5%> 広島大学 ( 95 89 93.7%) <10 5 50.0%> 山口大学 ( 96 83 86.5%) <10 9 90.0%> 徳島大学 ( 89 85 95.5%) <15 7 46.7%> 香川大学 ( 89 87 97.8%) < 8 7 87.5%> 愛媛大学 ( 92 91 98.9%) <10 7 70.0%> 高知大学 ( 88 81 92.0%) <13 5 38.5%> 九州大学 (100 98 98.0%) <15 10 66.7%> 佐賀大学 ( 91 88 96.7%) < 7 3 42.9%> 長崎大学 ( 77 72 93.5%) <18 11 61.1%> 熊本大学 ( 94 93 98.9%) <18 8 44.4%> 大分大学 ( 84 80 95.2%) <11 9 81.8%> 宮崎大学 ( 96 90 93.8%) <15 12 80.0%> 鹿児島大学 ( 93 89 95.7%) <24 16 66.7%> 琉球大学 (112 102 91.1%) <17 7 41.2%> 場合分け どうしてそれを知ることが有用?
合格したい試験がある 自分が合格する確率は? 模試とは? 共用試験ナビ-年度一覧 > 第6版 共用試験ナビ > 医学系CBT-第3回正式実施全国成績
模試から得る情報 自分の得点 自分の順位 知りたいことは? 全体 vs. 個
模試から得る情報 知りたいことは? 自分の得点→自分の「真の」正答力 自分の順位→自分の「真の」順位
模試から得る情報 知りたいことは? さらに知りたいことは? 自分の得点→自分の「真の」正答力 自分の順位→自分の「真の」順位 「真の」正答力→自分が本番でとる得点 「真の」順位→自分が本番でとる順位
模試から得る情報 知りたいことは? さらに、知りたいことは? さらに、さらに、知りたいことは? 自分の得点→自分の「真の」正答力 自分の順位→自分の「真の」順位 さらに、知りたいことは? 「真の」正答力→自分が本番でとる得点 「真の」順位→自分が本番でとる順位 さらに、さらに、知りたいことは? 「真の」正答力と「ありたい正答力」との差 その差の詰め方
模試から得る情報 知りたいことは? 試験実施者が本当に知りたいことは 「知りたいこと」は観察できない(ことが多い) 自分の得点→自分の「真の」正答力 自分の順位→自分の「真の」順位 試験実施者が本当に知りたいことは 「正答力」ではなくて「実力」なんだけれど・・・ 「知りたいこと」は観察できない(ことが多い) テスト(検査)で代用する 実験で代用する
模試から得る情報 「真の正答力」を推定する 10問中8問の正解 模試の点数→「真の正当力」 どうやって?
模試から得る情報 「真の正答力」を推定する 模試の点数→「真の正当力」 どうやって?
模試から得る情報 「真の正答力」を推定する 模試の点数→「真の正当力」 どうやって? 仮説からスタートする 仮説を立てよう
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 「真の正答力」を推定する 仮説には「確率」がある 模試の点数→「真の正当力」 どうやって? 仮説からスタートする 「真の正答力は、『正答する確率』が80%である」という仮説 仮説には「確率」がある
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 この場合の模試の点数は? ->RGUI (編集→GUIpreference→フォント(20)) p<-0.8;nq<-10 rs<-rbinom(nq,1,p);mean(rs)*nq …
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 「テストのたびに値が変わる・・・」 p<-0.8 nq<-10 nt<-10 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs)
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 「テストのたびに値が変わる・・・」 テストを繰り返せば p<-0.8 nq<-10 nt<-10 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) p<-0.8 nq<-10 nt<-100 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) h<-hist(obs,xlim=c(0,nq),breaks=-1:nq) plot(0:nq,h$counts,type="b")
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 「テストのたびに値が変わる・・・」 p<-0.8 nq<-10 nt<-10 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) p<-0.8 nq<-10 nt<-100 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) h<-hist(obs,xlim=c(0,nq),breaks=-1:nq) plot(0:nq,h$counts,type="b")
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 「テストのたびに値が変わる・・・」 100回 模試を受けても・・・ p<-0.8 nq<-10 nt<-10 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) p<-0.8 nq<-10 nt<-100 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) h<-hist(obs,xlim=c(0,nq),breaks=-1:nq) plot(0:nq,h$counts,type="b")
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 100回 模試を受けても 「テストのたびに値が変わる・・・」 100回 模試を受けても 「真の正答力は、『正答する確率』が80%である」という仮説 「テストのたびに値が変わる・・・」 100回 模試を受けても・・・ p<-0.8 nq<-10 nt<-10 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) p<-0.8 nq<-10 nt<-100 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) h<-hist(obs,xlim=c(0,nq),breaks=-1:nq) plot(0:nq,h$counts,type="b")
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 「テストのたびに値が変わる・・・」→無限回 受ければ 「テストのたびに値が変わる・・・」→無限回 受ければ p<-0.8 nq<-10 nt<-10 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) plot(0:nq,h$counts,type="b") ds<-dbinom(0:nq,nq,p) par(new=TRUE) plot(0:nq,ds,type="b",col="red")
模試から得る情報 「真の正答力は、『正答する確率』が80%である」という仮説 「テストのたびに値が変わる・・・」 p<-0.8 nq<-10 nt<-10 rs<-matrix(rbinom(nq*nt,1,p),nrow=nt) obs<-apply(rs,1,sum) table(obs) plot(0:nq,h$counts,type="b") ds<-dbinom(0:nq,nq,p) par(new=TRUE) plot(0:nq,ds,type="b",col="red")
みんなが使うものだから 正答確率 0.8の場合の得点分布の確率分布は 「知られている」
みんなが使うものならば 「知られてい」れば、「知れ」ばよし 「知られていないけれど、知りた」ければ、「知れ」ばよし 情報収集・調査・勉強 正答確率 0.8の場合の得点分布の確率分布は 「知られている」 「知られてい」れば、「知れ」ばよし 情報収集・調査・勉強 「知られていないけれど、知りた」ければ、「知れ」ばよし 研究
模試から得る情報 「真の正答力」を推定する 「真の正答力は、『正答する確率』が80%である」という仮説 どうして、「80%」と思った??? 50%,10%,90%だったら? p<-c(0.8,0.5,0.1,0.9) ds<-dbinom(0:nq,nq,p[1]) ylim<-c(0,1) plot(0:nq,ds,type="b",col="red",ylim=ylim) par(new=T) ds<-dbinom(0:nq,nq,p[2]) plot(0:nq,ds,type="b",ylim=ylim) ds<-dbinom(0:nq,nq,p[3]) ds<-dbinom(0:nq,nq,p[4])
0.8 0.5 0.1 0.9
0.8 0.5 0.1 0.9
0.8 0.5 0.1 0.9
0.8 0.5 0.1 0.9
今、気になるのは、8点を取った場合 0.8 0.5 0.1 0.9
仮説→事象が起きる 確率 (起きそうなやすさ) 事象が起きる→仮説 尤度 (ありそうな程度) 仮説→事象が起きる 確率 (起きそうなやすさ) 事象が起きる→仮説 尤度 (ありそうな程度) 真の正答確率が p のときに8点を取る確率は 8点を取ったときに、真の正答確率がpである尤度
「真の正答力は、『正答する確率』がpである」という仮説の下で、10問中8問を正答する確率 10問中8問を正答したときに、真の正答力がpである尤度 point<-8 p<-seq(from=0,to=1,by=0.01) ds<-dbinom(point,nq,p) plot(p,ds,type="l") abline(h=ds[81]) par(new=T) v<-dbeta(p,point+1,nq-point+1) plot(p,v)
模試から得る情報 「真の正答力」を推定する 何点を取ろうとも。 p<-seq(from=0,to=1,by=0.01) obss<-matrix(0,length(p),nq+1) for(i in 1:length(p)){ obss[i,]<-ds<-dbinom(0:nq,nq,p[i]) } persp(obss,xlab="p",ylab="points",theta=90,phi=30) persp(obss,xlab="p",ylab="points",theta=0,phi=30) 44
仮説の下での確率密度分布 実力 テストの点 45
観察の下での尤度分布 テストの点 実力 46
1回目の模試が8点の場合 実力が0.8の場合 尤度 実力 テストの点 実力 47
「真の正答力は、『正答する確率』がpである」という仮説の下で、10問中8問を正答する確率 10問中8問正答のときの真の正答力の尤度
1回目の模試が80%正解の場合 実力はどこまで推定できた? 信頼区間をどう決めたい? 実力 実力 模試の結果から、実力を推定した。 正答率80%を最高に(最尤推定値) : 点推定 幅がある(信頼区間) : 区間推定 49
上限・下限を中心から等距離とするとして、合わせて5% 下限だけ? 信頼区間をどう決めたい? 下限と上限に挟まれた範囲が95% 実力 上限・下限それぞれに2.5%ずつ 上限・下限の尤度を同じにして合わせて5% 上限・下限を中心から等距離とするとして、合わせて5% 下限だけ? 50
真の力より、次回は何点取るか? 真の正答確率は 0 <= p <=1 p=P のときに t 点(t=0,1,2,...,10)を取る確率は Pr(t|p=P) p=Pの確率は Pr(p=P) 全部のpについて、Pr(t|p=P) x Pr(p=P)を足し合わせれば、t点を取る確率がわかる
真の力より、次回は何点取るか? point<-8 p<-seq(from=0,to=1,by=0.01) #ds<-dbinom(point,nq,p) #plot(p,ds,type="l") #abline(h=ds[81]) #par(new=T) v<-dbeta(p,point+1,nq-point+1) plot(p,v,type="l",col="red") newpoints<-0:nq cp<-choose(nq,newpoints) out<-matrix(0,length(newpoints),length(p)) for(i in 1:length(newpoints)){ out[i,]<-cp[i]*p^newpoints[i]*(1-p)^(nq-newpoints[i])*v } out2<-apply(out,1,sum) par(new=T) plot(newpoints,out2,type="b")
次回は何点取るの?
推定 推定(の代表)値 推定値の範囲(信頼区間) 推定結果「の全部」を使って、さらなる推定
確率と尤度 実力が0.8の場合 確率 1回目の模試が80%正解の場合 1回目の模試が80%正解の場合に、次回の試験の点数の予想 尤度 テストの点 確率 実力 実力 テストの点
問題 確率と尤度について自分の言葉で説明しなさい(A4の紙に記入)
臨床における推定 診断という推定 予後の推定 推定(診断)には 診断Aという仮説 診断Bという仮説 … 予後Xという予想 予後Yという予想 最尤推定がある 信頼区間がある 臨床情報 問診・検査 Aのときの確率 A,B,...の尤度 予後推定(A,Bが決まらなくても・・・)
予想の調整 「真の正当力が80%」と思っていた 75/100点を取った 50/100点を取った 「ま、そんなものか」 「真の正当力」の予想は(ほぼ)変わらない 50/100点を取った 「え・・・」 「真の正当力は60%くらいかな・・・」 「真の正当力」の予想が変わる
予想の調整 「真の正当力が50%」と思っていた 75/100点を取った 50/100点を取った 「え・・・」 「真の正当力は60%くらいかな」 50/100点を取った 「ま、そんなものか」 「真の正当力」の予想は(ほぼ)変わらない
事前予想 事後予想 観察 「真の正当力が50%」と思っていた 75/100点を取った 50/100点を取った 「え・・・」 「真の正当力は60%くらいかな」 50/100点を取った 「ま、そんなものか」 「真の正当力」の予想は(ほぼ)変わらない 観察 事後予想
研究における推定 値を計測(実験)したら、必ず推定 模試:全10問の模試 実験も繰り返しが必要 推定には繰り返しが必要 たくさんの実験(10問)を実施していた 実験も繰り返しが必要 推定には繰り返しが必要