数理統計学(第六回) 最尤推定とは? 浜田知久馬 数理統計学第6回
数理統計学第6回
数理統計学第6回
数理統計学第6回
ダーウィンの例 母数推定の前提 自家受精群と他家受精群 に別々の正規分布をあてはめ ダーウィンの例 母数推定の前提 自家受精群と他家受精群 に別々の正規分布をあてはめ n個(n=15)の確率変数Yiが互いに独立に同一の正規分布にしたがう Y1 ,Y2 ,Y3 ,・・・,Yn ~N(μ,σ2) i.i.d.(independent identically distributed) 数理統計学第6回
正規分布の確率密度関数 σ2は既知 n個Y1 ,・・・,Yn のn個のデータの得られる確率f f=f(y1) ・f(y2) ・・・f(yn) =Πf(yi) 数理統計学第6回
対数尤度(log likelihood) 数理統計学第6回
対数尤度(log likelihood) Lはμについての2次関数 尤度fの最大化⇒ 対数尤度Lの最大化 ⇒dL/dμ=0となるμを探す. 数理統計学第6回
スコア統計量 Raoの有効スコア統計量 (efficiency score function) 対数尤度をパラメータで微分した統計量 自家受精群: 17.708 ,他家受精群: 20.192 数理統計学第6回
尤度の計算プログラム data mle;set mle; do m=15 to 25 by 0.1;s=3; f=1/(2*3.141728*s**2)**.5*exp(-(y1-m)**2/s**2/2); l=log(f); output;end; proc sort;by m; proc summary data=mle ;var l;output out=out sum=;by m; data out;set out;f=exp(l); proc gplot; plot (f l)*m/href=17.708;symbol1 i=spline;run; 数理統計学第6回
尤度関数(自家受精群) 数理統計学第6回
対数尤度関数(自家受精群) 数理統計学第6回
スコア統計量の性質を導くために 利用すること ^ E[U]=0,V [U]=E[U2]= E[-U']=I =1/V[θ] 1) 確率密度関数の和は1 ∫f(y,θ) dy=1 2) 3) 微分と積分の交換可能性 4) (f・g)'= f'・g+f・g' 5) (f/g)'= (f'・g-f・g')/g2 6) V[X]=E[X2]-E[X]2 数理統計学第6回
スコア統計量の性質 f(y;θ):確率変数Yの確率密度関数 L(θ;y)=logf(y;θ):対数尤度関数 数理統計学第6回
スコア統計量の性質 E[U]=0,V [U]=E[U2]= E[-U’]=I 数理統計学第6回
Uボートで尤度の 山を一周したら 数理統計学第6回
スコア統計量の性質 数理統計学第6回
スコア統計量の性質 E[U’] +E[U 2 ]=0 V [U]=E[U2]‐ E[U] 2= E[U2]= E[-U’]:情報量 数理統計学第6回
どちらの対数尤度の山の方が登りやすいだろうか? 情報量が小さい場合 情報量が 大きい場合 数理統計学第6回
2項分布の場合 数理統計学第6回
2項分布の場合 数理統計学第6回
2項分布の場合 数理統計学第6回
2項分布の場合 数理統計学第6回
^ ^ V[θ]≒1/I[θ] 中心極限定理と 大数の法則が 適用できる. 分散は 1/情報量 数理統計学第6回
平均値の法則 大数の法則 平均値はnを大きくすると,真の値に収束する. 平均値→E(X)=μ (n→∞) limP(|平均値-μ|≧ε)=0 平均値の法則 大数の法則 平均値はnを大きくすると,真の値に収束する. 平均値→E(X)=μ (n→∞) limP(|平均値-μ|≧ε)=0 n→∞ 中心極限定理 nを大きくすると,平均値の分布は正規分布になる. 数理統計学第6回
まとめ スコア統計量とMLEの性質 数理統計学第6回
MLEの性質 1)nが大きくなれば,MLEは真値に近づく(一致性) ← 大数の法則 2)最尤推定量の分布は,漸近的に正規分布にしたがう(漸近正規性) ← 中心極限定理 3)最尤推定量の分散は,漸近的にFisherの情報量の逆数となり,Cramer-Raoの下限を達成する(有効性) 数理統計学第6回
ダイオキシン ベトナム戦争時に使用された枯葉剤(2,4,5-T)に、不純物として含まれていた毒性物質として有名。ベトナムにおける流産や先天異常児の多発、ベトナム帰還米兵のガンの多発などは、この影響であると指摘されている。 ダイオキシンは廃棄物焼却や金属精錬の際に発生したり、農薬等各種の化学物質を製造する際に副生するなどの例が知られているが、中でも廃棄物焼却が最大の原因であると言われている。ところが、最近になって、これまで知られていた発ガン性を示すレベルの量よりも更に微量のダイオキシンが、子宮内膜症とそれに伴う不妊症の原因ではないかと疑われるようになり、社会的な関心が一層高まっている。 数理統計学第6回
ベトナム戦争で散布された枯葉剤により枯れたマングローブの林 数理統計学第6回
ダイオキシン類の特徴 4塩化物以上に毒性が強い 2,3,7,8-TCDDの毒性が最も強い 水に難溶性。脂肪に溶けやすい 2,3,7,8-TCDDの毒性が最も強い 水に難溶性。脂肪に溶けやすい 極めて安定 700℃でも分解しない 副産物として生成される 除草剤、殺菌剤の製造過程、焼却、 漂白、自動車の排ガス等 数理統計学第6回
2,3,7,8-Tetrachlorodibenzo-p-dioxin (2,3,7,8-TCDD) の構造 塩素のつく数と位置による同族体と異性体が多数あり、このうち毒性発現から7種、またポリ塩化ジベンゾフラン10種、PCB12種に対して毒性等価係数が付与されている) 数理統計学第6回
測定単位 mg (ミリグラム =千分の1グラム) μg (マイクロリグラム =百万分の1グラム) ng (ナノグラム=十億分の1グラム) pg (ピコグラム=一兆分の1グラム) 1g中に1 μg → ppm 1g中に1 ng → ppb 1g中に1 pg → ppt (100m×100m×100mの水槽に1g) 数理統計学第6回
ダイオキシンの毒性 毒性 症 状 実験動物 NOAEL* 発ガン性 肝細胞への影響 肝臓ガン発生 ラット ラット 症 状 実験動物 NOAEL* 発ガン性 肝細胞への影響 肝臓ガン発生 ラット ラット 1 ng/1kg 体重/1日 10ng/1kg 体重/1日 免疫毒性 感染防御機能低下 マウス 5ng /1kg 体重/1日 催奇形性 口蓋裂、腎盂拡張 100ng /1kg 体重/1日 その他の 慢性毒性 体重増加抑制等 ラット 1 ng/1kg 体重/1日 数理統計学第6回
性比の経年変化 男/女 数理統計学第6回
問題の背景 1) ダイオキシンの人間に対する毒性用量は判明している. 2)ダイオキシン濃度がある濃度を越えた個体の割合を推定したい. 3)1998年については個別データがあるが,後の年については,平均値しかわからない 4)ダイオキシン濃度の分布は対数正規分布 にしたがうことが経験的に判明している. 数理統計学第6回
セベソ事件 セベソ事件とは,北イタリア,ミラノの北約 20 Km のところにある農薬工場が,2,4,5-トリクロロフェノール製造中に爆発事故を起こし,セベソを中心とする周辺地域をダイオキシンを含む大量の化学物質が汚染した. ・1976 年 7 月 10 日爆発事故発生 ・最終的に,20万人以上の住民が被害を受ける. ・性比を1%減らす濃度(129 pg/g) 5%(146) 10%(160) 数理統計学第6回
モーメント法による 対数正規分布の母数推定 N=467 (単位:pg/g fat) 平均値:25.5 SD:14.5 変動係数:14.5/25.5=56.9% 対数正規分布のパラメータ μ,σ 数理統計学第6回
対数正規分布 μ,σを推定したい 対数変換すると正規分布にしたがう. x=log(y) ⇒ dx=1/ydy f(y) =dF(y) /dy=dF(y) /dx ×dx/dy μ,σを推定したい 数理統計学第6回
対数正規分布 E[y]=exp(σ2/2+μ) V[y]=E[y]2 ( exp(σ2)-1) SD = E[y]( exp(σ2)-1)0.5 CV=SD/E[y]= ( exp(σ2)-1)0.5 変動係数はμに関係なく一定 数理統計学第6回
モーメント法による推定 標本平均:25.5 標本SD:14.5 E[y]=exp(σ2/2+μ)=標本平均 V[y]=E[y]2 ( exp(σ2)-1)=標本分散 になるように, σとμを推定 標本平均:25.5 標本SD:14.5 exp(σ2)-1=14.52/25.52⇒σ=0.5293 exp(σ2/2+μ)=25.5 ⇒ μ=3.0986 数理統計学第6回
推定された対数正規分布の 確率密度関数 数理統計学第6回
対数正規乱数の発生 data data; cv=0.5686;mean=25.5; s=(log(1+cv**2))**.5; m=log(mean)-s**2/2; do i=1 to 10000; x=exp(m+s*rannor(4989));y=log(x);output; end; proc means;var x y; proc gchart;vbar x/space=0; 数理統計学第6回
正規乱数のヒストグラム 数理統計学第6回
対数正規分布の%点 log(y)が正規分布するのを利用して α%点:exp(μ+Zασ) Zα:正規分布のα%点 Z50:0 Z50:0 Z25:-0.6745 Z75:0.6745 数理統計学第6回
%点の比較 実測値 対数正規分布 25%点 15.2 15.5 50%点 21.7 22.2 75%点 31.3 31.7 実測値 対数正規分布 25%点 15.2 15.5 50%点 21.7 22.2 75%点 31.3 31.7 %点からは対数正規分布がよくあてはまっていると考えられる. 変動係数が一定になるように各年度のSDを推定 数理統計学第6回
カットオフ値を越える確率 (単位:pg/g) year 平均 σ μ 推定SD BMD1% BMD5% BMD10% (129) (146) (160) 1973 57.1 0.5293 3.90472 32.4687 0.035582 0.020759 0.013507 1974 66.2 0.5293 4.05260 37.6433 0.063623 0.039294 0.026684 1975 58.2 0.5293 3.92381 33.0942 0.038498 0.022628 0.014805 1976 48.9 0.5293 3.74970 27.8060 0.017982 0.009871 0.006136 1977 48.7 0.5293 3.74560 27.6923 0.017643 0.009669 0.006003 1978 51.9 0.5293 3.80924 29.5119 0.023581 0.013253 0.008385 1979 46.6 0.5293 3.70152 26.4981 0.014322 0.007713 0.004726 1980 40.0 0.5293 3.54880 22.7452 0.006627 0.003356 0.001965 1981 38.1 0.5293 3.50014 21.6648 0.005102 0.002534 0.001462 1982 38.6 0.5293 3.51317 21.9491 0.005477 0.002734 0.001583 1983 40.6 0.5293 3.56369 23.0864 0.007168 0.003652 0.002148 数理統計学第6回
カットオフ値を越える確率 (単位:pg/g) year 平均 σ μ 推定SD BMD1% BMD5% BMD10% (129) (146) (160) 1984 37.3 0.5293 3.47891 21.2099 0.004541 0.002236 0.001282 1985 32.4 0.5293 3.33808 18.4236 0.002020 0.000939 0.000516 1986 30.5 0.5293 3.27765 17.3432 0.001399 0.000634 0.000342 1988 34.4 0.5293 3.39798 19.5609 0.002874 0.001369 0.000766 1989 33.0 0.5293 3.35643 18.7648 0.002253 0.001055 0.000583 1990 31.9 0.5293 3.32253 18.1393 0.001840 0.000850 0.000464 1991 29.2 0.5293 3.23409 16.6040 0.001065 0.000474 0.000252 1992 26.2 0.5293 3.12568 14.8981 0.000526 0.000224 0.000115 1993 26.5 0.5293 3.13707 15.0687 0.000567 0.000243 0.000125 1994 27.1 0.5293 3.15945 15.4099 0.000658 0.000284 0.000148 1995 23.5 0.5293 3.01692 13.3628 0.000249 0.000101 0.000050 1996 24.1 0.5293 3.04213 13.7040 0.000297 0.000122 0.000061 数理統計学第6回
問題 ある大学で,100人の学生の血液型について,調べた結果,A型41人,B型22人,O型27人,AB型10人となった.血液型の人数の分布は次のように確率Lが示される多項分布に したがうと考えられる. XA,・・・,XAB:各血液型の人数である. XA+XB+XO+XAB=N 数理統計学第6回
問題 Lを母数, πA , πB , πO , πABの関数を考えてLが最大になるようにパラメータを推定したい.ただしπA+πB +πO + πAB=1 という制約が存在する. 1)対数尤度を示すこと. 2)対数尤度をπAで微分すること. 3) πA , πB , πO , πABの最尤推定値を計算すること 数理統計学第6回
Lagrange の未定乗数法 p 次元ベクトル x について,等式制約:g(x) = 0 の下で,ある目的関数:f(x) の最大(小)値を求める問題の一つの解法に,ラグランジュの未定乗数法がある. を解くと,この連立方程式の解の中に求める解がある. 数理統計学第6回