数理統計学(第六回) 最尤推定とは? 浜田知久馬 数理統計学第6回.

Slides:



Advertisements
Similar presentations
計測工学 - 測定の誤差と精度 2- 計測工学 2009 年 4 月 28 日 Ⅱ限目. 授業内容 2.1 数値計算における誤差 2.2 計算過程での誤差 2.3 測定の精度.
Advertisements

数理統計学 西 山. 前回のポイント<ルート N の法則> 1. データ(サンプル)の合計値 正規分布をあてはめる ルート N をかけて標準偏差を求める 2. データ(サンプル)の平均値 正規分布を当てはめる 定理8がポイント ルート N で割って標準偏差を求める.
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
数理統計学第1回 1 数理統計学 ( 第一回) 確率変数とは? 浜田知久馬. 数理統計学第1回 2 世の中は不確定なことが多い 決まりきったことばかりとは限らない. 予想される値は決まっていてもばらつく. このようなとき,確率変数によって,物事 を確率的に記述できると便利なことが多 い.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
数理統計学(第七回) 線形模型とは? 浜田知久馬 数理統計学第7回.
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
数理統計学  第9回 西山.
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
数理統計学(第十回) ノンパラ検定とは?1 浜田知久馬 数理統計学第10回.
一般化線形モデル(GLM) generalized linear Models
数理統計学(第四回) 分散の性質と重要な法則
数理統計学(第五回) 統計的推測とは? 浜田知久馬 数理統計学第5回.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
数理統計学(第八回) 統計的仮説検定とは?
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計解析 第9回 第9章 正規分布、第11章 理論分布.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
環境表面科学講義 最終回 村松淳司.
ベイズ的ロジスティックモデル に関する研究
第2章補足Ⅱ 2項分布と正規分布についての補足
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
統計解析 第10回 12章 標本抽出、13章 標本分布.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
数理統計学 第11回 西 山.
ガウス過程による回帰 Gaussian Process Regression GPR
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
正規分布確率密度関数.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
確率と統計 年1月12日(木)講義資料B Version 4.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
第3章 線形回帰モデル 修士1年 山田 孝太郎.
経営学研究科 M1年 学籍番号 speedster
データ解析 静岡大学工学部 安藤和敏
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
回帰分析(Regression Analysis)
数理統計学 西 山.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
ダイオキシン分析の 精度管理・評価について
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
(昨年度のオープンコースウェア) 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
確率と統計 年1月7日(木) Version 3.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

数理統計学(第六回) 最尤推定とは? 浜田知久馬 数理統計学第6回

数理統計学第6回

数理統計学第6回

数理統計学第6回

ダーウィンの例 母数推定の前提 自家受精群と他家受精群 に別々の正規分布をあてはめ ダーウィンの例 母数推定の前提 自家受精群と他家受精群 に別々の正規分布をあてはめ n個(n=15)の確率変数Yiが互いに独立に同一の正規分布にしたがう Y1 ,Y2 ,Y3 ,・・・,Yn ~N(μ,σ2) i.i.d.(independent identically distributed) 数理統計学第6回

正規分布の確率密度関数 σ2は既知 n個Y1 ,・・・,Yn のn個のデータの得られる確率f f=f(y1) ・f(y2) ・・・f(yn) =Πf(yi) 数理統計学第6回

対数尤度(log likelihood) 数理統計学第6回

対数尤度(log likelihood) Lはμについての2次関数 尤度fの最大化⇒ 対数尤度Lの最大化 ⇒dL/dμ=0となるμを探す. 数理統計学第6回

スコア統計量 Raoの有効スコア統計量 (efficiency score function) 対数尤度をパラメータで微分した統計量 自家受精群: 17.708 ,他家受精群: 20.192 数理統計学第6回

尤度の計算プログラム data mle;set mle; do m=15 to 25 by 0.1;s=3; f=1/(2*3.141728*s**2)**.5*exp(-(y1-m)**2/s**2/2); l=log(f); output;end; proc sort;by m; proc summary data=mle ;var l;output out=out sum=;by m; data out;set out;f=exp(l); proc gplot; plot (f l)*m/href=17.708;symbol1 i=spline;run; 数理統計学第6回

尤度関数(自家受精群) 数理統計学第6回

対数尤度関数(自家受精群) 数理統計学第6回

スコア統計量の性質を導くために 利用すること ^ E[U]=0,V [U]=E[U2]= E[-U']=I =1/V[θ] 1) 確率密度関数の和は1 ∫f(y,θ) dy=1 2)   3) 微分と積分の交換可能性 4) (f・g)'= f'・g+f・g' 5) (f/g)'= (f'・g-f・g')/g2 6) V[X]=E[X2]-E[X]2   数理統計学第6回

スコア統計量の性質 f(y;θ):確率変数Yの確率密度関数 L(θ;y)=logf(y;θ):対数尤度関数 数理統計学第6回

スコア統計量の性質 E[U]=0,V [U]=E[U2]= E[-U’]=I 数理統計学第6回

Uボートで尤度の      山を一周したら 数理統計学第6回

スコア統計量の性質 数理統計学第6回

スコア統計量の性質 E[U’] +E[U 2 ]=0 V [U]=E[U2]‐ E[U] 2= E[U2]= E[-U’]:情報量 数理統計学第6回

どちらの対数尤度の山の方が登りやすいだろうか? 情報量が小さい場合 情報量が 大きい場合 数理統計学第6回

2項分布の場合 数理統計学第6回

2項分布の場合 数理統計学第6回

2項分布の場合 数理統計学第6回

2項分布の場合 数理統計学第6回

^ ^ V[θ]≒1/I[θ] 中心極限定理と 大数の法則が 適用できる. 分散は 1/情報量 数理統計学第6回

平均値の法則 大数の法則 平均値はnを大きくすると,真の値に収束する. 平均値→E(X)=μ (n→∞) limP(|平均値-μ|≧ε)=0 平均値の法則   大数の法則 平均値はnを大きくすると,真の値に収束する. 平均値→E(X)=μ (n→∞) limP(|平均値-μ|≧ε)=0 n→∞ 中心極限定理 nを大きくすると,平均値の分布は正規分布になる. 数理統計学第6回

まとめ スコア統計量とMLEの性質 数理統計学第6回

MLEの性質 1)nが大きくなれば,MLEは真値に近づく(一致性) ← 大数の法則 2)最尤推定量の分布は,漸近的に正規分布にしたがう(漸近正規性)         ← 中心極限定理 3)最尤推定量の分散は,漸近的にFisherの情報量の逆数となり,Cramer-Raoの下限を達成する(有効性) 数理統計学第6回

ダイオキシン   ベトナム戦争時に使用された枯葉剤(2,4,5-T)に、不純物として含まれていた毒性物質として有名。ベトナムにおける流産や先天異常児の多発、ベトナム帰還米兵のガンの多発などは、この影響であると指摘されている。  ダイオキシンは廃棄物焼却や金属精錬の際に発生したり、農薬等各種の化学物質を製造する際に副生するなどの例が知られているが、中でも廃棄物焼却が最大の原因であると言われている。ところが、最近になって、これまで知られていた発ガン性を示すレベルの量よりも更に微量のダイオキシンが、子宮内膜症とそれに伴う不妊症の原因ではないかと疑われるようになり、社会的な関心が一層高まっている。 数理統計学第6回

ベトナム戦争で散布された枯葉剤により枯れたマングローブの林 数理統計学第6回

ダイオキシン類の特徴 4塩化物以上に毒性が強い 2,3,7,8-TCDDの毒性が最も強い 水に難溶性。脂肪に溶けやすい    2,3,7,8-TCDDの毒性が最も強い 水に難溶性。脂肪に溶けやすい 極めて安定 700℃でも分解しない 副産物として生成される    除草剤、殺菌剤の製造過程、焼却、    漂白、自動車の排ガス等 数理統計学第6回

2,3,7,8-Tetrachlorodibenzo-p-dioxin (2,3,7,8-TCDD) の構造 塩素のつく数と位置による同族体と異性体が多数あり、このうち毒性発現から7種、またポリ塩化ジベンゾフラン10種、PCB12種に対して毒性等価係数が付与されている) 数理統計学第6回

測定単位 mg (ミリグラム =千分の1グラム) μg (マイクロリグラム =百万分の1グラム) ng (ナノグラム=十億分の1グラム) pg (ピコグラム=一兆分の1グラム)  1g中に1 μg → ppm  1g中に1 ng → ppb  1g中に1 pg → ppt   (100m×100m×100mの水槽に1g) 数理統計学第6回

ダイオキシンの毒性 毒性 症 状 実験動物 NOAEL* 発ガン性 肝細胞への影響 肝臓ガン発生 ラット ラット 症   状 実験動物 NOAEL* 発ガン性 肝細胞への影響 肝臓ガン発生 ラット ラット 1 ng/1kg 体重/1日 10ng/1kg 体重/1日 免疫毒性 感染防御機能低下 マウス 5ng /1kg 体重/1日 催奇形性 口蓋裂、腎盂拡張 100ng /1kg 体重/1日 その他の 慢性毒性 体重増加抑制等 ラット 1 ng/1kg 体重/1日 数理統計学第6回

性比の経年変化 男/女 数理統計学第6回

問題の背景 1) ダイオキシンの人間に対する毒性用量は判明している. 2)ダイオキシン濃度がある濃度を越えた個体の割合を推定したい. 3)1998年については個別データがあるが,後の年については,平均値しかわからない 4)ダイオキシン濃度の分布は対数正規分布  にしたがうことが経験的に判明している. 数理統計学第6回

セベソ事件 セベソ事件とは,北イタリア,ミラノの北約 20 Km のところにある農薬工場が,2,4,5-トリクロロフェノール製造中に爆発事故を起こし,セベソを中心とする周辺地域をダイオキシンを含む大量の化学物質が汚染した. ・1976 年 7 月 10 日爆発事故発生 ・最終的に,20万人以上の住民が被害を受ける. ・性比を1%減らす濃度(129 pg/g) 5%(146) 10%(160) 数理統計学第6回

モーメント法による 対数正規分布の母数推定 N=467 (単位:pg/g fat) 平均値:25.5 SD:14.5  変動係数:14.5/25.5=56.9% 対数正規分布のパラメータ μ,σ 数理統計学第6回

対数正規分布 μ,σを推定したい 対数変換すると正規分布にしたがう. x=log(y) ⇒ dx=1/ydy f(y) =dF(y) /dy=dF(y) /dx ×dx/dy μ,σを推定したい 数理統計学第6回

対数正規分布 E[y]=exp(σ2/2+μ) V[y]=E[y]2 ( exp(σ2)-1) SD = E[y]( exp(σ2)-1)0.5    CV=SD/E[y]= ( exp(σ2)-1)0.5   変動係数はμに関係なく一定 数理統計学第6回

モーメント法による推定 標本平均:25.5 標本SD:14.5 E[y]=exp(σ2/2+μ)=標本平均 V[y]=E[y]2 ( exp(σ2)-1)=標本分散 になるように, σとμを推定 標本平均:25.5 標本SD:14.5  exp(σ2)-1=14.52/25.52⇒σ=0.5293 exp(σ2/2+μ)=25.5  ⇒ μ=3.0986 数理統計学第6回

推定された対数正規分布の 確率密度関数 数理統計学第6回

対数正規乱数の発生 data data; cv=0.5686;mean=25.5; s=(log(1+cv**2))**.5; m=log(mean)-s**2/2; do i=1 to 10000; x=exp(m+s*rannor(4989));y=log(x);output; end; proc means;var x y; proc gchart;vbar x/space=0; 数理統計学第6回

正規乱数のヒストグラム 数理統計学第6回

対数正規分布の%点 log(y)が正規分布するのを利用して α%点:exp(μ+Zασ) Zα:正規分布のα%点 Z50:0    Z50:0    Z25:-0.6745 Z75:0.6745 数理統計学第6回

%点の比較 実測値 対数正規分布 25%点 15.2 15.5 50%点 21.7 22.2 75%点 31.3 31.7       実測値   対数正規分布 25%点  15.2 15.5 50%点  21.7 22.2 75%点   31.3 31.7 %点からは対数正規分布がよくあてはまっていると考えられる. 変動係数が一定になるように各年度のSDを推定 数理統計学第6回

カットオフ値を越える確率 (単位:pg/g) year 平均 σ μ 推定SD BMD1% BMD5% BMD10%                   (129) (146) (160)  1973 57.1 0.5293 3.90472 32.4687 0.035582 0.020759 0.013507 1974 66.2 0.5293 4.05260 37.6433 0.063623 0.039294 0.026684 1975 58.2 0.5293 3.92381 33.0942 0.038498 0.022628 0.014805 1976 48.9 0.5293 3.74970 27.8060 0.017982 0.009871 0.006136 1977 48.7 0.5293 3.74560 27.6923 0.017643 0.009669 0.006003 1978 51.9 0.5293 3.80924 29.5119 0.023581 0.013253 0.008385 1979 46.6 0.5293 3.70152 26.4981 0.014322 0.007713 0.004726 1980 40.0 0.5293 3.54880 22.7452 0.006627 0.003356 0.001965 1981 38.1 0.5293 3.50014 21.6648 0.005102 0.002534 0.001462 1982 38.6 0.5293 3.51317 21.9491 0.005477 0.002734 0.001583 1983 40.6 0.5293 3.56369 23.0864 0.007168 0.003652 0.002148 数理統計学第6回

カットオフ値を越える確率   (単位:pg/g)   year  平均 σ μ 推定SD BMD1%   BMD5%   BMD10%                   (129) (146) (160)  1984 37.3 0.5293 3.47891 21.2099 0.004541 0.002236 0.001282 1985 32.4 0.5293 3.33808 18.4236 0.002020 0.000939 0.000516 1986 30.5 0.5293 3.27765 17.3432 0.001399 0.000634 0.000342 1988 34.4 0.5293 3.39798 19.5609 0.002874 0.001369 0.000766 1989 33.0 0.5293 3.35643 18.7648 0.002253 0.001055 0.000583 1990 31.9 0.5293 3.32253 18.1393 0.001840 0.000850 0.000464 1991 29.2 0.5293 3.23409 16.6040 0.001065 0.000474 0.000252 1992 26.2 0.5293 3.12568 14.8981 0.000526 0.000224 0.000115 1993 26.5 0.5293 3.13707 15.0687 0.000567 0.000243 0.000125 1994 27.1 0.5293 3.15945 15.4099 0.000658 0.000284 0.000148 1995 23.5 0.5293 3.01692 13.3628 0.000249 0.000101 0.000050 1996 24.1 0.5293 3.04213 13.7040 0.000297 0.000122 0.000061 数理統計学第6回

問題 ある大学で,100人の学生の血液型について,調べた結果,A型41人,B型22人,O型27人,AB型10人となった.血液型の人数の分布は次のように確率Lが示される多項分布に  したがうと考えられる. XA,・・・,XAB:各血液型の人数である. XA+XB+XO+XAB=N 数理統計学第6回

問題 Lを母数, πA , πB , πO , πABの関数を考えてLが最大になるようにパラメータを推定したい.ただしπA+πB +πO + πAB=1 という制約が存在する. 1)対数尤度を示すこと. 2)対数尤度をπAで微分すること. 3) πA , πB , πO , πABの最尤推定値を計算すること 数理統計学第6回

Lagrange の未定乗数法 p 次元ベクトル x について,等式制約:g(x) = 0 の下で,ある目的関数:f(x) の最大(小)値を求める問題の一つの解法に,ラグランジュの未定乗数法がある. を解くと,この連立方程式の解の中に求める解がある.  数理統計学第6回