GLMの予測区間 ~直感的理解と図示方法~ var. 2010.3.24.

Slides:



Advertisements
Similar presentations
母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
一般化線形モデル(GLM) generalized linear Models
経済統計学 第2回 4/24 Business Statistics
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学  第7回 西 山.
相関係数 植物生態学研究室木村 一也.
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
シミュレーション物理7 乱数.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学  第6回 西山.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
ガウス過程による回帰 Gaussian Process Regression GPR
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
相関分析.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
数理統計学 西 山.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
母分散の信頼区間 F分布 母分散の比の信頼区間
第2回課題 配布した通り.氏名・学生番号を忘れないこと.
確率と統計2009 第12日目(A).
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
ベイズ最適化 Bayesian Optimization BO
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
統計学  第9回 西 山.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
数理統計学 西 山.
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
数理統計学  第12回 西 山.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
レジュメの構成 1.はじめに ・このテーマにした理由 ・自分の問題意識 (例)難民選手団は毎回結成 すべきと考える 2.・・・・について
Presentation transcript:

GLMの予測区間 ~直感的理解と図示方法~ var. 2010.3.24

目次 はじめに family = poisson 編 family = binomial 編(以下、未完成・・・) ケース1(説明変数がない場合) ケース2(説明変数が1つある場合) ケース3(説明変数が複数ある場合) family = binomial 編(以下、未完成・・・)

はじめに このスライドの目的 タイトルの通り、GLMの予測区間について理解を深め、 Rによる作図ができるようになること。 前提とするもの よくつかわれる確率分布に関する、ある程度の知識 GLM(一般化線形モデル)に関する、ある程度の知識 予測区間とは 母集団を仮定した上で、将来観察されるであろう標本値に対して「どの範囲にあると予測されるか」を示すものである。(wikipedia より) これに対し、信頼区間とは、母集団の母数(標本から測定できない)に対して 「どの範囲にあると推定できるか」を示すものである。混同しないように注意。(wikipedia より) その他 “GLMの”予測区間と言ってるけど、考え方は他のモデルでも同じかも。 ただし、ランダム効果入りのモデルは別。要注意。

family = poisson 編 GLM(一般化線形モデル)は、“一般化”とつくだけあって、 いろいろな確率分布を扱うことができる。 ここでは、その中でも理解しやすいと思われる、ポアソン分布に従ったデータを題材として解説していく。

ケース1(説明変数がない場合) まさお君は釣りが好きであった。今までに手賀沼に釣りに行った回数はちょうど50回である。まさお君は、よく釣れるブルーギルの数を記録していた。そのデータを利用して、手賀沼で釣れるブルーギルの数をモデリングすることにした。ちなみに、釣りをする時間は毎回一定であった。 釣れたブルーギル数のヒストグラム gill <- rpois(50, 5) #ポアソン分布に従う乱数生成 hist(gill) #ヒストグラム作成 mean(gill) #平均 var(gill) #分散 平均:4.74 分散:4.52 平均≒分散となっていて、ポアソン分布に従っていそう! 注)乱数を使っているので、実際に試した場合とは微妙に値が異なると思います。

ケース1(説明変数がない場合) 釣れたブルーギルの匹数を応答変数としてGLMを作成。 説明変数は無し(平均値のパラメータ:beta のみ)。 model1 <- glm(gill ~ 1, family = poisson) #GLMを作成 beta1 <- model1$coefficients #このモデルのbetaの値を格納 #このモデルの確率分布を調べる pred1 <- c() #確率を入れる変数を用意 for(i in 0:max(gill)){ pred1[i+1] <- dpois(i, exp(beta1)) #lambda = exp(beta)のとき、 } #釣れる数がi匹である確率を求める #ちなみにこれは、for文を用いずに書くことも可能↓ pred1 <- sapply(0:max(gill), function(i) dpois(i, exp(beta1))) 6

ケース1(説明変数がない場合) そうして求まった確率に、サンプル数をかければ予測値となる。 けっこういい感じな予測? #hist()だとx軸がいい加減になっちゃうので、度数分布データに直して改めて作図 plot(table(factor(gill, levels = 0:max(gill)))) #先ほど求めた確率にサンプル数をかけて出した予測値を重ね描き lines(0:max(gill), pred1*50, type = "b") けっこういい感じな予測? そして、次からがいよいよ予測区間! 7

ケース1(説明変数がない場合) まず、話を予測値からに確率分布に戻す(サンプル数をかけていない状態) この確率分布を見て分かること plot(0:max(gill), pred1, type = "b") この確率分布を見て分かること ・4匹釣れる確率が一番高い ・0匹や10匹の確率は低い →ほとんど起こらない両側2.5%ずつに入る部分を調べて、95%予測区間を求めよう! (95%というのは、よく使われているだけであって、目的に応じて何%でも構わない。) 8

ケース1(説明変数がない場合) 両側の2.5%の境目を調べるには qpois() を使う。 つまり・・・ qpois(0.025, exp(beta1))  #qpois(分位数, lambda) という風に使う qpois(0.975, exp(beta1))  #結果、2.5%の方は1、 97.5%の方は9であった。 つまり・・・ この2本の線より内側の部分が、95%予測区間。 はみ出ているのは10匹釣れた2サンプルのみ → 2/50 = 4% なので、このモデルの予測は悪くないといえる。 ちなみに、はみ出ているサンプルが5%より遥かに多いと、過分散の可能性が疑われる 9

ケース2(説明変数が1つある場合) まさお君は釣りが好きであった。今までに霞ヶ浦に釣りに行った回数はちょうど50回である。まさお君は、よく釣れるブラックバスの数を記録していた。そのデータを利用して、霞ヶ浦で釣れるブラックバスの数をモデリングすることにした。ちなみに、釣りをする時間は毎回一定であった。さらに今回は、近くで釣りをしていた人の数も記録してあり、データとして使うことができる! #下準備・・・ beta2 <- c(1.5, -0.03) #架空データのパラメータ people <- rpois(50, 2) #近くで釣りをしていた人の数を適当に生成 #パラメータと人の数から、釣れたブラックバスの数を生成 bass <- rpois(50, exp(beta2[1] + people * beta2[2])) d <- data.frame(people, bass) #なんとなくデータフレームにしてみる ・・・ 10

ケース2(説明変数が1つある場合) でもちょっと待って!? 今回のデータを図示してみよう! plot(d$people, d$bass) #横軸に人の数、縦軸に釣れたブラックバスの数 なんとなく、近くで釣りをしていた人が多いほど、ブラックバスの釣れた数が少ないように思える・・・ でもちょっと待って!? この図とケース1のような図との関係、わかってますか? 11

ケース2(説明変数が1つある場合) 見えているプロットの数を数えると32個。でも、サンプル数は50だったはず・・・ →いくつかのプロットは重なってしまっている →それが、この図では見られない“度数” people = 0 のときのbassのヒストグラム people = 1 のときのbassのヒストグラム people = 2 のときのbassのヒストグラム people = 3 のときのbassのヒストグラム この図は、peopleが0~6のときのbassのヒストグラムを並べて、上から見たような図である! 12

ケース2(説明変数が1つある場合) ということは、peopleが0~6の場合ごとに 確率分布あるいは予測値を考えることができる。 people = 0 のときのbassの予測値(てきとー) people = 1 のときのbassの予測値(てきとー) people = 2 のときのbassの予測値(てきとー) people = 3 のときのbassの予測値(てきとー) ということは・・・・・・ 13

ケース2(説明変数が1つある場合) 予測区間も同様に考えることができる! イメージがつかめれば、もう予測区間は描けたも同然! people = 0 のときのbassの95%予測区間(てきとー) people = 1 のときのbassの95%予測区間(てきとー) people = 2 のときのbassの95%予測区間(てきとー) people = 3 のときのbassの95%予測区間(てきとー) イメージがつかめれば、もう予測区間は描けたも同然! 14

ケース2(説明変数が1つある場合) 釣れたブラックバスの匹数を応答変数としてGLMを作成。 説明変数はpeople(パラメータは切片及びpeopleの係数)。 beta2には、切片及びpeopleの係数を格納。 モデルから得られたパラメータを使って、横軸(people)がとる値ごとに95%予測区間を調べていく。 model2 <- glm(bass ~ people, family = poisson, data = d) #GLMを作成 beta2 <- model1$coefficients #このモデルのパラメータを格納 #people = i のときの、bassのヒストグラムの左側2.5%の境目 pred2.1 <- sapply(0:max(d$people), function(i){ qpois(0.025, exp(beta2[1]+ i * beta2[2])) }) #people = i のときの、bassのヒストグラムの右側2.5%の境目 pred2.2 <- sapply(0:max(d$people), function(i){     qpois(0.975, exp(beta2[1]+ i * beta2[2])) 15

ケース2(説明変数が1つある場合) 得られた予測区間の両側はこんな感じ →→→ あまりパッとしないけど、とりあえず作図してみる。 得られた予測区間の両側はこんな感じ   →→→ あまりパッとしないけど、とりあえず作図してみる。 plot(d$people, d$bass) lines(0:max(d$people), pred2.1, type = "b") lines(0:max(d$people), pred2.2, type = "b") この2本の線より内側の部分が、95%予測区間。 はみ出ているのは4サンプル(見えるプロットは3つだけど、先に述べたようにこの図では“度数”を確認することができない)。 → 2/50 = 4% なので、このモデルの予測は悪くないといえる。 では、説明変数が2つ、3つと増えた場合にはどうすればよいのだろう? →次のスライドへ 16

ケース3(説明変数が複数ある場合) 答え・・・ ポアソン分布のパラメータ:λ 説明変数が2つであれば、3次元の図を描けないこともない。 しかしそれ以上となると、各軸に説明変数をとることは厳しい。 ところで、「ポアソン分布に従うデータのモデル」の予測区間を決めているのはいったいなんだろうか? だったら、横軸にλ、縦軸に応答変数をとればいいじゃないか。 今さらながら、ポアソン分布のパラメータλは、その分布の平均と分散を意味する。そして、線形予測子を z とするならば、λ=exp(z) である(リンク関数がlogの場合)。 まぁ、難しい話はおいといて、実践・・・ 答え・・・ ポアソン分布のパラメータ:λ 17

ケース3(説明変数が複数ある場合) 一日に見つけた鳥の数(tori)が、平均気温(kion)、雲量(kumo)、雨の有無(ame)で決まるだろう、とかいう適当すぎるモデルを考える。 kion <- round(rnorm(20, 20, 5), 1) #平均気温(℃) kumo <- round(rnorm(20, 40, 20), 1) #雲量、単位は謎 ame <- rbinom(20, 1, 0.4) #雨が降った:1、降らなかった:0 tori <- rpois(20, exp(0.1 + 0.04 * kion + 0.04 * kumo - 0.06 * ame)) d3 <- data.frame(tori, kion, kumo, ame) こんな感じの架空データができる。 次に、モデルを作って各パラメータの値を得る。 model3 <- glm(tori ~ kion + kumo + ame, family = poisson, data = d3) #GLMを作成 beta3 <- model3$coefficients #各パラメータの値を格納 18

ケース3(説明変数が複数ある場合) そして、各説明変数の取りうる値すべての組み合わせで95%予測区間を・・・なんてことはしなくてもいい。 なぜなら、各説明変数がどんな値を取ろうとも、最終的にはλという一つの値に落ち着くから。 model$fitted でモデルが予測したλの値を取り出すことができる。 kion=21.2, kuom = 35.1, ame = 1 で、各パラメータがbeta3のときのλ・・・といった感じに、この場合20個のλを取り出すことができる。 ・そのλの最大値と最小値を調べて、その間を適当な間隔で刻む(λs とする)。 ・λs それぞれで95%予測区間を調べる。 ・横軸にλ、縦軸にtoriをとってプロットする。 ・さらに、横軸にλs、縦軸にそれらの予測区間をとり、描く。 次のスライドで、コード及び結果を示す。 19

ケース3(説明変数が複数ある場合) Rコード model3$fitted #モデルの予測(λ) fit.min <- min(model3$fitted) #モデルの予測したλの最小値 fit.max <- max(model3$fitted) #モデルの予測したλの最大値 lambdas <- seq(fit.min, fit.max, 1) #λの最小値から最大値までを1間隔で刻む pred3.1 <- qpois(0.025, lambdas) #刻んだλごとに予測区間を調べる pred3.2 <- qpois(0.975, lambdas) plot(model3$fitted, tori) lines(lambdas, pred3.1, type = "b", col = 4, pch = 20) lines(lambdas, pred3.2, type = "b", col = 4, pch = 20) 20

ケース3(説明変数が複数ある場合) 結果の図 この2本の線より内側の部分が、95%予測区間。 <重要事項> ・しっかりと理解していないと、途中で何をしているのかわからなくなる。 ・この予測区間は過分散のチェックにも使える。 ・もし間違ったことが書いてあったら、被害者を増やさないためにもすぐに修正してほしい。 family = poisson 編 完 21

family = binomial 編 GLM(一般化線形モデル)は、“一般化”とつくだけあって、 いろいろな確率分布を扱うことができる。 ここでは、よく扱われる二項分布に従ったデータを題材として解説していく・・・予定だけど、時間がなく未完成。 有志による付け足しを望む(あるいは暇ができたら追加する) 基本的な考え方は family = poisson 編と共通しているはず。