一般化線型モデル generalized linear model; GLM

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Qualitative Response Model. 被説明変数がダミー変数の回帰 例) MROZ.RAW 女性労働 –inlf 女性が外で働いていれば 1 ,そうでなけれ ば 0 –inlf=f( 家計所得,教育年数,年齢,子育て費 用) 推定方法 – 線型確率モデル (linear probability.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
一般化線形モデル(GLM) generalized linear Models
【MedR】第7回 東京大学医学系研究科 特任助教 倉橋一成.
Rによる回帰分析 高崎経済大学 宮田 庸一.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
補章 時系列モデル入門 ー 計量経済学 ー.
回帰分析 重回帰(1).
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
日本行動計量学会主催 第4回春の合宿セミナー
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
確率・統計Ⅱ 第7回.
回帰分析.
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
第2章補足Ⅱ 2項分布と正規分布についての補足
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
3章 Analysing averages and frequencies (前半 p )
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
ロジスティック回帰分析 with the assistance of Mr. M. Torii
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
補章 時系列モデル入門 ー 計量経済学 ー.
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
相関分析.
VII. 空間モデル.
4章までのまとめ ー 計量経済学 ー.
顧客獲得.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
顧客維持に関するモデル.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
部分的最小二乗回帰 Partial Least Squares Regression PLS
Rを使用したデータ解析・グラフ描き.
RでのScheffeの多重比較.
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「パレスチナ社会の民主主義的価値観」 報告のアウトライン はじめに 民主主義的価値観 仮説とデータ 検証1:パレスチナ社会における民主化の
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
RでのScheffeの多重比較.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
重回帰分析入門 (第5章補足) 統計学 2007年度.
統計現象 高嶋 隆一 6/26/2019.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

一般化線型モデル generalized linear model; GLM

一般化線型モデルとは 一般線型モデル(general linear model; GLM)という別ものがある 重回帰、分散分析、共分散分析、ロジスティック回帰、ポアソン回帰などが包含される統計モデル 応答変数がしたがう確率分布:正規分布、ガンマ分布、ポアソン分布、2項分布、逆ガウス分布(これらは、指数型分布族といわれる) リンク関数:説明変数の線形結合と応答変数の期待値の関係 モデルのあてはめ(パラメータの推定):最尤法 実際には、反復再重み付け最小二乗法iteratively reweighted least squares (IRWLS; 最尤法と同じ結果になる)が使われることが多い 一般線型モデル(general linear model; GLM)という別ものがある 重回帰、分散分析、共分散分析などが包含される統計モデル 応答変数がしたがう確率分布:正規分布 説明変数の線形結合がそのまま応答変数の期待値となる モデルのあてはめ(パラメータの推定):最小自乗法

確率関数 離散変数の場合:確率関数 この関数で確率が計算できる(下グラフの縦軸の値が確率になっている) 例: 2項分布、ポアソン分布など 2つのパラメータ(n, p)を持つ n: ベルヌーイ試行の回数、p: 成功確率 取り得る値:0からnまでの整数 例1:玉がたくさん入っている袋(白玉の割合p)からn個の玉を取り出すとき白玉の個数 例2:最初にn本ある樹木の内生き残る本数 ポアソン分布 パラメータλを1つもつ、λは平均かつ分散 所与の空間・時間の範囲内で事象が起こる回数 取り得る値:0から∞までの整数 例1:店の中の客の数 例1:1年間にプロットに発生する実生の数

確率密度関数 連続変数の場合:確率密度関数 下グラフの縦軸の値は確率ではない。 例:正規分布、ガンマ分布など 正規分布 以上4つはよく使うものなので、覚えておいてください。 正規分布 中央値、分散(広がり方を決めるパラメータ)をもつ -∞<x<∞ ガンマ分布 分布の形を決める2つのパラメータをもつ 様々な形 x>0で値を持つ

応答変数がしたがう確率分布 何を選ぶか?考えるべきこと 連続か離散か? マイナスの数字をとるか? 値に上限があるか(離散値)? 連続:胸高直径、樹高 →正規分布、ガンマ分布 離散:実生の数、ネズミの数 →ポアソン分布、2項分布 マイナスの数字をとるか? 負の数字にもなりうる、予測値が0に近づかない →正規分布 値に上限があるか(離散値)? 上限なし →ポアソン分布 上限あり (0,1の内どれかなど) →二項分布分布

リンク関数 説明変数の線形結合ηと応答変数の期待値μとの関係 x1, x2, … xp: 説明変数 η: 説明変数の線形結合 μ: 応答変数の分布の平均 限定された範囲の数字(正値、非負値、[0,1])しかとらない応答変数への対応 - ηは[-∞, ∞]の数字なので、ηがそのままμにすると問題が生じる 非直線的な反応、応答変数の変数変換がリンク関数で処理できる

例1 ポアソン回帰 応答変数がしたがう 確率分布:ポアソン分布 母シュート=60cmの時の確率 応答変数が正規分布にしたがうと仮定すると… 例1 ポアソン回帰 応答変数が正規分布にしたがうと仮定すると… あり得ない数(非整数、負の数)のシュートがある確率で生じることになる 応答変数がしたがう  確率分布:ポアソン分布

例1 ポアソン回帰 リンク関数:log-link (娘シュート数の平均)=exp(a(母シュート長)+b) 例1 ポアソン回帰 リンク関数:log-link (娘シュート数の平均)=exp(a(母シュート長)+b) こうすることで、娘シュート数の平均が負の数字になることをふせぐ。

canonical link function 正準連結関数 canonical link function: 数学的・計算的に便利で、多くの場合自然な選択(canonicalでないlinkも可能) 分布族(family) リンク(link) 正規分布(Normal)) η=μ ポアソン分布(Poisson) η=ln(μ) 2項分布(Binomial) η=ln(μ/(1-μ)) ガンマ分布(Gamma) η=μ-1 逆ガウス分布(Inverse Gaussian) η=μ-2

モデルのあてはまりの良さ r2(決定係数)は、応答変数が正規分布に従うときにのみ有効な指標 →もっと一般的な指標が必要 log likelihood(model fitの時に最大化するもの)を基礎にする。ただし、log likelihoodはデータ数によって大きさがかわる Deviance: log likelihoodに-2をかけた数字を基礎に計算した数値 null devianceとresidual devianceの二つの数字をみる… Null Deviance Deviance 対数尤度に-2を かけたもの Residual Deviance 飽和したモデルのDeviance 指定したモデルのDeviance 定数項のみのモデルのDeviance

GLMにおける仮説検定 尤度比検定(likelihood ratio test) 説明変数x1, x2,…xnを含むモデルをあてはめたときの最大尤度と説明変数の一部(例えば、x1,…,xp-1, xp+1 …xn)のみを含むモデル(部分モデル)の最大尤度の比を使う検定 変数(例えば、xp)をモデルからぬくことで尤度はどれだけ減少するか?減少が大きければ、抜いた変数の効果は有意である。

GLMにおける仮説検定 尤度比検定(likelihood ratio test) 尤度の比=対数尤度の差なので、対数尤度の差を使います。 帰無仮説(ぬいた変数の効果なし)のもとで、対数尤度の差にー2をかけたもの(尤度比検定統計量)がχ2分布(自由度:抜いた変数の個数)に近似的に従うことが分かっているので、尤度比検定統計量とχ2分布を比較し有意性を判定します。

GLMにおける仮説検定 個々の変数の有意性 →Wald検定 変数の推定値を変数推定値の標準誤差で割った値をχ2分布(自由度:1)と比較する。 この検定はあまり正確でないことが分かっています。

Rを使ったデータ処理 (データ準備+グラフ描き) L <- c( 113, 90, 57, 65, 62, 75, 80 ) shootNumber <- c( 6, 3, 1, 1, 2, 1, 2 ) plot( L, shootNumber, xlab="Shoot Length (cm)", ylab="Offspring Shoot Number" ) グラフ描き ()の中:横軸に使う変数、縦軸に使う変数、 xlab=横軸のラベルの文字列、 ylab =縦軸のラベルの文字列)

Rを使ったデータ処理 (モデルの当てはめ) poissonRegResult <- glm( formula = shootNumber ~ L, family = poisson( link = "log" ) ) #一般化線型モデルを当てはめるための関数glm()を使って、 #娘シュート数を母シュート長にポアソン回帰する。  #formula = offspringShootNumber ~ L  モデルを指定する #family = poisson( link = “log” )  応答変数がポアソン分布に従うことと #logリンク関数を使用することを指定する。 #結果は、 poissonRegResultというオブジェクトに代入する。 summary(poissonRegResult ) #poissonRegResultに入っている結果を要約して出力する。 coef( poissonRegResult ) #推定したパラメータを出力する ab

Summaryの中身 パラメータの推定値、標準誤差、推定値/標準誤差、Wald testの結果 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.78996 1.13438 -1.578 0.1146 L 0.03147 0.01239 2.541 0.0111 * パラメータの推定値、標準誤差、推定値/標準誤差、Wald testの結果 Null deviance: 7.18425 on 6 degrees of freedom Residual deviance: 0.96155 on 5 degrees of freedom AIC: 22.838 Null deviance:定数項のみのモデルと飽和したモデル(すべての応答変数が残差なく説明されるよう、応答変数の個数だけ説明変数を使ったモデル)の対数尤度の差に-2をかけたもの Residual deviance:指定したモデルと飽和したモデルの対数尤度の差に-2をかけたもの Null Deviance Deviance 対数尤度に-2を かけたもの Residual Deviance 飽和したモデルのDeviance 指定したモデルのDeviance 定数項のみのモデルのDeviance

Rを使ったデータ処理 (予測値のグラフへの追加) shootLength <- seq( 55, 125, length = 15 ) #55, 60, 65 … 115という数列を作る #最小55、最大125で長さ(数字の数)15の数列を作るの意 linearCombination <- coef( poissonRegResult )[ 1 ] + coef( poissonRegResult )[ 2 ] * shootLength #推定したパラメータを使って、55, 60, 65 … 115に対応した線型結合を作る pred <- exp( linearCombination ) #線型結合の指数(log-linkの逆数)を計算し、娘シュート数の予測値を計算する lines( shootLength, pred ) #shootLengthを横軸の値、 pred を縦軸の値とした折れ線をグラフに追加する

Rを使ったデータ処理 (尤度比検定) reducedModel <- update( poissonRegResult, ~.- L ) #poissonRegResultから変数Lを除いたモデルの当てはめを行い、 #結果をreducedModel に入れる。 summary( reducedModel ) #reducedModel の要約の出力 #null devianceとresidual devianceが等しくなっている anova( reducedModel, poissonRegResult, test = "Chi" ) #poissonRegResult、 reducedModelの対数尤度の差→尤度比検定 Model 1: offspringShootNumber ~ 1 Model 2: offspringShootNumber ~ L Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 6 7.1843 2 5 0.9616 1 6.2227 0.0126 2つのモデルに含まれている変数の数 2つのモデルのresidual devianceと両者の差(この差が尤度比検定統計量) χ2分布と比較して出したp-value

例2 ロジスティック回帰 応答変数がしたがう 確率分布:2項分布 x=10の時→p=0.17 n=1の試行をして、 例2 ロジスティック回帰 x=10の時→p=0.17 n=1の試行をして、 1回成功する確率は0.17 0回成功する(1回失敗する)確率は0.83 応答変数がしたがう  確率分布:2項分布

例2 ロジスティック回帰 リンク関数:logit-link こうすることで、pは[0, 1]に収まる

例2 ロジスティック回帰 データ準備・グラフ描き 例2 ロジスティック回帰 データ準備・グラフ描き survival <- c( rep( 0, 8 ), 1, rep( 0, 3 ), 1, 1, 0, 0, 1, 0, rep( 1, 12 ) ) size <- 1:30 plot( size, survival, xlab = "Size", ylab = "Survival", type = "p" )

Rを使ったデータ処理 (モデルの当てはめ) logisticRegResult <- glm( survival ~ size, family = binomial( link = "logit" ) #一般化線型モデルを当てはめるための関数glm()を使って、 #(生存or死亡)を個体サイズにロジスティック回帰する。  #survival ~ size モデルを指定する #family = binomial( link = “logit” ) 応答変数が二項分布に従うことと #logitリンク関数を使用することを指定する。 #結果は、 logisticRegResultというオブジェクトに代入する。 summary( logisticRegResult ) #logisticRegResultに入っている結果を要約して出力する。 coef( logisticRegResult ) #推定したパラメータを出力する ab

Summaryの中身 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -5.0527 1.8696 -2.703 0.00688 ** size 0.3487 0.1219 2.861 0.00422 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 41.455 on 29 degrees of freedom Residual deviance: 18.407 on 28 degrees of freedom AIC: 22.407 Null deviance:定数項のみのモデルと飽和したモデル(すべての応答変数が残差なく説明されるよう、応答変数の個数だけ説明変数を使ったモデル)の対数尤度の差に-2をかけたもの Residual deviance:指定したモデルと飽和したモデルの対数尤度の差に-2をかけたもの Null Deviance Deviance 対数尤度に-2を かけたもの Residual Deviance 飽和したモデルのDeviance 指定したモデルのDeviance 定数項のみのモデルのDeviance

Rを使ったデータ処理 (予測値のグラフへの追加) xForSize <- seq( from = 1, to = 30, length = 60 ) #1… 30という数列を作る #最小1、最大30で長さ(数字の数)60の数列を作るの意 linearCombination <- coef( logisticRegResult )[[ 1 ]]+ coef( logisticRegResult )[[ 2 ]] * xForSize #推定したパラメータを使って、1… 30に対応した線型結合を作る pred <- exp( linearCombination ) / ( exp( linearCombination ) + 1 ) #logistic関数(log-linkの逆数)に線型結合を代入し、生存率の予測値を計算する lines( xForSize, pred ) #xForSizeを横軸の値、 #pred を縦軸の値とした折れ線をグラフに追加する

Rを使ったデータ処理 (尤度比検定) reducedModel <- update( logisticRegResult , ~.- size ) #logisticRegResultから変数sizeを除いたモデルの当てはめを行い、 #結果をreducedModel に入れる。 summary( reducedModel ) #reducedModel の要約の出力 #null devianceとresidual devianceが等しくなっている anova( reducedModel, logisticRegResult, test = "Chi" ) #logisticRegResult、 reducedModelの対数尤度の差→尤度比検定 Model 1: survival ~ 1 Model 2: survival ~ size Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 29 41.455 2 28 18.407 1 23.048 1.58e-06 *** 2つのモデルに含まれている変数の数 2つのモデルのresidual devianceと両者の差(この差が尤度比検定統計量) χ2分布と比較して出したp-value

まとめ GLM: 重回帰、ロジスティック回帰、ポアソン回帰などを包括する一般的統計モデル GLM: link-functionを仮定する GLMのあてはめ、パラメータ推定: 最尤法 GLMにおける仮説検定: 尤度非検定 参考図書 「データ解析のための統計モデリング入門」 久保拓哉 著 岩波書店