一般化線形モデル(GLM) generalized linear Models

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
【MedR】第7回 東京大学医学系研究科 特任助教 倉橋一成.
数理統計学(第五回) 統計的推測とは? 浜田知久馬 数理統計学第5回.
Rによる回帰分析 高崎経済大学 宮田 庸一.
Pattern Recognition and Machine Learning 1.5 決定理論
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
確率・統計Ⅱ 第7回.
ベイズ的ロジスティックモデル に関する研究
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
誤差の二乗和の一次導関数 偏微分.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
ガウス過程による回帰 Gaussian Process Regression GPR
応用数理工学特論 期末発表 西口健太郎 渡邉崇充
相関分析.
データ解析 静岡大学工学部 安藤和敏
4章までのまとめ ー 計量経済学 ー.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
一般化線型モデル generalized linear model; GLM
第9章 混合モデルとEM 修士2年 北川直樹.
正規分布確率密度関数.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
顧客維持に関するモデル.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
ルンゲクッタ法 となる微分方程式の解を数値的に解く方法.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
尤度の比較と仮説検定とを比較する ~P値のことなど~
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
母分散の検定 母分散の比の検定 カイ2乗分布の応用
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
データ解析 静岡大学工学部 安藤和敏
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
データ解析 静岡大学工学部 安藤和敏
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
構造方程式ゼミナール 2012年11月14日-11月21日 構造方程式モデルの作成.
統計現象 高嶋 隆一 6/26/2019.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

一般化線形モデル(GLM) generalized linear Models 推定結果の確認と検定 Rで学ぶデータサイエンス10 一般化線形モデル 粕谷英一(2012) 共立出版

Generalized Linear Models  response variable ~ intercept + slope * explanatory variable   lm(y~ x + f ・・・),lm(y~x + f -1) (no intercept) Generalized Linear Model Model &Link function ~ intercept + slope * explanatory variable glm(y ~ x, data = d, family = poisson)

尤度(p12) ある確率分布でパラメータの値θが決まれば,データXの値xについてその値が得られる確率(確率密度)が計算できる. f(x|θ) R上では d確率分布名(x,θ)の形 #一様分布 (unif)の例 #確率密度関数のグラフ curve(dunif(x,min=0,max=2),xlim=c(-0.5,3),ylim=c(0,1),xlab="y",ylab="probability density") #ある値に対する確率密度の値はdunif関数 dunif(0.2, min=0,max=2.0) #分布関数,累積分布関数:変数がある値以下を取る確率:punif関数 curve(punif(x,min=0,max=2),xlim=c(-0.5,3),ylim=c(0,1),xlab="y",ylab="probability") #分位数(quantile)その値以下を取る確率がpであるような点の値,分布関数の逆関数 qunif(0.75,min=0,max=2.0) #乱数の発生:runif関数 ,乱数の個数とパラメータを与える runif(3,min=0, max=2.0)

尤度(p12) ある確率分布でパラメータの値θが決まれば,データXの値xについてその値が得られる確率(確率密度)が計算できる. f(x|θ) R上では d確率分布名(x,θ)の形 逆に,データX=xが与えられたとき,パラメータの値θに対して,その値xが得られる確率を尤度:ゆうど(likelihood)という.

二項分布の例と尤度関数 つぼのなかに赤球r個,白球w個あり,1つ取り出して色を記録して戻すことをn回繰り返す。 赤が出る回数Yがyを取る確率は,一つの母数φ=r/(r+w)を用いると,                        となる. 実際に赤が8回,白が2回でた場合には,そのことが起こる確率は,  で,これを母数φの関数と見なしたものを尤度関数L(φ)と呼ぶ.

二項分布の例と尤度関数 #二項分布の関数形:Rではdbinom barplot(dbinom(0:10,size=10,prob=0.6),ylab="probability",space=0, names=as.character(0:10), col="white") #赤が8回,白が2回でた場合の尤度関数L(φ) Lik <- function(phi) {dbinom(8,size=10,phi)} curve(Lik(x), 0, 1) #尤度関数の対数値を対数尤度関数(LogLikelihood) LLik <- function(phi) {log(dbinom(8,size=10,phi))} curve(LLik(x), 0.05, 0.95)

尤度の最大化(最尤推定) データがあり,確率分布の種類は決まっているが,パラメータ(母数)値がわからないとき。 得られているデータがもたらされる確率(尤度)が高いパラメータ値だったと考えるのが自然. 尤度が最大になるパラメータ値を推定値として使う. 赤が8回,白が2回でた場合の尤度関数  これを母数φで微分すると, 最大値はφ=8/10=0.8で取る. Lik <- function(phi) {dbinom(8,size=10,phi)} optimize(Lik,c(0,1),maximum=TRUE)

尤度の最大化(最尤推定) 赤が8回,白が2回でた場合の尤度関数, 対数尤度関数は, これを母数φで微分すると,  対数尤度関数は, これを母数φで微分すると, 最大値は最後の分子が0になる, φ=8/10=0.8で取る. LLik <- function(phi) {log(dbinom(8,size=10,phi))} optimize(LLik,c(0.01,0.99),maximum=TRUE)

スコア関数(尤度の微分) 尤度関数をパラメータで偏微分したものをスコア関数と呼ぶ 最尤推定値は,スコア関数=0の解. パラメータが複数あるときは,各パラメータに対するスコア関数=0の連立方程式を解く. #スコア関数の定義 Scor <- function(phi){phi^7*(1-phi)*(8-10*phi)} #スコア関数のグラフ curve(Scor(x),0,1) abline(h=0.0) #スコア関数の=0の数値解 uniroot(Scor, c(0.05,0.95))

3つの検定方法(p16) 2つのモデルを比較する 帰無仮説のモデル:パラメータが0(θo) 対立仮説のモデル:パラメータは最尤推定値 Wald検定:帰無仮説モデルが正しければ,最尤推定量はθoを中心とする正規分布に従うことを用いて,最尤推定値が得られる確率を計算する スコア検定:帰無仮説のモデルが正しければ,スコアの絶対値が大きくなる可能性が小さいことを利用 尤度比検定:帰無仮説のモデルと対立仮説のモデルの対数尤度の差が,カイ2乗分布に従うことを利用

3つの検定方法(p16) Wald検定:帰無仮説モデルが正しければ,最尤推定量はθoを中心とする正規分布に従うことを利用 スコア検定:帰無仮説のモデルが正しければ,スコアの絶対値が大きくなる可能性が小さいことを利用 尤度比検定:帰無仮説のモデルと対立仮説のモデルの対数尤度の差が,カイ2乗分布に従うことを利用 スコア検定  θoでの接線の傾き 対数尤度 説明変数が目的変数に対して「偶然」を超える効果を与えているかを検討する. その説明変数がないモデル(帰無モデル)でも十分起こりうる結果か?を確認. 尤度比検定 対数尤度の差 デビアンス 尤離度 2つのモデルの対数尤度の差の2倍 Wald検定 θの最尤推定値の離れ 帰無仮説 モデルでの値θo 最尤推定値 θML パラメータθ

予測の最適化とAIC(p18) 得られているデータに対する尤度について,説明変数を追加すると尤度は大きくなるか変わらない 全ての説明変数を使うと,得られているデータにはよく当てはまるものの,それに引きずられ,次の別の説明変数の値が新たに得られた時に目的変数の値を予測するには適切でない可能性がある。 赤池情報量基準(AIC)の小さいモデルを選ぶ AIC=-2×(そのモデルでの最大対数尤度)+2×(パラメータ数) パラメータの数を多く入れすぎない

Poisson Model (p49) (counting data of occurrence) Poisson Model for number of seeds of a plant, regressed on plant size and nutrification (p49) Maximize log-likelihood glm(y ~ x + f, data = d, family = poisson) #page 19 x1 <- c(6.5,3.8,3.4,2.4,3.0,5.5,2.4,6.6) x2 <- c(3.7,4.9,1.0,1.8,4.6,4.8,3.8,2.7) y1 <- c(8, 5, 2, 0, 1, 11, 4, 9) fit <- glm(y1~x1+x2, family=poisson) summary(fit) #説明変数の係数と切片 coef(fit) #目的変数値と,線形予測子の値 predict(fit, type="response") predict(fit, type="link") #説明変数値が異なる値の場合の予測値 predict(fit,newdata=data_new1,type="link")

推定結果の利用(p23) #page 19 x1 <- c(6.5,3.8,3.4,2.4,3.0,5.5,2.4,6.6) #残差 y1 <- c(8, 5, 2, 0, 1, 11, 4, 9) fit <- glm(y1~x1+x2, family=poisson) summary(fit) #説明変数の係数と切片 coef(fit) #目的変数値と,線形予測子の値 predict(fit, type=“response”) predict(fit, type=“link”) #説明変数値が異なる値の場合の予測値 predict(fit,newdata=data_new1,type=“link”) #残差 #目的変数観測値の残差 residuals(fit, type="response") #デビアンス誤差:デビアンスの平方根 residuals(fit, type="deviance") #ピアソン誤差:残差/分散の平方根 residuals(fit, type="pearson")

検定(p26) #Wald検定:summaryで表示される summary(fit) #尤度比検定:anovaを呼び出す anova(fit, test="Chisq") anova(fit, test="LRT") #スコア検定:anovaを呼び出す anova(fit, test="Rao") #AICの値 AIC(fit) extractAIC (fit)