ロジスティック回帰分析 with the assistance of Mr. M. Torii

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
グラフィカル多変量解析 ----目で見る共分散構造分析----
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
【MedR】第7回 東京大学医学系研究科 特任助教 倉橋一成.
Rによる回帰分析 高崎経済大学 宮田 庸一.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
重回帰分析入門 経済データ解析 2009年度.
実証分析の手順 経済データ解析 2011年度.
相関係数 植物生態学研究室木村 一也.
攻撃性尺度の分析:小学生vs中学生Ⅱ ---- 多母集団の同時分析&男女間の平均を調整 ----
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
Bassモデルにおける 最尤法を用いたパラメータ推定
重回帰分析入門 経済データ解析 2011年度.
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
メタボリック症候群(MetS)の有無と、成人以降の体重増加とCKDの関連
ベイズ的ロジスティックモデル に関する研究
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
第6章 数量化I類.
計算値が表の値より小さいので「異なるとは言えない」。
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
12月4日 伊藤 早紀 重回帰分析.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
需要の価格弾力性 価格の変化率と需要の変化率の比.
相関分析.
銀河物理学特論 I: 講義1-1:近傍宇宙の銀河の 統計的性質 Kauffmann et al
市場規模の予測.
4章までのまとめ ー 計量経済学 ー.
P-Valueについて.
顧客獲得.
一般化線型モデル generalized linear model; GLM
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
疫学概論 交絡 Lesson 17. バイアスと交絡 §A. 交絡 S.Harano, MD,PhD,MPH.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場規模の予測.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
部分的最小二乗回帰 Partial Least Squares Regression PLS
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロス表とχ2検定.
回帰分析(Regression Analysis)
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
データ解析 静岡大学工学部 安藤和敏
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
「カテゴリ変数2つの解析」 中澤 港 統計学第7回 「カテゴリ変数2つの解析」 中澤 港
相関分析 2次元データと散布図 共分散 相関係数.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
議論の前提 ある人獣共通感染症は、野生動物が感染源となって直接又は媒介動物を通じて人に感染を起こす。
回帰分析入門 経済データ解析 2011年度.
Presentation transcript:

ロジスティック回帰分析 with the assistance of Mr. M. Torii 二値データの回帰分析法

規準変数が二値の場合の 回帰分析 「成功・失敗」を原因系の変数で予測 「発症・非発症」を原因系の変数で予測 「賛成・反対」を原因系の変数で予測 「賛成・どちらでもない・反対」を「賛成する・賛成しない」の二値に落として原因系の 変数で予測

例:心疾患の発症 出展:丹後他(1996)ロジスティック回帰分析 原典(Truett et. al. 1967) n=2187, 男性 規準変数 冠状動脈性疾患の発症(12年後に発症したかどうか) 説明変数 年齢 コレステロール 血圧 相対体重 ヘモグロビン 喫煙 ECG所見

分析結果

普通に回帰分析しては いけないのか してはいけない 0・1変数を連続変数で予測するというモデルに無理がある y^=0.8, 1.5, -0.4のような予測値はどのように解釈すればよいか不明

では,どう考えるか 原因系変数が結果の生起確率P(Y=1)に 影響すると考えるのが自然 P(Y=1)=a+bxはどうか? ダメ 0.5→0.6とするための努力と0.85 → 0.95と するための努力には違いがある

では,どうするか そこで,生起(成功)確率を支配する実力という潜在変数(心理学的連続体)があり,それが正規分布すると仮定する さらに,その潜在変数が原因系の変数(説明変数)から影響を受けることを想定する

実力 成功する確率 失敗する確率 原因系の変数が実力に影響する

実力と成功確率 成功確率:50%⇒60% 成功確率:85%⇒95% 実力の増分:0.25 実力の増分:0.60

正規分布のロジット近似

ロジスティック回帰モデル  一般にある現象の発生する確率(割合)pを、その現象の生起を説明するために観測された変数群               で説明しようと考える場合、                 という状態のもとで現象が生起するという条件付き確率を   で表し、これを、 という関数Fを用いてモデル化する。

ロジスティック回帰モデル_2 つぎのFを用いてモデル化: 

ロジット(logit)

オッズ(odds)

オッズ比(odds ratio)

心疾患の例

なぜオッズ比か オッズ(odds) とは比のこと オッズ比...比の比 なぜ「比」だけではダメか

例     A薬 B薬 比  治癒  90 99 0.99/0.90=1.1 未治癒 10 1 0.01/0.10=0.1     A薬 B薬  治癒  50 55 0.55/0.50=1.1 未治癒 50 45 0.45/0.50=0.9 ? ?

解説 薬の効きを治癒率の比と未治癒率の比でみたものとが異なるのは矛盾 100名中治癒した割合は1割違うだけであるが,90→99と50→55とは評価は異なるべきであろう では,未治癒率で見ればよいということになるかもしれないが,数値が治癒率と未治癒率が入れ替わっているきは同じ問題が起こる

オッズ比でみると 治癒率のオッズ比は未治癒率のオッズ比の逆数 1の近くでの変化は中庸での変化より高く評価される 治癒率のオッズ比=2 未治癒率のオッズ比=0.5 1の近くでの変化は中庸での変化より高く評価される

例     A薬 B薬 オッズ比  治癒  90 99 未治癒 10 1     A薬 B薬  治癒  50 55 未治癒 50 45

補足 -種々のモデル式- プロビット回帰モデル complementary log-log回帰分析 ロジスティック回帰分析 ⇒標準正規分布関数 ⇒二重指標関数 ⇒ロジスティック関数

1.0 p 二重指数関数 (double exponential function) ロジスティック関数 (logistic function) 0.5 Z      標準正規分布関数 (standardized normal distribution function) 0.0 p:確率値 Z:変数の線形な合成変数

近似について 二重指数関数とロジスティック関数は標準正規分布関数の近似 ロジスティックが一般的だが,これといった理由はない オッズ比との相性のよさ どの近似を採用しても,データが存在する説明変数xの範囲の中では違いは小さい しかし,外挿するときは注意が必要 感度分析...3種類の関数で推定してみて大きな差がないことを確認する

具体的事例とSASによる分析

1986年NASAスペースシャトルCHALLENGER号爆発事故 事故調査班は原因は「O-ring」という部品の故障だと断定 また、調査班は事故につながる重要な要因として温度を取り上げている 過去のデータから、当時の温度から故障率を予測するとどのような結果になるか? O-ringは高温ガスが漏れて燃料ラインに侵入するのを防ぐための弁であり、通常6箇所に用いられている。

過去23回のスペースシャトル打ち上げ時の温度と 「O-ring」故障数(全6個中) 53 1 58 73 76 70 67 78 81 75 57 63 68 72 79 66 69

「故障数」は正規分布ではない

温度と故障率の散布図

SASプログラム- proc logistic- OPTIONS NOCENTER PS=54 LS=90; DATA d1; INPUT num nf no temp @@; CARDS; 1 2 6 53 2 0 6 66 3 0 6 68 4 1 6 70 5 0 6 75 6 0 6 78 7 1 6 57 8 0 6 67 9 0 6 69 10 1 6 70 11 2 6 75 12 0 6 79 13 1 6 58 14 0 6 67 15 0 6 70 16 0 6 72 17 0 6 76 18 0 6 81 19 1 6 63 20 0 6 67 21 0 6 70 22 0 6 73 23 0 6 76 ; PROC LOGISTIC DATA=d1; MODEL nf/no = temp / SCALE=NONE COVB PLRL LACKFIT; OUTPUT OUT=d2 C=COOK; PROC PRINT DATA=d2; RUN;

Details 従属変数に「故障数/全体の数」を指定 SCALE=NONE…適合度 PLRL…オッズ比とその区間推定 MODEL nf/no = temp / SCALE=NONE PLRL LACKFIT; OUTPUT OUT=d2 C=COOK; 従属変数に「故障数/全体の数」を指定 SCALE=NONE…適合度 PLRL…オッズ比とその区間推定 LACKFIT…いくつかのデータをまとめて,モデルによる予測頻度とデータの頻度との比較 C=COOK Cook統計量による回帰診断 分析に過度の影響があるobservationの同定

分析の吟味

SAS出力:適合度 ロジスティック関数と線型回帰モデルのよさを吟味 Deviance and Pearson Goodness-of-Fit Statistic                   Pr > Criterion DF Value Value/DF Chi-Square Deviance 21 18.0863 0.8613 0.6435 Pearson 21 29.9803 1.4276 0.0924 Number of events/trials observations: 23 モデルの適合度を調べる 統計量=デビアンス(のp値) 大きいほど良い

SAS出力:偏回帰係数 exp(-0.1156) Analysis of Maximum Likelihood Estimates           Parameter Standard Wald Pr > Standardized Odds Variable  DF Estimate Error  Chi-Square Chi-Square Estimate Ratio INTERCPT 1 5.0850 3.0525 2.7751 0.0957 . . temp 1 -0.1156 0.0470 6.0435 0.0140 -0.441494   0.891 回帰式 Estimated Covariance Matrix Variable INTERCPT TEMP INTERCPT 9.3176671947 -0.142565536 TEMP  -0.142565536 0.002211241

SAS出力:オッズ比の区間推定 Profile Likelihood Confidence Limits Odds Variable Unit Ratio Lower Upper temp 1.0000 0.891 0.809 0.970

SAS出力:予測の「よさ」をみる Association of Predicted Probabilities and Observed Responses Concordant = 65.4% Somers' D = 0.382 Discordant = 27.1% Gamma = 0.413 Tied = 7.5% Tau-a = 0.047 (1161 pairs) c = 0.691

順位相関係数 NF’と推定確率の順位相関係数をとったものがassociationの指標 NF’において, 1の数=2×2+1×5=9, 0の数=23 ×6-9 =129 である.Response で異なる値の組は 9×129=1161 となる NF’と推定確率の順位相関係数をとったものがassociationの指標

定義式

COOKの統計量 当分析に対する影響度の大きなobservation を同定する No.11 (t=75) は容疑者 OBS NUM NF NO TEMP COOK 1 1 2 6 53 0.29503 2 2 0 6 66 0.02790 3 3 0 6 68 0.02110 4 4 1 6 70 0.11088 5 5 0 6 75 0.01097 6 6 0 6 78 0.00799 7 7 1 6 57 0.00340 8 8 0 6 67 0.02395 9 9 0 6 69 0.01894 10 10 1 6 70 0.11088 11 11 2 6 75 1.41421 12 12 0 6 79 0.00712 13 13 1 6 58 0.00002 14 14 0 6 67 0.02395 15 15 0 6 70 0.01721 16 16 0 6 72 0.01443 17 17 0 6 76 0.00993 18 18 0 6 81 0.00555 19 19 1 6 63 0.02428 20 20 0 6 67 0.02395 21 21 0 6 70 0.01721 22 22 0 6 73 0.01322 23 23 0 6 76 0.00993 COOKの統計量 当分析に対する影響度の大きなobservation を同定する No.11 (t=75) は容疑者 分析者に都合のよいデータ除去は,慎むべき

分析結果の利用

回帰式の利用 Challenger が爆発したとき(t=31)の故障確率は? 回帰式のモデル: 温度が31。Fでの故障確率の点推定値 6つの「O-ring」のうち少なくとも1つが故障する確率

95%信頼区間

一つの問題点 t=31は,分析に使ったデータ範囲を越えている これを外挿(extrapolation) という 外挿をした場合は,その結果が採用した関数Fに大きく依存して変化することが少なくない.選んだ関数の理論的根拠が希薄な場合はなおさら

対策はどうするのか? 他に考えられる関数を適用してみて、結果がどの程度異なるかという感度分析をするのがよい。 この場合に考えられる候補としては プロビット回帰分析 complementary log-log回帰分析

感度分析 6個のうち少なくとも1つが 故障する確率 表2.温度31Fでの予測確率 Logistic probit comp.log-log 0.82 0.70 0.97 p(31) どの分析方法でも結果に大差が出ないという結果になった。 0.12-0.99 95% CI 0.16-0.99 0.19-1.00 Pr(少1|6) 1.000 0.999 1.000 0.71-1.00 95% CI 0.65-1.00 0.54-1.00

まとめ ロジスティック回帰分析は従属変数が 二値変数の時に用いる SAS,SPSS等で分析可能 3件法のデータを二値変数として分析する こともある 外挿の時は感度分析も忘れない プロビット回帰分析 Comp.log-log回帰分析   SAS,SPSS等で分析可能

文献 丹後・山岡・高木(1996).ロジスティック 回帰分析.朝倉書店