Download presentation
Presentation is loading. Please wait.
1
ロジスティック回帰分析 with the assistance of Mr. M. Torii
二値データの回帰分析法
2
規準変数が二値の場合の 回帰分析 「成功・失敗」を原因系の変数で予測 「発症・非発症」を原因系の変数で予測
「賛成・反対」を原因系の変数で予測 「賛成・どちらでもない・反対」を「賛成する・賛成しない」の二値に落として原因系の 変数で予測
3
例:心疾患の発症 出展:丹後他(1996)ロジスティック回帰分析 原典(Truett et. al. 1967) n=2187, 男性
規準変数 冠状動脈性疾患の発症(12年後に発症したかどうか) 説明変数 年齢 コレステロール 血圧 相対体重 ヘモグロビン 喫煙 ECG所見
4
分析結果
5
普通に回帰分析しては いけないのか してはいけない 0・1変数を連続変数で予測するというモデルに無理がある
y^=0.8, 1.5, -0.4のような予測値はどのように解釈すればよいか不明
6
では,どう考えるか 原因系変数が結果の生起確率P(Y=1)に 影響すると考えるのが自然 P(Y=1)=a+bxはどうか? ダメ
0.5→0.6とするための努力と0.85 → 0.95と するための努力には違いがある
7
では,どうするか そこで,生起(成功)確率を支配する実力という潜在変数(心理学的連続体)があり,それが正規分布すると仮定する
さらに,その潜在変数が原因系の変数(説明変数)から影響を受けることを想定する
8
実力 成功する確率 失敗する確率 原因系の変数が実力に影響する
9
実力と成功確率 成功確率:50%⇒60% 成功確率:85%⇒95% 実力の増分: 実力の増分:0.60
10
正規分布のロジット近似
11
ロジスティック回帰モデル 一般にある現象の発生する確率(割合)pを、その現象の生起を説明するために観測された変数群 で説明しようと考える場合、 という状態のもとで現象が生起するという条件付き確率を で表し、これを、 という関数Fを用いてモデル化する。
12
ロジスティック回帰モデル_2 つぎのFを用いてモデル化:
13
ロジット(logit)
14
オッズ(odds)
15
オッズ比(odds ratio)
16
心疾患の例
17
なぜオッズ比か オッズ(odds) とは比のこと オッズ比...比の比 なぜ「比」だけではダメか
18
例 A薬 B薬 比 治癒 /0.90=1.1 未治癒 /0.10=0.1 A薬 B薬 治癒 /0.50=1.1 未治癒 /0.50=0.9 ? ?
19
解説 薬の効きを治癒率の比と未治癒率の比でみたものとが異なるのは矛盾
100名中治癒した割合は1割違うだけであるが,90→99と50→55とは評価は異なるべきであろう では,未治癒率で見ればよいということになるかもしれないが,数値が治癒率と未治癒率が入れ替わっているきは同じ問題が起こる
20
オッズ比でみると 治癒率のオッズ比は未治癒率のオッズ比の逆数 1の近くでの変化は中庸での変化より高く評価される
治癒率のオッズ比=2 未治癒率のオッズ比=0.5 1の近くでの変化は中庸での変化より高く評価される
21
例 A薬 B薬 オッズ比 治癒 未治癒 A薬 B薬 治癒 未治癒
22
補足 -種々のモデル式- プロビット回帰モデル complementary log-log回帰分析 ロジスティック回帰分析
⇒標準正規分布関数 ⇒二重指標関数 ⇒ロジスティック関数
23
1.0 p 二重指数関数 (double exponential function) ロジスティック関数 (logistic function) 0.5 Z 標準正規分布関数 (standardized normal distribution function) 0.0 p:確率値 Z:変数の線形な合成変数
24
近似について 二重指数関数とロジスティック関数は標準正規分布関数の近似 ロジスティックが一般的だが,これといった理由はない
オッズ比との相性のよさ どの近似を採用しても,データが存在する説明変数xの範囲の中では違いは小さい しかし,外挿するときは注意が必要 感度分析...3種類の関数で推定してみて大きな差がないことを確認する
25
具体的事例とSASによる分析
26
1986年NASAスペースシャトルCHALLENGER号爆発事故
事故調査班は原因は「O-ring」という部品の故障だと断定 また、調査班は事故につながる重要な要因として温度を取り上げている 過去のデータから、当時の温度から故障率を予測するとどのような結果になるか? O-ringは高温ガスが漏れて燃料ラインに侵入するのを防ぐための弁であり、通常6箇所に用いられている。
27
過去23回のスペースシャトル打ち上げ時の温度と 「O-ring」故障数(全6個中)
53 1 58 73 76 70 67 78 81 75 57 63 68 72 79 66 69
28
「故障数」は正規分布ではない
29
温度と故障率の散布図
30
SASプログラム- proc logistic-
OPTIONS NOCENTER PS=54 LS=90; DATA d1; INPUT num nf no temp CARDS; ; PROC LOGISTIC DATA=d1; MODEL nf/no = temp / SCALE=NONE COVB PLRL LACKFIT; OUTPUT OUT=d2 C=COOK; PROC PRINT DATA=d2; RUN;
31
Details 従属変数に「故障数/全体の数」を指定 SCALE=NONE…適合度 PLRL…オッズ比とその区間推定
MODEL nf/no = temp / SCALE=NONE PLRL LACKFIT; OUTPUT OUT=d2 C=COOK; 従属変数に「故障数/全体の数」を指定 SCALE=NONE…適合度 PLRL…オッズ比とその区間推定 LACKFIT…いくつかのデータをまとめて,モデルによる予測頻度とデータの頻度との比較 C=COOK Cook統計量による回帰診断 分析に過度の影響があるobservationの同定
32
分析の吟味
33
SAS出力:適合度 ロジスティック関数と線型回帰モデルのよさを吟味
Deviance and Pearson Goodness-of-Fit Statistic Pr > Criterion DF Value Value/DF Chi-Square Deviance Pearson Number of events/trials observations: 23 モデルの適合度を調べる 統計量=デビアンス(のp値) 大きいほど良い
34
SAS出力:偏回帰係数 exp(-0.1156) Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT temp 0.891 回帰式 Estimated Covariance Matrix Variable INTERCPT TEMP INTERCPT TEMP
35
SAS出力:オッズ比の区間推定 Profile Likelihood Confidence Limits Odds
Variable Unit Ratio Lower Upper temp
36
SAS出力:予測の「よさ」をみる Association of Predicted Probabilities and Observed Responses Concordant = 65.4% Somers' D = 0.382 Discordant = 27.1% Gamma = 0.413 Tied = 7.5% Tau-a = 0.047 (1161 pairs) c = 0.691
37
順位相関係数 NF’と推定確率の順位相関係数をとったものがassociationの指標 NF’において, 1の数=2×2+1×5=9,
0の数=23 ×6-9 =129 である.Response で異なる値の組は 9×129=1161 となる NF’と推定確率の順位相関係数をとったものがassociationの指標
38
定義式
39
COOKの統計量 当分析に対する影響度の大きなobservation を同定する No.11 (t=75) は容疑者
OBS NUM NF NO TEMP COOK COOKの統計量 当分析に対する影響度の大きなobservation を同定する No.11 (t=75) は容疑者 分析者に都合のよいデータ除去は,慎むべき
40
分析結果の利用
41
回帰式の利用 Challenger が爆発したとき(t=31)の故障確率は?
回帰式のモデル: 温度が31。Fでの故障確率の点推定値 6つの「O-ring」のうち少なくとも1つが故障する確率
42
95%信頼区間
43
一つの問題点 t=31は,分析に使ったデータ範囲を越えている これを外挿(extrapolation) という
外挿をした場合は,その結果が採用した関数Fに大きく依存して変化することが少なくない.選んだ関数の理論的根拠が希薄な場合はなおさら
44
対策はどうするのか? 他に考えられる関数を適用してみて、結果がどの程度異なるかという感度分析をするのがよい。
この場合に考えられる候補としては プロビット回帰分析 complementary log-log回帰分析
45
感度分析 6個のうち少なくとも1つが 故障する確率 表2.温度31Fでの予測確率 Logistic probit comp.log-log
0.82 0.70 0.97 p(31) どの分析方法でも結果に大差が出ないという結果になった。 95% CI Pr(少1|6) 1.000 0.999 1.000 95% CI
46
まとめ ロジスティック回帰分析は従属変数が 二値変数の時に用いる SAS,SPSS等で分析可能
3件法のデータを二値変数として分析する こともある 外挿の時は感度分析も忘れない プロビット回帰分析 Comp.log-log回帰分析 SAS,SPSS等で分析可能
47
文献 丹後・山岡・高木(1996).ロジスティック 回帰分析.朝倉書店
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.