Download presentation
Presentation is loading. Please wait.
1
因果をめぐる統計的アプローチ 日時:2003年1月25日(土)10:00-16:30
第78回行動計量シンポジウム 因果をめぐる統計的アプローチ 日時:2003年1月25日(土)10:00-16:30 於:東京大学教養学部 構造方程式モデルと因果 狩野 裕 (大阪大学 大学院人間学研究科)
2
Agenda 回帰分析からパス解析へ 因果と欠測:Rubinの枠組み Lordのパラドックスへの応用 まとめ
構造方程式モデル(SEM)による因果関係の発見と 確証に関わる問題点の整理と実践へのアドバイス
3
回帰分析からパス解析へ 直接効果と間接効果の評価
4
回帰分析の目的 回帰分析の目的は予測と因果構造の解明 近年は,予測に重点 予測 因果推論 (真の)因果の構造とは無関係
独立変数の取り込みすぎに注意 R2ではなく, Cp,AICを重要視 因果推論 回帰分析は極めて基本的・重要・有用な 統計的道具 近年は,予測に重点
5
回帰分析による因果推論(1) 要因(原因)の同定 交絡変数のコントロール 原因変数の候補から「真の」原因を同定
x1,x2,…xp を原因,yを結果としたときに,原因変数のyへの影響の大きさを評価する 他の原因変数が一定であるときに,当該変数の 変化がyへ影響する割合 交絡変数のコントロール
6
回帰分析による因果推論(2) 因果の方向には言及できない 独立変数間にも因果関係を設定する パス解析(SEM)がより有用
「Xが原因であった」とは言えない Xを説明変数に設定したのはあなた!! 独立変数間にも因果関係を設定する パス解析(SEM)がより有用
7
交絡変数とその制御 喫煙量 肺がん 発症率 ストレス ストレス 肺がん 発症率 喫煙量 喫煙量 肺がん 発症率
8
交絡変数と回帰分析 分野によって呼称が違う 回帰分析は交絡変数の制御に利用可能 回帰分析は未分析交絡変数の影響を 受ける
第三変数,剰余変数,二次変数,媒介変数,共変量 回帰分析は交絡変数の制御に利用可能 交絡変数を説明変数に加える 回帰分析は未分析交絡変数の影響を 受ける 観察研究の場合(無作為割付けでない場合)
9
第三変数とは 交絡変数 合流点 交絡変数 中間変数
10
回帰分析による因果推論 直接効果 a a a 総合効果 a+bc a a 単回帰分析 a+bc a+bc a 重回帰分析 a a ≠a
中間変数 交絡変数 合流点 直接効果 a a a 総合効果 a+bc a a 単回帰分析 a+bc a+bc a 重回帰分析 a a ≠a
11
複数個の第三変数 c e a d b X Y Z2 Z1 直接効果 a 総合効果 a+bc 単回帰分析X a+bc+de
重回帰分析X,Z1,Z2 a 重回帰分析X,Z2 a+bc
12
回帰分析からパス解析へ 単回帰分析と重回帰分析を組み合せると,直接効果と総合効果を同定することが可能
交絡変数の調整ができる パス図が真の因果関係を表すという仮定 そのためには第三変数Zの役割を正確に 掴むことが必要 説明変数間の関係も知る必要がある 従来の回帰分析よりも(SEMによる) パス解析が望ましい
13
パス解析で因果を評価できるのか 相関と因果 因果モデルの評価ができるのは大きなメリット 交絡変数のすべてをモデリングする
A:Xが大きい個体はYも大きい(個体間)...予測 B:Xを大きくするとYも大きくなる(個体内)...因果 一般に「A⇒B」とはならない 個体内の変化が個体間の変化で近似できる必要性 エルゴード性? 反例:交絡変数 因果モデルの評価ができるのは大きなメリット 他変数との関係を用いて適合度を算出 交絡変数のすべてをモデリングする 「A⇒B」を示すための(必要)条件 「すべて」を保証することは不可能 喫煙量 肺がん 発症率 ストレス
14
因果と欠測:Rubinの枠組み
15
Rubinの枠組み(1) コントロール群と処理群を比較する 例 記号 P[治癒(Y=1)|投薬なし] vs P[治癒(Y=1)|投薬あり]
体重Y|一般的な食事 vs 体重Y|特別な食事 記号 母集団:P 母集団の構成要素(unit):u Yx=0(u) vs Yx=1(u) X=0: control, X=1: treatment Unit-level Causal Effect
16
因果推論の基本的問題 Unit-level Causal Effect 同一患者に「投薬あり」と「投薬なし」の割付けは不可能 一方は必ず欠測
因果推論の基本的問題という(e.g., Holland 1986) (fundamental problem of causal inference)
17
Rubinの枠組み(2) Average Causal Effect 因果推論の基本的問題は依然として存在
EP[Yx=0] vs EP[Yx=1] Pのunit全部に「X=0 と X=1」 を割付ける 母因果効果とよんでもよいかも 因果推論の基本的問題は依然として存在 上記のような割付けは不可能 必ず欠測がある
18
データの構造と欠測 被験者番号 欠 測 z:共変量
19
Average Causal Effectの推定
推定可能性は欠測のあり方に依存 欠測のメカニズム or 割付けのメカニズムが 重要 無作為に欠測する場合は推定可能 MCAR X=0,1を無作為に割付けることと同等 MARの場合の推測はどのようにすればよいか
20
復習:欠測のパターン Missing Completely At Random (MCAR) Missing At Random (MAR)
どの値が欠測するかは完全にランダムである Missing At Random (MAR) どの値が欠測するかはデータに依存してもよいが, 欠測した値には依存しない 最尤法(FIML)の適用が薦められる Non‐ignorable Missing どの値が欠測するかが欠測した値にも依存する 欠測のメカニズムにモデリングが必要
21
Average Causal Effectの推定 ---MCARの場合---
X=0,1を無作為に割付ける(MCAR) 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 … 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 …
22
MARの例 単なる治癒率の比較に疑問 重症患者が投薬を選択 軽症患者は非投薬を選択 MCAR ではなく MAR Z:重症度 X:投薬?
Y:治癒? MCAR ではなく MAR
23
Average Causal Effectの推定 ---MARの場合---
strongly ignorable given z (Rosenbaum-Rubin,1983) zが与えられた下では Missing Completely At Random (無作為に)バランスよく X=0,1 が割付けられている X=0,1が,zにのみ依存しYには直接関係しない Missing At Random 最尤法が有効 Xは,Zからのみ直接的な影響を受ける ⇒MAR ⇒最尤法 | |
24
欠 測 最尤法
25
SEMとの関係 以下仮定のもとで解くのがSEM Y X=1,0 Z1 Z2 Zm … 多母集団の同時分析も可能
26
Rubinの因果推論の要点 コントロール群と処理(実験)群の比較 個人内の比較に基礎をおく 「コントロール」という概念が必ず必要
各群への曝露可能性が必要 属性変数は考慮外 個人内の比較に基礎をおく Unit-level Causal Effect Average Causal Effect 母集団の全ての構成要素に,全ての水準を 割付けるという仮想的な状況
27
欠測と因果のまとめ 割付けと欠測は同値 推測方法 SEMの役割 MCAR…無作為割付け MAR…割付けが第三変数zに影響される
strongly ignorable given z zが与えられた下で無作為割付け すべての交絡変数zが観測されている 推測方法 MCAR:zの影響は無視可能 MAR: 観測データに基づく最尤法 SEMの役割 MARの下で,基本的なモデルを提供 Y X=1,0 Z1 Z2 Zm …
28
Lord のパラドックスへの応用 Lord(1967) Psych. Bull. Holland & Rubin (1983)
Wainer (1991) Psych. Bull.
29
状況 大学寮の食事が寮生の体重に及ぼす 影響の性差を検討する データ 入寮時の体重と1年後の体重 男女
30
分析 Statistician 1: not significant Statistician 2: significant
体重(1年後)-体重(入寮) 男0女1 体重(1年後) 男0女1 体重(入寮)
31
散布図 1年後の体重 男 ・ ・ 女 0 入寮時の体重
32
記述的(予測)解釈 Statistician 1 Statistician 2 両者ともコントロール群が設定されていない
大学寮において体重の変化の平均に 性差はない Statistician 2 入寮時に体重が等しい男女において 1年後は男性の方がより重い 回帰効果 両者ともコントロール群が設定されていない 「入寮時に体重が等しい男女において1年後は男性の方が体重が重い」 というANCOVAの結論は,dieticianに意味のある情報だろうか.
33
Statistician 2の解釈 1年後の体重 男 ・ ・ 平均への回帰 女 0 入寮時の体重
34
記述的解釈の考察 回帰効果に強く依存するStat2の解釈は 受容できるか? 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し
重い学生は重いまま,軽い学生も軽いまま 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し 結論は寮固有のものか? 寮生以外でも同じ結論かも コントロール群との比較を考慮する 「因果」の検証が必要
35
Rubinの枠組み 母集団 当該大学の寮生 処理 寮の食事を摂取(x=1) コントロール 一般の食事を摂取(x=0)
母集団 当該大学の寮生 処理 寮の食事を摂取(x=1) コントロール 一般の食事を摂取(x=0) 割付け 全て寮の食事を摂取(x=1) データ 性別…. G=1,2(male or female) Y ……... 1年後の体重 Z ……... 入寮時の体重
36
Rubinの枠組みとStatistician1
Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 1 EP[Yx=1 -Z|男] vs EP[Yx=1 -Z|女] 暗に仮定されていたのは Yx=0 = Z
37
Rubinの枠組みとStatistician2
Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 2 EP[Yx=1 -(a+bZ)|男] vs EP[Yx=1 -(a+bZ)|女] 暗に仮定されていたのは Yx=0 = a+bZ
38
因果効果 コントロール群の仮定 因果効果が推定できる 両仮定とも現データからは検証不可能 仮定1: Yx=0 = Z
仮定2: Yx=0 = a+bZ 因果効果が推定できる 仮定1のもとで,大学寮の食事の体重への効果に ついて性差はない 仮定2のもとで,大学寮の食事の体重への効果に ついての性差は,そうでない食事と比して異なる 同一体重の男女が入寮すれば,男性の方がより重くなるが,その程度(性差)は一般の食事よりも大きい 両仮定とも現データからは検証不可能
39
Statistician 2の解釈 ・ ・ 平均への回帰 男 女 1年後の体重 0 入寮時の体重
コントロール群の平均は,入寮時の体重の平均で評価できる. 回帰式においてy^の平均は,説明変数の平均で評価できるからである. 女 0 入寮時の体重
40
2つの仮定(1) 両仮定とも現データからは検証不可能 Yx=0 = Z Yx=0 = a+bZ 他からの情報,または,納得・了解
実線:平均 破線:個体 青:男性 赤:女性 処理群の平均は入寮時のそれとおなじであるから, コントロール群との比較は,入寮時の平均と 比較すればよい 入寮時 1年後 入寮時 1年後 Yx=0 = Z Yx=0 = a+bZ
41
2つの仮定(2) Yx=0 := a+bZとすることの問題点 回帰効果の妥当性
aとbは,Yx=1をZの上へ回帰させて計算 入寮時 1年後
42
Lordのパラドックスのまとめ 記述的解釈の問題は小さい 寮外の食事との比較が必要なときは因果 効果の検討が必要
1:体重の変化量に性差はない 2:入寮時にzが同じ場合,男性の方がより高い 回帰効果の妥当性 記述的解釈の結論で目的を達するのか? 寮外の食事との比較が必要なときは因果 効果の検討が必要
43
因果効果の評価 両分析では,コントロール群に関する仮定が異なる 両仮定ともに不適切 1: Yx=0 = Z 2: Yx=0 = a+bZ
現データによる検証は不可能 仮定Yx=0 = a+bZについては回帰効果の 妥当性にも依存
44
まとめ 因果と予測はまったくの別物 交絡変数の統制 研究目的に合わせてどちらが必要かを検討
因果:同一個体において,Xを強制的に変化させる. 交絡変数の値は留まっている 予測:Xの値の違いは別の個体を意味.交絡変数の値は 異なる 交絡変数の統制 因果効果の評価は,交絡変数によって致命的な ダメージを受ける 回帰分析が重要な武器だが,パス解析がより有用
45
SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける
因果の評価は経時データが基本 実験は二時点の経時データ 横断的データしかとれないことがある 横断的データによる因果分析の手法もある 交絡変数が全てモデル化されているという強い仮定 SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける モデル構築の段階で,因果仮説を十分に吟味し, 重要な影響を与える変数を分析から落とさない データを採る前が大事 調査研究は積み重ねることが重要
46
Rubinの因果 コントロール群と処理群の比較 個人内の比較に基礎 各群への曝露可能性が必要 欠測データの分析理論(MAR)を援用
属性変数は対象外 連続原因変数は対象外 欠測データの分析理論(MAR)を援用
47
参考文献 Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley: New York Bullock, H. E., Harlow, L. L. & Mulaik, S. A. (1994). Causal issues in structural equation modeling research. Structural Equation Modeling, 1, Holland, P. W. (1986). Statistics and causal inference (with discussion). Journal of the American Statistical Association, 81, Holland, P. M. & Rubin, D. B. (1983). On Lord’s Paradox. In Principles of Modern Psychological Measurement (Wainer & Messick, Eds.), pp Erbaum. Lord, F. M. (1967). A paradox in the interpretation of group comparison. Psych. Bull. 68, Mulaik, S. A. & James, L. R. (1995). Objectivity and reasoning in science and structural equation modeling. In Structural Equation Modeling: Concepts, Issues, and Applications, (Hoyle, H., Ed.), pp Sage Publications: CA
48
Rosenbaum, P. R. & Rubin, D. B. (1983)
Rosenbaum, P. R. & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55 Wainer, H.(1991). Adjusting for differential base rate: Lord's paradox again. Psych. Bull. 109, 岩崎 学(2002). 不完全データの統計解析.エコノミスト社 狩野裕 (2002). 「構造方程式モデリング,因果推論,そして非正規性」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part II.岩波書店 佐藤俊哉・松山裕 (2002). 「疫学・臨床研究における因果推論」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part III.岩波書店 盛山和夫 (1986). 社会学における因果推論の問題 --- パスモデルにおけるloopをめぐって.行動計量学,14, 71-78 竹内啓(1986). 因果関係と統計的方法.行動計量学,14, 85-90 豊田秀樹(1998). 共分散構造分析[入門編].朝倉書店 宮川雅巳 (1997). グラフィカルモデリング.朝倉書店
49
おわり
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.