Download presentation
Presentation is loading. Please wait.
1
狩野 裕 大阪大学 大学院人間学研究科 行動データ科学研究分野
因果推論のための統計モデルとその推測法 &KBS京都 合同研究会 日時:2003年3月4日(火)13:30-17:30 於:京都大学医学部 構造方程式モデルと因果推論 狩野 裕 大阪大学 大学院人間学研究科 行動データ科学研究分野
2
Agenda 同値モデルと因果の方向 傾向スコア 因果と欠測:Rubinの枠組み まとめ (Lordのパラドックスへの応用)
3
同値モデルと因果の方向
4
相関係数から因果の方向は決まらない ---同値モデルの問題---
相関構造 データから区別できないモデルを同値モデルという 「区別できない」とは適合度が同一であることをいう
5
同値モデル例
6
因果の方向を決める: 操作変数法(Instrumental variable method)
相関構造 相関構造
7
因果の方向を決める:適合度との関係 適合度が低い 適合度が高い X→Y の因果関係が示唆される
8
操作変数法とは X,Yのいずれかに影響を及ぼし,他方への直接効果をもたない変数Z(操作変数)を観測する
X,Y,Zの相関構造から,X→Y or X←Y を判断する
9
双方向因果モデル(非逐次モデル)
10
例1:政治的社会化モデル 出典:Asher(1976). Causal Modeling. Sage
11
例2:Attractiveness implies perceived academic ability?
出展: AMOSマニュアル
12
双方向因果モデルの基礎仮定
13
双方向因果モデルの解釈
14
双方向因果モデルの基礎仮定 X,Yは,ある初期値(0)からスタートして, 相互に無限回,影響し合った結果である
影響の大きさは変化せずBである XとYの相互の影響関係が安定しているべき
15
構造方程式モデリングによる 因果の決定 因果の方向に興味があるとき 対立モデルが同値モデルにならないような モデリングが必要
当該モデルが適合する 対立モデルが適合しない 対立モデルが同値モデルにならないような モデリングが必要 そのための方法が操作変数(道具的変数)の導入
16
有効性 因果を決定したのか 因果の大きさ 三択である 本来は四択である 観察データ,横断的データの分析の限界 R2が小さいことがある
X→Y,X←Y,X←→Yのいずれか 本来は四択である X→Y,X←Y,X←→Y, 「因果関係にない」 観察データ,横断的データの分析の限界 交絡変数 縦断的データでは時間軸が利用できる 因果の大きさ R2が小さいことがある R2=0.1でもモデルは適合する XはYの「主要な」原因でとは言えない
17
例1:交絡変数はこわい 盛山(1986,行動計量学)
18
例2:因果方向決定にも影響 誤ってY→Xと結論してしまう
19
縦断的データの利用 2時点でデータをとり,時間差を利用する 民主主義⇒経済発展 or 経済発展⇒民主主義 Lord の パラドックス
直接差を取ることは良くない,という議論があるらしい.その理由を知りたい.
20
まとめ 横断的データに基づいて,因果の方向について言及するモデリングがある 縦断的データに基づくモデリングの方が説得性が高いと考えられている
X→Y or Y→ Xのモデルの適合度を比較する 同値モデルにならないようなモデリング 操作変数法 欠点 交絡変数の影響を無視し得ない 操作変数となるための条件が満足されているか 縦断的データに基づくモデリングの方が説得性が高いと考えられている
21
傾向スコア
22
傾向スコア 調査(or 実験)研究において 傾向スコア(propensity score) X:二値の原因変数 Y:結果変数(連続)
Z1,Z2,… :交絡変数 傾向スコア(propensity score) by Rosenbaum-Rubin (Biometrika, 1983) e(z)=E[X=1|Z1,Z2,…] X || Z | e(z)
23
傾向スコアの性質 治癒日数 投薬の 有無 Given e(Z1,Z2,…) 「Z→Y」の関係は線型に限らない
重症度 年齢 患者の 希望 … Given e(Z1,Z2,…) 「Z→Y」の関係は線型に限らない 「X→Y」の関係は傾向スコアに依存してもよい
24
傾向スコアと因果 治療日数 e(z)=0.8 e(z)=0.5 e(z)=0.2 X= X=1 非服用 服用
25
傾向スコアの利用 交絡変数zが多い場合はe(z)の利用が有効 e(z)の推定 strongly ignorableの仮定 サブグループ化
e(z)の値の近い被験者をグループ化してX=0,1を比較 マッチング e(z)の値の近い被験者でX=0とX=1を割付けられたものを 組にし,対応のあるデータの分析を行う e(z)の推定 ロジスティック回帰分析の利用 strongly ignorableの仮定 zを与えた下で,バランスがとれた割付けがなされている zがすべての交絡要因を含んでいる
26
構造方程式モデリングでは Z1 Y Z2 X=1,0 Zm 従属二値変数をプロビット法によってモデリング Mx, EQS, LISREL
… ただし,線型モデルが基本.
27
まとめ 傾向スコア SEM Z1 Y Z2 X=1,0 Zm 高次元の交絡変数zを1次元に落とす zからYへのモデリングが不要
マッチングやサブグループ化を容易にする zからYへのモデリングが不要 適切にモデリングできるなら,した方が良い SEM zを調整する基本モデルを提供 線型モデル zとXの交互作用は検出しない Y X=1,0 Z1 Z2 Zm …
28
因果と欠測:Rubinの枠組み
29
Rubinの枠組み(1) コントロール群と処理群を比較する 例 記号 P[治癒(Y=1)|投薬なし] vs P[治癒(Y=1)|投薬あり]
体重Y|一般的な食事 vs 体重Y|特別な食事 記号 母集団:P 母集団の構成要素(unit):u Yx=0(u) vs Yx=1(u) X=0: control, X=1: treatment Unit-level Causal Effect
30
因果推論の基本的問題 Unit-level Causal Effect 同一患者に「投薬あり」と「投薬なし」の割付けは不可能 一方は必ず欠測
因果推論の基本的問題という(e.g., Holland 1986) (fundamental problem of causal inference)
31
Rubinの枠組み(2) Average Causal Effect 因果推論の基本的問題は依然として存在
EP[Yx=0] vs EP[Yx=1] Pのunit全部に「X=0 と X=1」 を割付ける 母因果効果とよんでもよいかも 因果推論の基本的問題は依然として存在 上記のような割付けは不可能 必ず欠測がある
32
データの構造と欠測 被験者番号 欠 測 z:共変量
33
Average Causal Effectの推定
推定可能性は欠測のあり方に依存 欠測のメカニズム or 割付けのメカニズムが重要 無作為に欠測する場合は推定可能 MCAR X=0,1を無作為に割付けることと同等 MARの場合の推測は,どのようにすればよいか zの効果のモデリング すべての観測値に基づく最尤法
34
復習:欠測のパターン Missing Completely At Random (MCAR) Missing At Random (MAR)
どの値が欠測するかは完全にランダムである Missing At Random (MAR) どの値が欠測するかはデータに依存してもよいが, 欠測した値には依存しない 最尤法(FIML)の適用が薦められる Non‐ignorable Missing どの値が欠測するかが欠測した値にも依存する 欠測のメカニズムにモデリングが必要
35
欠測(割付け)のあり様 MAR MCAR X=0,1をZに応じて割付ける X=0,1を無作為に割付ける 治癒日数 投薬の 有無 治癒日数
重症度 年齢 患者の 希望 … 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 … MAR X=0,1をZに応じて割付ける MCAR X=0,1を無作為に割付ける
36
MARでは 単なる治癒率の比較に疑問 重症患者が投薬を選択 軽症患者は非投薬を選択 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 …
37
Average Causal Effectの推定 ---MARの場合---
strongly ignorable given z (Rosenbaum-Rubin,1983) zが与えられた下では Missing Completely At Random (無作為に)バランスよく X=0,1 が割付けられている X=0,1が,zにのみ依存しYには直接関係しない Missing At Random 最尤法が有効 Xは,Zからのみ直接的な影響を受ける ⇒MAR ⇒最尤法 | |
38
欠 測 最尤法
39
SEMとの関係 以下の仮定のもとで解くのがSEM Y X=1,0 Z1 Z2 Zm … 多母集団の同時分析も可能
40
Rubinの因果推論の要点 コントロール群と処理(実験)群の比較 個人内の比較に基礎をおく 「コントロール」という概念が必ず必要
各群への曝露可能性が必要 属性変数は考慮外 個人内の比較に基礎をおく Unit-level Causal Effect Average Causal Effect 母集団の全ての構成要素に,全ての水準を 割付けるという仮想的な状況
41
欠測と因果のまとめ 割付けと欠測は同値 推測方法 SEMの役割 MCAR…無作為割付け MAR…割付けが第三変数zに影響される
strongly ignorable given z zが与えられた下で無作為割付け すべての交絡変数zが観測されている 推測方法 MCAR:zの影響は無視可能 MAR: 観測データに基づく最尤法 SEMの役割 MARの下で,基本的なモデルを提供 Y X=1,0 Z1 Z2 Zm …
42
まとめ 因果と予測はまったくの別物 交絡変数の統制 研究目的に合わせてどちらが必要かを検討
因果:同一個体において,Xを強制的に変化させる. 交絡変数の値は留まっている 予測:Xの値の違いは別の個体を意味.交絡変数の値は 異なる 交絡変数の統制 因果効果の評価は,交絡変数によって致命的な ダメージを受ける 回帰分析が重要な武器だが,パス解析がより有用
43
SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける
因果の評価は経時データが基本 実験は二時点の経時データ 横断的データしかとれないことがある 横断的データによる因果分析の手法もある 交絡変数が全てモデル化されているという強い仮定 SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける モデル構築の段階で,因果仮説を十分に吟味し, 重要な影響を与える変数を分析から落とさない データを採る前が大事 調査研究は積み重ねることが重要
44
Rubinの因果 コントロール群と処理群の比較 個人内の比較に基礎 各群への曝露可能性が必要 欠測データの分析理論(MAR)を援用
属性変数は対象外 連続原因変数は対象外 欠測データの分析理論(MAR)を援用
45
参考文献 Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley: New York Bullock, H. E., Harlow, L. L. & Mulaik, S. A. (1994). Causal issues in structural equation modeling research. Structural Equation Modeling, 1, Holland, P. W. (1986). Statistics and causal inference (with discussion). Journal of the American Statistical Association, 81, Holland, P. M. & Rubin, D. B. (1983). On Lord’s Paradox. In Principles of Modern Psychological Measurement (Wainer & Messick, Eds.), pp Erbaum. Lord, F. M. (1967). A paradox in the interpretation of group comparison. Psych. Bull. 68, Mulaik, S. A. & James, L. R. (1995). Objectivity and reasoning in science and structural equation modeling. In Structural Equation Modeling: Concepts, Issues, and Applications, (Hoyle, H., Ed.), pp Sage Publications: CA
46
Rosenbaum, P. R. & Rubin, D. B. (1983)
Rosenbaum, P. R. & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55 Wainer, H.(1991). Adjusting for differential base rate: Lord's paradox again. Psych. Bull. 109, 岩崎 学(2002). 不完全データの統計解析.エコノミスト社 狩野裕 (2002). 「構造方程式モデリング,因果推論,そして非正規性」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part II.岩波書店 佐藤俊哉・松山裕 (2002). 「疫学・臨床研究における因果推論」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part III.岩波書店 盛山和夫 (1986). 社会学における因果推論の問題 --- パスモデルにおけるloopをめぐって.行動計量学,14, 71-78 竹内啓(1986). 因果関係と統計的方法.行動計量学,14, 85-90 豊田秀樹(1998). 共分散構造分析[入門編].朝倉書店 宮川雅巳 (1997). グラフィカルモデリング.朝倉書店
47
MARについての補遺 Missing At Random (MAR)
どの値が欠測するかはデータに依存しても よいが,欠測した値には依存しない 最尤法(FIML)の適用が薦められる
48
おわり
49
Lord のパラドックスへの応用 Lord(1967) Psych. Bull. Holland & Rubin (1983)
Wainer (1991) Psych. Bull.
50
状況 大学寮の食事が寮生の体重に及ぼす 影響の性差を検討する データ 入寮時の体重と1年後の体重 男女
51
分析 Statistician 1: not significant Statistician 2: significant
体重(1年後)-体重(入寮) 男0女1 体重(1年後) 男0女1 体重(入寮)
52
散布図 1年後の体重 男 ・ ・ 女 0 入寮時の体重
53
記述的(予測)解釈 Statistician 1 Statistician 2 両者ともコントロール群が設定されていない
大学寮において体重の変化の平均に 性差はない Statistician 2 入寮時に体重が等しい男女において 1年後は男性の方がより重い 回帰効果 両者ともコントロール群が設定されていない 「入寮時に体重が等しい男女において1年後は男性の方が体重が重い」 というANCOVAの結論は,dieticianに意味のある情報だろうか.
54
Statistician 2の解釈 1年後の体重 男 ・ ・ 平均への回帰 女 0 入寮時の体重
55
記述的解釈の考察 回帰効果に強く依存するStat2の解釈は 受容できるか? 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し
重い学生は重いまま,軽い学生も軽いまま 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し 結論は寮固有のものか? 寮生以外でも同じ結論かも コントロール群との比較を考慮する 「因果」の検証が必要
56
Rubinの枠組み 母集団 当該大学の寮生 処理 寮の食事を摂取(x=1) コントロール 一般の食事を摂取(x=0)
母集団 当該大学の寮生 処理 寮の食事を摂取(x=1) コントロール 一般の食事を摂取(x=0) 割付け 全て寮の食事を摂取(x=1) データ 性別…. G=1,2(male or female) Y ……... 1年後の体重 Z ……... 入寮時の体重
57
Rubinの枠組みとStatistician1
Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 1 EP[Yx=1 -Z|男] vs EP[Yx=1 -Z|女] 暗に仮定されていたのは Yx=0 = Z
58
Rubinの枠組みとStatistician2
Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 2 EP[Yx=1 -(a+bZ)|男] vs EP[Yx=1 -(a+bZ)|女] 暗に仮定されていたのは Yx=0 = a+bZ
59
因果効果 コントロール群の仮定 因果効果が推定できる 両仮定とも現データからは検証不可能 仮定1: Yx=0 = Z
仮定2: Yx=0 = a+bZ 因果効果が推定できる 仮定1のもとで,大学寮の食事の体重への効果に ついて性差はない 仮定2のもとで,大学寮の食事の体重への効果に ついての性差は,そうでない食事と比して異なる 同一体重の男女が入寮すれば,男性の方がより重くなるが,その程度(性差)は一般の食事よりも大きい 両仮定とも現データからは検証不可能
60
Statistician 2の解釈 ・ ・ 平均への回帰 男 女 1年後の体重 0 入寮時の体重
コントロール群の平均は,入寮時の体重の平均で評価できる. 回帰式においてy^の平均は,説明変数の平均で評価できるからである. 女 0 入寮時の体重
61
2つの仮定(1) 両仮定とも現データからは検証不可能 Yx=0 = Z Yx=0 = a+bZ 他からの情報,または,納得・了解
実線:平均 破線:個体 青:男性 赤:女性 処理群の平均は入寮時のそれとおなじであるから, コントロール群との比較は,入寮時の平均と 比較すればよい 入寮時 1年後 入寮時 1年後 Yx=0 = Z Yx=0 = a+bZ
62
2つの仮定(2) Yx=0 := a+bZとすることの問題点 回帰効果の妥当性
aとbは,Yx=1をZの上へ回帰させて計算 入寮時 1年後
63
Lordのパラドックスのまとめ 記述的解釈の問題は小さい 寮外の食事との比較が必要なときは因果 効果の検討が必要
1:体重の変化量に性差はない 2:入寮時にzが同じ場合,男性の方がより高い 回帰効果の妥当性 記述的解釈の結論で目的を達するのか? 寮外の食事との比較が必要なときは因果 効果の検討が必要
64
因果効果の評価 両分析では,コントロール群に関する仮定が異なる 両仮定ともに不適切 1: Yx=0 = Z 2: Yx=0 = a+bZ
現データによる検証は不可能 仮定Yx=0 = a+bZについては回帰効果の 妥当性にも依存
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.