因果をめぐる統計的アプローチ 日時:2003年1月25日(土)10:00-16:30

Slides:



Advertisements
Similar presentations
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Advertisements

2016 年度 計量経済学 講義内容 担当者: 河田 正樹
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
入門B・ミクロ基礎 (第4回) 第2章 2014年10月13日 2014/10/13.
グラフィカル多変量解析 ----目で見る共分散構造分析----
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
疫学概論 時系列研究 Lesson 11. 記述疫学 §B. 時系列研究 S.Harano,MD,PhD,MPH.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
パネル分析について 中村さやか.
【MedR】第12回 東京大学医学系研究科 特任助教 倉橋一成.
検定 P.137.
重回帰分析入門 経済データ解析 2009年度.
実証分析の手順 経済データ解析 2011年度.
攻撃性尺度の分析:小学生vs中学生Ⅱ ---- 多母集団の同時分析&男女間の平均を調整 ----
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
コメント 狩野 裕 大阪大学人間科学部 日本心理学会ワークショップ 「探索的因子分析における変数の選択(3)」
第5回(5/10) 授業の学習目標 1.1.5節 検定の前提とその適否について考えよう(テキスト輪読 p.10から p.11)
第37回日本看護研究学会学術集会 シンポジウムII 20011/8/8(月)(デブの日)14:40~16:40 中山和弘(聖路加看護大学)
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
重回帰分析入門 経済データ解析 2011年度.
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
日本行動計量学会第29回大会 於:甲子園大学 (2001/9/14-16)
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
SEMFAQ: 共分散構造分析に関する10の質問
第5章 回帰分析入門 統計学 2006年度.
統計学 第1週 9/27(木) 担当:鈴木智也.
12月4日 伊藤 早紀 重回帰分析.
Study Design and Statistical Analysis
ワークショップ ユーザーとメーカーの公開相談会
Stataによる トリートメント効果の推定
於:科学警察研究所 日時:2003年3月17日 SEMと犯罪心理学研究 II 狩野 裕 大阪大学 大学院人間科学研究科.
構造方程式モデリング(SEM) Structural Equation Modeling.
離婚が出生数に与える影響 -都道府県データを用いた計量分析
平均構造モデル・多母集団の同時分析 実験データの分析 潜在曲線モデル
相関分析.
データ解析 静岡大学工学部 安藤和敏
第6章 連立方程式モデル ー 計量経済学 ー.
狩野 裕 大阪大学 大学院人間学研究科 行動データ科学研究分野
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
疫学概論 交絡 Lesson 17. バイアスと交絡 §A. 交絡 S.Harano, MD,PhD,MPH.
多母集団の同時分析 豊本満喜子 大阪大学人間科学部.
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
数量分析 第2回 データ解析技法とソフトウェア
予測に用いる数学 2004/05/07 ide.
東京工科大学 コンピュータサイエンス学部 亀田弘之
尺度化について 狩野 裕 大阪大学人間科学部.
再討論 狩野裕 (大阪大学人間科学部).
対応のある共分散分散行列の同時分析 ーー 震災ストレスデータの同時分析 ーー
第3章補足2 多変量データの記述 統計学基礎 2010年度.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
データ解析 静岡大学工学部 安藤和敏
クロス表とχ2検定.
データ解析 静岡大学工学部 安藤和敏
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
疫学概論 時系列研究 Lesson 11. 記述疫学 §B. 時系列研究 S.Harano,MD,PhD,MPH.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成.
Presentation transcript:

因果をめぐる統計的アプローチ 日時:2003年1月25日(土)10:00-16:30 第78回行動計量シンポジウム 因果をめぐる統計的アプローチ 日時:2003年1月25日(土)10:00-16:30 於:東京大学教養学部 構造方程式モデルと因果 狩野 裕 (大阪大学 大学院人間学研究科)

Agenda 回帰分析からパス解析へ 因果と欠測:Rubinの枠組み Lordのパラドックスへの応用 まとめ 構造方程式モデル(SEM)による因果関係の発見と 確証に関わる問題点の整理と実践へのアドバイス

回帰分析からパス解析へ 直接効果と間接効果の評価

回帰分析の目的 回帰分析の目的は予測と因果構造の解明 近年は,予測に重点 予測 因果推論 (真の)因果の構造とは無関係 独立変数の取り込みすぎに注意 R2ではなく, Cp,AICを重要視 因果推論 回帰分析は極めて基本的・重要・有用な 統計的道具 近年は,予測に重点

回帰分析による因果推論(1) 要因(原因)の同定 交絡変数のコントロール 原因変数の候補から「真の」原因を同定 x1,x2,…xp を原因,yを結果としたときに,原因変数のyへの影響の大きさを評価する 他の原因変数が一定であるときに,当該変数の 変化がyへ影響する割合 交絡変数のコントロール

回帰分析による因果推論(2) 因果の方向には言及できない 独立変数間にも因果関係を設定する パス解析(SEM)がより有用 「Xが原因であった」とは言えない Xを説明変数に設定したのはあなた!! 独立変数間にも因果関係を設定する パス解析(SEM)がより有用

交絡変数とその制御 喫煙量 肺がん 発症率 ストレス ストレス 肺がん 発症率 喫煙量 喫煙量 肺がん 発症率

交絡変数と回帰分析 分野によって呼称が違う 回帰分析は交絡変数の制御に利用可能 回帰分析は未分析交絡変数の影響を 受ける 第三変数,剰余変数,二次変数,媒介変数,共変量 回帰分析は交絡変数の制御に利用可能 交絡変数を説明変数に加える 回帰分析は未分析交絡変数の影響を 受ける 観察研究の場合(無作為割付けでない場合)

第三変数とは 交絡変数 合流点 交絡変数 中間変数

回帰分析による因果推論 直接効果 a a a 総合効果 a+bc a a 単回帰分析 a+bc a+bc a 重回帰分析 a a ≠a 中間変数   交絡変数    合流点 直接効果 a a a 総合効果 a+bc a a 単回帰分析 a+bc a+bc a 重回帰分析 a a ≠a

複数個の第三変数 c e a d b X Y Z2 Z1 直接効果 a 総合効果 a+bc 単回帰分析X a+bc+de 重回帰分析X,Z1,Z2 a 重回帰分析X,Z2 a+bc

回帰分析からパス解析へ 単回帰分析と重回帰分析を組み合せると,直接効果と総合効果を同定することが可能 交絡変数の調整ができる パス図が真の因果関係を表すという仮定 そのためには第三変数Zの役割を正確に 掴むことが必要 説明変数間の関係も知る必要がある 従来の回帰分析よりも(SEMによる) パス解析が望ましい

パス解析で因果を評価できるのか 相関と因果 因果モデルの評価ができるのは大きなメリット 交絡変数のすべてをモデリングする A:Xが大きい個体はYも大きい(個体間)...予測 B:Xを大きくするとYも大きくなる(個体内)...因果 一般に「A⇒B」とはならない 個体内の変化が個体間の変化で近似できる必要性 エルゴード性? 反例:交絡変数 因果モデルの評価ができるのは大きなメリット 他変数との関係を用いて適合度を算出 交絡変数のすべてをモデリングする 「A⇒B」を示すための(必要)条件 「すべて」を保証することは不可能 喫煙量 肺がん 発症率 ストレス

因果と欠測:Rubinの枠組み

Rubinの枠組み(1) コントロール群と処理群を比較する 例 記号 P[治癒(Y=1)|投薬なし] vs P[治癒(Y=1)|投薬あり] 体重Y|一般的な食事 vs 体重Y|特別な食事 記号 母集団:P 母集団の構成要素(unit):u Yx=0(u) vs Yx=1(u) X=0: control, X=1: treatment Unit-level Causal Effect

因果推論の基本的問題 Unit-level Causal Effect 同一患者に「投薬あり」と「投薬なし」の割付けは不可能 一方は必ず欠測 因果推論の基本的問題という(e.g., Holland 1986) (fundamental problem of causal inference)

Rubinの枠組み(2) Average Causal Effect 因果推論の基本的問題は依然として存在 EP[Yx=0] vs EP[Yx=1] Pのunit全部に「X=0 と X=1」 を割付ける 母因果効果とよんでもよいかも 因果推論の基本的問題は依然として存在 上記のような割付けは不可能 必ず欠測がある

データの構造と欠測 被験者番号 欠 測 z:共変量

Average Causal Effectの推定 推定可能性は欠測のあり方に依存 欠測のメカニズム or 割付けのメカニズムが 重要 無作為に欠測する場合は推定可能 MCAR X=0,1を無作為に割付けることと同等 MARの場合の推測はどのようにすればよいか

復習:欠測のパターン Missing Completely At Random (MCAR) Missing At Random (MAR) どの値が欠測するかは完全にランダムである Missing At Random (MAR) どの値が欠測するかはデータに依存してもよいが, 欠測した値には依存しない 最尤法(FIML)の適用が薦められる Non‐ignorable Missing どの値が欠測するかが欠測した値にも依存する 欠測のメカニズムにモデリングが必要

Average Causal Effectの推定 ---MCARの場合--- X=0,1を無作為に割付ける(MCAR) 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 … 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 …

MARの例 単なる治癒率の比較に疑問 重症患者が投薬を選択 軽症患者は非投薬を選択 MCAR ではなく MAR Z:重症度 X:投薬? Y:治癒? MCAR ではなく MAR

Average Causal Effectの推定 ---MARの場合--- strongly ignorable given z (Rosenbaum-Rubin,1983) zが与えられた下では Missing Completely At Random (無作為に)バランスよく X=0,1 が割付けられている X=0,1が,zにのみ依存しYには直接関係しない Missing At Random 最尤法が有効 Xは,Zからのみ直接的な影響を受ける ⇒MAR ⇒最尤法 | | 

欠 測 最尤法

SEMとの関係 以下仮定のもとで解くのがSEM Y X=1,0 Z1 Z2 Zm … 多母集団の同時分析も可能

Rubinの因果推論の要点 コントロール群と処理(実験)群の比較 個人内の比較に基礎をおく 「コントロール」という概念が必ず必要 各群への曝露可能性が必要 属性変数は考慮外 個人内の比較に基礎をおく Unit-level Causal Effect Average Causal Effect 母集団の全ての構成要素に,全ての水準を 割付けるという仮想的な状況

欠測と因果のまとめ 割付けと欠測は同値 推測方法 SEMの役割 MCAR…無作為割付け MAR…割付けが第三変数zに影響される strongly ignorable given z zが与えられた下で無作為割付け すべての交絡変数zが観測されている 推測方法 MCAR:zの影響は無視可能 MAR: 観測データに基づく最尤法 SEMの役割 MARの下で,基本的なモデルを提供 Y X=1,0 Z1 Z2 Zm …

Lord のパラドックスへの応用 Lord(1967) Psych. Bull. Holland & Rubin (1983) Wainer (1991) Psych. Bull.

状況 大学寮の食事が寮生の体重に及ぼす 影響の性差を検討する データ 入寮時の体重と1年後の体重 男女

分析 Statistician 1: not significant Statistician 2: significant 体重(1年後)-体重(入寮) 男0女1 体重(1年後) 男0女1 体重(入寮)

散布図 1年後の体重 男 ・ ・ 女 0 入寮時の体重

記述的(予測)解釈 Statistician 1 Statistician 2 両者ともコントロール群が設定されていない 大学寮において体重の変化の平均に 性差はない Statistician 2 入寮時に体重が等しい男女において 1年後は男性の方がより重い 回帰効果 両者ともコントロール群が設定されていない 「入寮時に体重が等しい男女において1年後は男性の方が体重が重い」 というANCOVAの結論は,dieticianに意味のある情報だろうか.

Statistician 2の解釈 1年後の体重 男 ・ ・ 平均への回帰 女 0 入寮時の体重

記述的解釈の考察 回帰効果に強く依存するStat2の解釈は 受容できるか? 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し 重い学生は重いまま,軽い学生も軽いまま 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し 結論は寮固有のものか? 寮生以外でも同じ結論かも コントロール群との比較を考慮する 「因果」の検証が必要

Rubinの枠組み 母集団 当該大学の寮生 処理 寮の食事を摂取(x=1) コントロール 一般の食事を摂取(x=0) 母集団  当該大学の寮生 処理  寮の食事を摂取(x=1) コントロール  一般の食事を摂取(x=0) 割付け  全て寮の食事を摂取(x=1) データ 性別…. G=1,2(male or female) Y ……... 1年後の体重 Z ……... 入寮時の体重

Rubinの枠組みとStatistician1 Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 1 EP[Yx=1 -Z|男] vs EP[Yx=1 -Z|女] 暗に仮定されていたのは Yx=0 = Z

Rubinの枠組みとStatistician2 Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 2 EP[Yx=1 -(a+bZ)|男] vs EP[Yx=1 -(a+bZ)|女] 暗に仮定されていたのは Yx=0 = a+bZ

因果効果 コントロール群の仮定 因果効果が推定できる 両仮定とも現データからは検証不可能 仮定1: Yx=0 = Z 仮定2: Yx=0 = a+bZ 因果効果が推定できる 仮定1のもとで,大学寮の食事の体重への効果に ついて性差はない 仮定2のもとで,大学寮の食事の体重への効果に ついての性差は,そうでない食事と比して異なる 同一体重の男女が入寮すれば,男性の方がより重くなるが,その程度(性差)は一般の食事よりも大きい 両仮定とも現データからは検証不可能

Statistician 2の解釈 ・ ・ 平均への回帰 男 女 1年後の体重 0 入寮時の体重 コントロール群の平均は,入寮時の体重の平均で評価できる. 回帰式においてy^の平均は,説明変数の平均で評価できるからである. 女 0 入寮時の体重

2つの仮定(1) 両仮定とも現データからは検証不可能 Yx=0 = Z Yx=0 = a+bZ 他からの情報,または,納得・了解 実線:平均 破線:個体 青:男性 赤:女性 処理群の平均は入寮時のそれとおなじであるから, コントロール群との比較は,入寮時の平均と 比較すればよい 入寮時    1年後 入寮時    1年後 Yx=0 = Z          Yx=0 = a+bZ

2つの仮定(2) Yx=0 := a+bZとすることの問題点 回帰効果の妥当性 aとbは,Yx=1をZの上へ回帰させて計算 入寮時    1年後

Lordのパラドックスのまとめ 記述的解釈の問題は小さい 寮外の食事との比較が必要なときは因果 効果の検討が必要 1:体重の変化量に性差はない 2:入寮時にzが同じ場合,男性の方がより高い 回帰効果の妥当性 記述的解釈の結論で目的を達するのか? 寮外の食事との比較が必要なときは因果 効果の検討が必要

因果効果の評価 両分析では,コントロール群に関する仮定が異なる 両仮定ともに不適切 1: Yx=0 = Z 2: Yx=0 = a+bZ 現データによる検証は不可能 仮定Yx=0 = a+bZについては回帰効果の 妥当性にも依存

まとめ 因果と予測はまったくの別物 交絡変数の統制 研究目的に合わせてどちらが必要かを検討 因果:同一個体において,Xを強制的に変化させる. 交絡変数の値は留まっている 予測:Xの値の違いは別の個体を意味.交絡変数の値は 異なる 交絡変数の統制 因果効果の評価は,交絡変数によって致命的な ダメージを受ける 回帰分析が重要な武器だが,パス解析がより有用

SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける 因果の評価は経時データが基本 実験は二時点の経時データ 横断的データしかとれないことがある 横断的データによる因果分析の手法もある 交絡変数が全てモデル化されているという強い仮定 SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける モデル構築の段階で,因果仮説を十分に吟味し, 重要な影響を与える変数を分析から落とさない データを採る前が大事 調査研究は積み重ねることが重要

Rubinの因果 コントロール群と処理群の比較 個人内の比較に基礎 各群への曝露可能性が必要 欠測データの分析理論(MAR)を援用 属性変数は対象外 連続原因変数は対象外 欠測データの分析理論(MAR)を援用

参考文献 Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley: New York Bullock, H. E., Harlow, L. L. & Mulaik, S. A. (1994). Causal issues in structural equation modeling research. Structural Equation Modeling, 1, 253-267 Holland, P. W. (1986). Statistics and causal inference (with discussion). Journal of the American Statistical Association, 81, 945-970 Holland, P. M. & Rubin, D. B. (1983). On Lord’s Paradox. In Principles of Modern Psychological Measurement (Wainer & Messick, Eds.), pp.3-35. Erbaum. Lord, F. M. (1967). A paradox in the interpretation of group comparison. Psych. Bull. 68, 304-305. Mulaik, S. A. & James, L. R. (1995). Objectivity and reasoning in science and structural equation modeling. In Structural Equation Modeling: Concepts, Issues, and Applications, (Hoyle, H., Ed.), pp.118-137. Sage Publications: CA

Rosenbaum, P. R. & Rubin, D. B. (1983) Rosenbaum, P. R. & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55 Wainer, H.(1991). Adjusting for differential base rate: Lord's paradox again. Psych. Bull. 109, 147-151. 岩崎 学(2002). 不完全データの統計解析.エコノミスト社 狩野裕 (2002). 「構造方程式モデリング,因果推論,そして非正規性」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part II.岩波書店 佐藤俊哉・松山裕 (2002). 「疫学・臨床研究における因果推論」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part III.岩波書店 盛山和夫 (1986). 社会学における因果推論の問題 --- パスモデルにおけるloopをめぐって.行動計量学,14, 71-78 竹内啓(1986). 因果関係と統計的方法.行動計量学,14, 85-90 豊田秀樹(1998). 共分散構造分析[入門編].朝倉書店 宮川雅巳 (1997). グラフィカルモデリング.朝倉書店

おわり