狩野 裕 大阪大学 大学院人間学研究科 行動データ科学研究分野

Slides:



Advertisements
Similar presentations
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
Advertisements

1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
入門B・ミクロ基礎 (第4回) 第2章 2014年10月13日 2014/10/13.
グラフィカル多変量解析 ----目で見る共分散構造分析----
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
疫学概論 時系列研究 Lesson 11. 記述疫学 §B. 時系列研究 S.Harano,MD,PhD,MPH.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
パネル分析について 中村さやか.
【MedR】第12回 東京大学医学系研究科 特任助教 倉橋一成.
コメント 「ファセット・アプローチの 魅力とパワー」
レポートの作成 効果的な発表の仕方.
日本行動計量学会主催 第4回春の合宿セミナー
実証分析の手順 経済データ解析 2011年度.
攻撃性尺度の分析:小学生vs中学生Ⅱ ---- 多母集団の同時分析&男女間の平均を調整 ----
コメント 狩野 裕 大阪大学人間科学部 日本心理学会ワークショップ 「探索的因子分析における変数の選択(3)」
第37回日本看護研究学会学術集会 シンポジウムII 20011/8/8(月)(デブの日)14:40~16:40 中山和弘(聖路加看護大学)
分布の非正規性を利用した行動遺伝モデル開発
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
日本行動計量学会第29回大会 於:甲子園大学 (2001/9/14-16)
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
貧困と出産の関係.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
SEMFAQ: 共分散構造分析に関する10の質問
第5章 回帰分析入門 統計学 2006年度.
統計学 第1週 9/27(木) 担当:鈴木智也.
Study Design and Statistical Analysis
ワークショップ ユーザーとメーカーの公開相談会
Stataによる トリートメント効果の推定
於:科学警察研究所 日時:2003年3月17日 SEMと犯罪心理学研究 II 狩野 裕 大阪大学 大学院人間科学研究科.
疫学(Epidemiology) 第3回 疫学研究のデザイン 中澤 港(内線1453)
構造方程式モデリング(SEM) Structural Equation Modeling.
離婚が出生数に与える影響 -都道府県データを用いた計量分析
平均構造モデル・多母集団の同時分析 実験データの分析 潜在曲線モデル
相関分析.
データ解析 静岡大学工学部 安藤和敏
第6章 連立方程式モデル ー 計量経済学 ー.
因果をめぐる統計的アプローチ 日時:2003年1月25日(土)10:00-16:30
スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
疫学概論 交絡 Lesson 17. バイアスと交絡 §A. 交絡 S.Harano, MD,PhD,MPH.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多母集団の同時分析 豊本満喜子 大阪大学人間科学部.
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
予測に用いる数学 2004/05/07 ide.
東京工科大学 コンピュータサイエンス学部 亀田弘之
尺度化について 狩野 裕 大阪大学人間科学部.
母音[i]のF1, F2平均値の分析.
再討論 狩野裕 (大阪大学人間科学部).
部分的最小二乗回帰 Partial Least Squares Regression PLS
対応のある共分散分散行列の同時分析 ーー 震災ストレスデータの同時分析 ーー
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロス表とχ2検定.
疫学概論 方法論的問題点(患者対照研究) Lesson 13. 患者対照研究 §B. 方法論的問題点 S.Harano,MD,PhD,MPH.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
疫学概論 時系列研究 Lesson 11. 記述疫学 §B. 時系列研究 S.Harano,MD,PhD,MPH.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成.
Presentation transcript:

狩野 裕 大阪大学 大学院人間学研究科 行動データ科学研究分野 因果推論のための統計モデルとその推測法   &KBS京都 合同研究会 日時:2003年3月4日(火)13:30-17:30 於:京都大学医学部 構造方程式モデルと因果推論 狩野 裕 大阪大学 大学院人間学研究科 行動データ科学研究分野

Agenda 同値モデルと因果の方向 傾向スコア 因果と欠測:Rubinの枠組み まとめ (Lordのパラドックスへの応用)

同値モデルと因果の方向

相関係数から因果の方向は決まらない ---同値モデルの問題--- 相関構造 データから区別できないモデルを同値モデルという 「区別できない」とは適合度が同一であることをいう

同値モデル例

因果の方向を決める: 操作変数法(Instrumental variable method) 相関構造 相関構造

因果の方向を決める:適合度との関係 適合度が低い 適合度が高い X→Y の因果関係が示唆される

操作変数法とは X,Yのいずれかに影響を及ぼし,他方への直接効果をもたない変数Z(操作変数)を観測する X,Y,Zの相関構造から,X→Y or X←Y を判断する

双方向因果モデル(非逐次モデル)

例1:政治的社会化モデル 出典:Asher(1976). Causal Modeling. Sage

例2:Attractiveness implies perceived academic ability? 出展: AMOSマニュアル

双方向因果モデルの基礎仮定

双方向因果モデルの解釈

双方向因果モデルの基礎仮定 X,Yは,ある初期値(0)からスタートして, 相互に無限回,影響し合った結果である 影響の大きさは変化せずBである XとYの相互の影響関係が安定しているべき

構造方程式モデリングによる 因果の決定 因果の方向に興味があるとき 対立モデルが同値モデルにならないような モデリングが必要 当該モデルが適合する 対立モデルが適合しない 対立モデルが同値モデルにならないような モデリングが必要 そのための方法が操作変数(道具的変数)の導入

有効性 因果を決定したのか 因果の大きさ 三択である 本来は四択である 観察データ,横断的データの分析の限界 R2が小さいことがある X→Y,X←Y,X←→Yのいずれか 本来は四択である X→Y,X←Y,X←→Y, 「因果関係にない」 観察データ,横断的データの分析の限界 交絡変数 縦断的データでは時間軸が利用できる 因果の大きさ R2が小さいことがある R2=0.1でもモデルは適合する XはYの「主要な」原因でとは言えない

例1:交絡変数はこわい 盛山(1986,行動計量学)

例2:因果方向決定にも影響 誤ってY→Xと結論してしまう

縦断的データの利用 2時点でデータをとり,時間差を利用する 民主主義⇒経済発展 or 経済発展⇒民主主義 Lord の パラドックス 直接差を取ることは良くない,という議論があるらしい.その理由を知りたい.

まとめ 横断的データに基づいて,因果の方向について言及するモデリングがある 縦断的データに基づくモデリングの方が説得性が高いと考えられている X→Y or Y→ Xのモデルの適合度を比較する 同値モデルにならないようなモデリング 操作変数法 欠点 交絡変数の影響を無視し得ない 操作変数となるための条件が満足されているか 縦断的データに基づくモデリングの方が説得性が高いと考えられている

傾向スコア

傾向スコア 調査(or 実験)研究において 傾向スコア(propensity score) X:二値の原因変数 Y:結果変数(連続) Z1,Z2,… :交絡変数 傾向スコア(propensity score) by Rosenbaum-Rubin (Biometrika, 1983) e(z)=E[X=1|Z1,Z2,…] X  ||  Z | e(z)

傾向スコアの性質 治癒日数 投薬の 有無 Given e(Z1,Z2,…) 「Z→Y」の関係は線型に限らない 重症度 年齢 患者の 希望 … Given e(Z1,Z2,…) 「Z→Y」の関係は線型に限らない 「X→Y」の関係は傾向スコアに依存してもよい

傾向スコアと因果 治療日数 e(z)=0.8 e(z)=0.5 e(z)=0.2  X=0 X=1 非服用    服用

傾向スコアの利用 交絡変数zが多い場合はe(z)の利用が有効 e(z)の推定 strongly ignorableの仮定 サブグループ化 e(z)の値の近い被験者をグループ化してX=0,1を比較 マッチング e(z)の値の近い被験者でX=0とX=1を割付けられたものを 組にし,対応のあるデータの分析を行う e(z)の推定 ロジスティック回帰分析の利用 strongly ignorableの仮定 zを与えた下で,バランスがとれた割付けがなされている zがすべての交絡要因を含んでいる

構造方程式モデリングでは Z1 Y Z2 X=1,0 Zm 従属二値変数をプロビット法によってモデリング Mx, EQS, LISREL … ただし,線型モデルが基本.

まとめ 傾向スコア SEM Z1 Y Z2 X=1,0 Zm 高次元の交絡変数zを1次元に落とす zからYへのモデリングが不要 マッチングやサブグループ化を容易にする zからYへのモデリングが不要 適切にモデリングできるなら,した方が良い SEM zを調整する基本モデルを提供 線型モデル zとXの交互作用は検出しない Y X=1,0 Z1 Z2 Zm …

因果と欠測:Rubinの枠組み

Rubinの枠組み(1) コントロール群と処理群を比較する 例 記号 P[治癒(Y=1)|投薬なし] vs P[治癒(Y=1)|投薬あり] 体重Y|一般的な食事 vs 体重Y|特別な食事 記号 母集団:P 母集団の構成要素(unit):u Yx=0(u) vs Yx=1(u) X=0: control, X=1: treatment Unit-level Causal Effect

因果推論の基本的問題 Unit-level Causal Effect 同一患者に「投薬あり」と「投薬なし」の割付けは不可能 一方は必ず欠測 因果推論の基本的問題という(e.g., Holland 1986) (fundamental problem of causal inference)

Rubinの枠組み(2) Average Causal Effect 因果推論の基本的問題は依然として存在 EP[Yx=0] vs EP[Yx=1] Pのunit全部に「X=0 と X=1」 を割付ける 母因果効果とよんでもよいかも 因果推論の基本的問題は依然として存在 上記のような割付けは不可能 必ず欠測がある

データの構造と欠測 被験者番号 欠 測 z:共変量

Average Causal Effectの推定 推定可能性は欠測のあり方に依存 欠測のメカニズム or 割付けのメカニズムが重要 無作為に欠測する場合は推定可能 MCAR X=0,1を無作為に割付けることと同等 MARの場合の推測は,どのようにすればよいか zの効果のモデリング すべての観測値に基づく最尤法

復習:欠測のパターン Missing Completely At Random (MCAR) Missing At Random (MAR) どの値が欠測するかは完全にランダムである Missing At Random (MAR) どの値が欠測するかはデータに依存してもよいが, 欠測した値には依存しない 最尤法(FIML)の適用が薦められる Non‐ignorable Missing どの値が欠測するかが欠測した値にも依存する 欠測のメカニズムにモデリングが必要

欠測(割付け)のあり様 MAR MCAR X=0,1をZに応じて割付ける X=0,1を無作為に割付ける 治癒日数 投薬の 有無 治癒日数 重症度 年齢 患者の 希望 … 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 … MAR X=0,1をZに応じて割付ける MCAR X=0,1を無作為に割付ける

MARでは 単なる治癒率の比較に疑問 重症患者が投薬を選択 軽症患者は非投薬を選択 治癒日数 投薬の 有無 重症度 年齢 患者の 希望 …

Average Causal Effectの推定 ---MARの場合--- strongly ignorable given z (Rosenbaum-Rubin,1983) zが与えられた下では Missing Completely At Random (無作為に)バランスよく X=0,1 が割付けられている X=0,1が,zにのみ依存しYには直接関係しない Missing At Random 最尤法が有効 Xは,Zからのみ直接的な影響を受ける ⇒MAR ⇒最尤法 | | 

欠 測 最尤法

SEMとの関係 以下の仮定のもとで解くのがSEM Y X=1,0 Z1 Z2 Zm … 多母集団の同時分析も可能

Rubinの因果推論の要点 コントロール群と処理(実験)群の比較 個人内の比較に基礎をおく 「コントロール」という概念が必ず必要 各群への曝露可能性が必要 属性変数は考慮外 個人内の比較に基礎をおく Unit-level Causal Effect Average Causal Effect 母集団の全ての構成要素に,全ての水準を 割付けるという仮想的な状況

欠測と因果のまとめ 割付けと欠測は同値 推測方法 SEMの役割 MCAR…無作為割付け MAR…割付けが第三変数zに影響される strongly ignorable given z zが与えられた下で無作為割付け すべての交絡変数zが観測されている 推測方法 MCAR:zの影響は無視可能 MAR: 観測データに基づく最尤法 SEMの役割 MARの下で,基本的なモデルを提供 Y X=1,0 Z1 Z2 Zm …

まとめ 因果と予測はまったくの別物 交絡変数の統制 研究目的に合わせてどちらが必要かを検討 因果:同一個体において,Xを強制的に変化させる. 交絡変数の値は留まっている 予測:Xの値の違いは別の個体を意味.交絡変数の値は 異なる 交絡変数の統制 因果効果の評価は,交絡変数によって致命的な ダメージを受ける 回帰分析が重要な武器だが,パス解析がより有用

SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける 因果の評価は経時データが基本 実験は二時点の経時データ 横断的データしかとれないことがある 横断的データによる因果分析の手法もある 交絡変数が全てモデル化されているという強い仮定 SEMによるモデリングは,調査研究の弱点である交絡変数の影響を受ける モデル構築の段階で,因果仮説を十分に吟味し, 重要な影響を与える変数を分析から落とさない データを採る前が大事 調査研究は積み重ねることが重要

Rubinの因果 コントロール群と処理群の比較 個人内の比較に基礎 各群への曝露可能性が必要 欠測データの分析理論(MAR)を援用 属性変数は対象外 連続原因変数は対象外 欠測データの分析理論(MAR)を援用

参考文献 Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley: New York Bullock, H. E., Harlow, L. L. & Mulaik, S. A. (1994). Causal issues in structural equation modeling research. Structural Equation Modeling, 1, 253-267 Holland, P. W. (1986). Statistics and causal inference (with discussion). Journal of the American Statistical Association, 81, 945-970 Holland, P. M. & Rubin, D. B. (1983). On Lord’s Paradox. In Principles of Modern Psychological Measurement (Wainer & Messick, Eds.), pp.3-35. Erbaum. Lord, F. M. (1967). A paradox in the interpretation of group comparison. Psych. Bull. 68, 304-305. Mulaik, S. A. & James, L. R. (1995). Objectivity and reasoning in science and structural equation modeling. In Structural Equation Modeling: Concepts, Issues, and Applications, (Hoyle, H., Ed.), pp.118-137. Sage Publications: CA

Rosenbaum, P. R. & Rubin, D. B. (1983) Rosenbaum, P. R. & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55 Wainer, H.(1991). Adjusting for differential base rate: Lord's paradox again. Psych. Bull. 109, 147-151. 岩崎 学(2002). 不完全データの統計解析.エコノミスト社 狩野裕 (2002). 「構造方程式モデリング,因果推論,そして非正規性」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part II.岩波書店 佐藤俊哉・松山裕 (2002). 「疫学・臨床研究における因果推論」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part III.岩波書店 盛山和夫 (1986). 社会学における因果推論の問題 --- パスモデルにおけるloopをめぐって.行動計量学,14, 71-78 竹内啓(1986). 因果関係と統計的方法.行動計量学,14, 85-90 豊田秀樹(1998). 共分散構造分析[入門編].朝倉書店 宮川雅巳 (1997). グラフィカルモデリング.朝倉書店

MARについての補遺 Missing At Random (MAR) どの値が欠測するかはデータに依存しても よいが,欠測した値には依存しない 最尤法(FIML)の適用が薦められる

おわり

Lord のパラドックスへの応用 Lord(1967) Psych. Bull. Holland & Rubin (1983) Wainer (1991) Psych. Bull.

状況 大学寮の食事が寮生の体重に及ぼす 影響の性差を検討する データ 入寮時の体重と1年後の体重 男女

分析 Statistician 1: not significant Statistician 2: significant 体重(1年後)-体重(入寮) 男0女1 体重(1年後) 男0女1 体重(入寮)

散布図 1年後の体重 男 ・ ・ 女 0 入寮時の体重

記述的(予測)解釈 Statistician 1 Statistician 2 両者ともコントロール群が設定されていない 大学寮において体重の変化の平均に 性差はない Statistician 2 入寮時に体重が等しい男女において 1年後は男性の方がより重い 回帰効果 両者ともコントロール群が設定されていない 「入寮時に体重が等しい男女において1年後は男性の方が体重が重い」 というANCOVAの結論は,dieticianに意味のある情報だろうか.

Statistician 2の解釈 1年後の体重 男 ・ ・ 平均への回帰 女 0 入寮時の体重

記述的解釈の考察 回帰効果に強く依存するStat2の解釈は 受容できるか? 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し 重い学生は重いまま,軽い学生も軽いまま 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し 結論は寮固有のものか? 寮生以外でも同じ結論かも コントロール群との比較を考慮する 「因果」の検証が必要

Rubinの枠組み 母集団 当該大学の寮生 処理 寮の食事を摂取(x=1) コントロール 一般の食事を摂取(x=0) 母集団  当該大学の寮生 処理  寮の食事を摂取(x=1) コントロール  一般の食事を摂取(x=0) 割付け  全て寮の食事を摂取(x=1) データ 性別…. G=1,2(male or female) Y ……... 1年後の体重 Z ……... 入寮時の体重

Rubinの枠組みとStatistician1 Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 1 EP[Yx=1 -Z|男] vs EP[Yx=1 -Z|女] 暗に仮定されていたのは Yx=0 = Z

Rubinの枠組みとStatistician2 Average Causal Effect 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] これらの差 M-F が評価したいもの Statistician 2 EP[Yx=1 -(a+bZ)|男] vs EP[Yx=1 -(a+bZ)|女] 暗に仮定されていたのは Yx=0 = a+bZ

因果効果 コントロール群の仮定 因果効果が推定できる 両仮定とも現データからは検証不可能 仮定1: Yx=0 = Z 仮定2: Yx=0 = a+bZ 因果効果が推定できる 仮定1のもとで,大学寮の食事の体重への効果に ついて性差はない 仮定2のもとで,大学寮の食事の体重への効果に ついての性差は,そうでない食事と比して異なる 同一体重の男女が入寮すれば,男性の方がより重くなるが,その程度(性差)は一般の食事よりも大きい 両仮定とも現データからは検証不可能

Statistician 2の解釈 ・ ・ 平均への回帰 男 女 1年後の体重 0 入寮時の体重 コントロール群の平均は,入寮時の体重の平均で評価できる. 回帰式においてy^の平均は,説明変数の平均で評価できるからである. 女 0 入寮時の体重

2つの仮定(1) 両仮定とも現データからは検証不可能 Yx=0 = Z Yx=0 = a+bZ 他からの情報,または,納得・了解 実線:平均 破線:個体 青:男性 赤:女性 処理群の平均は入寮時のそれとおなじであるから, コントロール群との比較は,入寮時の平均と 比較すればよい 入寮時    1年後 入寮時    1年後 Yx=0 = Z          Yx=0 = a+bZ

2つの仮定(2) Yx=0 := a+bZとすることの問題点 回帰効果の妥当性 aとbは,Yx=1をZの上へ回帰させて計算 入寮時    1年後

Lordのパラドックスのまとめ 記述的解釈の問題は小さい 寮外の食事との比較が必要なときは因果 効果の検討が必要 1:体重の変化量に性差はない 2:入寮時にzが同じ場合,男性の方がより高い 回帰効果の妥当性 記述的解釈の結論で目的を達するのか? 寮外の食事との比較が必要なときは因果 効果の検討が必要

因果効果の評価 両分析では,コントロール群に関する仮定が異なる 両仮定ともに不適切 1: Yx=0 = Z 2: Yx=0 = a+bZ 現データによる検証は不可能 仮定Yx=0 = a+bZについては回帰効果の 妥当性にも依存