多変量解析入門 中山和弘(聖路加国際大学)
エビデンスのためにはしっかりした変数測定と関連の分析が必要
エビデンスと仮説 エビデンスとは? 原因と結果=因果関係があるのか 例えば、患者への適切な情報提供による意思決定 支援でQOLは高くなるという仮説の検証結果 仮説を表現するため、結果となる目的変数と原因と なる説明変数の用意
仮説:おぼろげな測定と関連 目的変数? 説明変数? ? ? ?
例えば、幸福感と意思決定支援 QOL 意思決定支援? 説明変数? ? ? ?
目的変数と説明変数の例 目的変数 説明変数 健康状態、QOL:病気、障害、自立度、健康感、自覚症状、 健康状態、QOL:病気、障害、自立度、健康感、自覚症状、 疲労・ストレス、不安、 well-being、生活満足度、生きがい… 保健行動:健康生活習慣、ストレス対処行動、受診行動、 アドヒアランス、リスク行動… 虐待、無視、暴力、いじめ、ひきこもり… 説明変数 基本的属性:性、年齢、職業、地域、家族… パーソナリティ、態度、信念、価値、規範、役割、自己効力感… 知識、情報、学習、メディア、各種リテラシー… コーピング能力や強さ:レジリエンス、SOC… 物理・化学的、生物学的、社会的環境 ネットワーク、信頼:ソーシャル・サポート、ソーシャル・キャピタル… 介入(ケア):有無、方法・内容の違い…
みなさんの仮説? 説明変数? ? ? ?
しっかりとした変数測定
変数測定の信頼性と妥当性 信頼性=偶然誤差が少ない、ぶれない 妥当性=測りたいものを測っているか、ず れない
測定の誤差 誤差は観測値(測定値)には必ずある 観測値=真の値+誤差 誤差=偶然誤差+系統誤差 偶然誤差=偶然に散らばる→信頼性 観測値=真の値+誤差 誤差=偶然誤差+系統誤差 偶然誤差=偶然に散らばる→信頼性 系統誤差=何かの要因で偏る=バイアス→妥当性
信頼性(偶然誤差)と妥当性(系統誤差)
誤差を減らす 複数回測定して平均値(合計点) 目に見えない真の値を潜在変数として把握 →因子分析 →構造方程式モデリング(Structural Equation Modeling, SEM)
交絡因子を明らかにする 見せかけの関連を作ってしまう影の存在 本当は直接の関連=0 ショートヘア 彼氏 交絡因子
妥当性 妥当性=測りたいものを測っているか 定義と測定項目の内容の一致度 他の変数との関連から似ているか似ていないか検討
変数の定義(意思決定支援) 変数の測定すなわちある概念の測定には、その定義が ないとできない 意思決定支援の定義は、問題解決のために複数の選 択肢から1つを選ぶのを支援すること 意思決定支援としてできること(とりあえず) 問題の明確化 問題解決方法となる選択肢のリストアップ 各選択肢のメリット・デメリットについての情報提供 葛藤やジレンマの原因の明確化 家族などの意思決定支援者の確認 意思決定経験者(サポートグループ)の紹介
変数は量的か質的か データは量的か質的か 量的研究と質的研究とは別次元:両方に存在 量的は数字である必要、質は別(文字など) 量のほうが分散(選択肢)が大きく情報量が多い →個々の違いを表現できる 量ー反応関係=強い因果関係
測定の項目数と内容の幅 QOLを幸福感で測定しようとすると あなたは今幸せですか? 1 はい 2 いいえ という単純なものから 1 はい 2 いいえ という単純なものから 生きていてよかったと思いますか、楽しいと思うことが ありますか、などと幸福感をあらわす多様な表現でた くさんの質問をするという方法まである
測定尺度をつくるには 変数の定義に従って項目の収集(アイテムプール) 文献、聞き取り、Webでも何でも使って情報収集 各項目の選択肢は何にするか 「たいへんそう思う」から「まったくそう思わない」の5件法な ど(5件法以上でサンプルが多ければ量的データとして 扱えるという研究も) 人による回答のばらつき(分散)を捉える必要 ほとんどの人が同じ値や選択肢になるのでは、人による 違いがなぜ生じているのか説明できない 5件法なら真ん中(3)を中心に分布させたい
分散の持つ意味 統計を嫌う人は「何でも平均値で見て・・・」 平均値は代表値で、分布の中心をあらわす 統計的分析の対象は中心ではなく、ばらつき 平均値はばらつきを把握するための基準 基準がないと、一人ひとりの位置が定まらない 個性的な、例外的な、特別な人も発見できる 平均値からどのように離れているのかをあらわすために 分散=(標準偏差)2がある
偏差がいのち 偏差=観測値-平均値=平均値からのずれ +とーがあるので→(偏差)2→その平均値=分散 分散の平方根=標準偏差 相関係数は、一人ひとりの偏差から計算 XとY:Xの偏差×Yの偏差の合計から共に変動する 量→共分散
相関がある=分散の重なり r2 r=0 相関がある=共分散あり 片方の偏差(平均値との差)が大きい時、もう一 方の偏差も大きい 偏差のバラツキが2変数で連動している 分散(円)に重なり 面積=r2(各分散は1) r2 r=0
見えないものを測る多変量解析 観測変数 直接は測れない心理社 会的変数:感情、イメー ジ、性格、能力、人間関 係など(潜在変数) その概念の存在を引き出 すため言葉や行動など で観察(観測変数) 概念の「定義」から「妥 当性」のあるものを、「 信頼性」のために繰り 返し測定 観測変数 潜在変数
観測変数の相関から潜在変数の存在を 観測変数 潜在変数(因子) 観測変数 観測変数 たとえば「愛」を様々な言葉で問う 愛してる、一緒にいたい、いつも想っている…モノ? 同じ返事がある場合(相関が高い観測変数)は、背景に 共通した「愛」(潜在変数=因子がある→ 因子分析) 観測変数 潜在変数(因子) 観測変数 観測変数
潜在変数は真の値に近い 誤差 観測変数 潜在変数 (真の値) 誤差 観測変数 誤差 観測変数 観測値=真の値+誤差 観測値での相関係数は誤差を含んで低め 因子分析後の尺度得点も誤差を含む 観測変数から誤差を取り除いて潜在変数(真の値)で相 関を計算すれば? 誤差 観測変数 潜在変数 (真の値) 誤差 観測変数 誤差 観測変数
目的変数と説明変数の関連の分析
変数測定が大丈夫なら次は QOL 意思決定支援 説明変数 ? ? ?
変数間の関連の統計的な分析 目的変数と説明変数の関連 量的か質的かの変数の種類の組み合わせで方法を選択 組み合わせの種類は基本的に次の3種類 意思決定支援とQOLの関連の確認 量的か質的かの変数の種類の組み合わせで方法を選択 組み合わせの種類は基本的に次の3種類 量と量:直線関係と相関係数(無相関の検定) 量と質:平均値の差(t検定、一元配置分散分析) 質と質:クロス表(カイ2乗検定) 多変量解析の種類もこの組み合わせで決まる
量と量 関連あり(傾きあり) 関連なし(傾き=0) 相関係数=傾きを関連の大きさとして表したもの
量と質 関連あり(平均値に差) 関連なし(平均値の差=0)
質と質 関連あり?(比率に差?) 関連なし(比率の差=0)
関連がないときの共通点は? 関連がないときは横線(水平線)一本 関連があると、線は傾いている(棒の間の線) 関連がないと考えること=帰無仮説 帰無仮説からのずれの大きさが関連の大きさ
有意な関連 パチパチ? QOL 意思決定支援 説明変数 有意 ? ?
多変量解析が必要な理由
疑似相関を生む交絡因子 QOL 意思決定支援 セルフケア能力 ストレス対処能力 有意 ? ? ? ?
なぜ?直接?媒介変数? QOL 意思決定支援 すぐれた 意思決定 医療者への 信頼 有意 ? ? ? ?
有意な関連なし ガックリ? QOL 意思決定支援度 説明変数 有意でない ? ?
なぜ?人による?調整変数? QOL 意思決定支援度 問題の 大きさ 支援の必要性 有意でない ? ?
第3の変数の存在と対処 本当は関連がないのに見せかけの関連を生む交絡 変数は常にありえる それとは別に、目的変数と説明変数の間の因果の 流れに影響する変数(媒介変数と調整変数)が ありえる どうするか? それが影響しない研究デザイン それを分析に取り入れた多変量解析
第3の変数のないデザイン 第3の変数の違いで説明変数に違いがないようにす る 説明変数の違い以外は条件はみな同じにする セルフケア能力やストレス対処能力によって意思決 定支援に差がないようにする 観察研究ではマッチング 介入研究では無作為化割り付け(RCT)
多変量解析 全変数を測定して関連の構造をみる QOL 意思決定支援 セルフケア能力 ストレス対処能力 QOL=a×意思決定支援+b×セルフケア能力+c×ストレス対処能力+d
相関とは(再掲) r2 r=0 相関がある=共分散あり 片方の偏差(平均値との差)が大きい時、もう一 方の偏差も大きい 偏差のバラツキが2変数で連動している 分散(円)に重なり 面積=r2(各分散は1) r2 r=0
説明変数間に相関がある場合 説明変数2つで、その間に相関のしかたで次の3通 り、1番左の場合はいいが右の2つは? 意思決定支援 意思決定支援 セルフケア能力 QOL 意思決定支援 セルフケア能力 QOL 意思決定支援 セルフケア能力 QOL 意思決定支援
説明変数の直接、間接の関連 左の場合、意思決定支援は、QOLに独自または直 接関連をもたず、セルフケア能力(媒介変数)を 介して間接的に関連している 右の場合、セルフケア能力の関連を差し引いても、 直接の関連がある 矢印の先の面積を使う QOL 意思決定支援 セルフケア能力 QOL 意思決定支援 セルフケア能力
多変量解析の意味 QOL=a×意思決定支援+b×セルフケア能力+c 意思決定支援独自の関連 各説明変数が、他の説明 変数と関連していても、その 影響を取り除き(コントロー ルして)、独自に持つ関連 の大きさを評価(矢印部分 )=基本は重回帰分析 単相関の結果と一致せず 多変量解析が不可欠 セルフケア能力 QOL 意思決定支援 セルフケア能力独自の関連 QOL=a×意思決定支援+b×セルフケア能力+c
多変量解析:解析の5つのゴール(Tabachnick) グループ間の平均値の差(目的=量、説明=質メイン) 例. ケアの有無によるQOL得点の差 変数間の相関、予測(目的=量、説明=量メイン) 例. 不安とQOLの関連 変数による類似性をもとにした対象のグループ分け、分類 (目的=質、説明=量、質) 例. 手術を受けるか受けないかの予測 できごとの経時的変化 (目的=量、時間、説明=時間メイン) 例. 回復時間への年齢の影響 類似した変数をいくつかにまとめてその間の構造をみる (目的=潜在変数メイン、説明=潜在変数メイン) 例. 患者の意思決定のプロセスの構造
目的変数と説明変数 説明変数(独立変数) 目的変数(説明変数) 予測因子 基準 治療、ケア アウトカム インプット アウトプット 刺激 反応 要因 得点 原因 結果 X Y
グループ間の平均値の差 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- 平均値の差 共分散分析ANCOVA ○ 多変量分散分析MANOVA 多変量共分散分析MANCOVA 反復測定の多変量解析 共変量は、実験系では、目的変数に関連した量的変数、広義には目的変数と説明変数の関連をゆがめる可能性のある元々存在するケース間の差を制御する変数
変数間の相関、予測 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- 1 2- 質 量 時間 1- 相関、予測 重回帰分析 ○ 階層的重回帰分析 ○ マルチレベル分析、混合モデル
対象のグループ分け、分類 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 判別分析 ○ ロジスティック回帰分析 階層的ロジスティック分析 ロジスティック回帰分析では、目的変数が2値なら、2項ロジスティック回帰、3カテゴリー以上なら、多項ロジスティック回帰、順序尺度なら順序ロジスティック回帰
できごとの経時的変化 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 生存時間分析 ○ 時系列分析 生存時間分析は、何かが起こるまでの時間を分析。何ヶ月間、何日間、何時間、何分間というデータであれば変数として分析が可能。例えば、ケアや患者・看護師の行動などの開始時間、継続期間、中断期間、終了時間など。 時系列分析は、過去のデータ同士がどのように似ているかを分析し、未来を予測。介入後の変化も分析可能。
構造をみる 主成分分析と因子分析の違いは、新しく抽出された変数(潜在変数)が、主成分分析では目的変数で、因子分析では説明変数であること ゴール 解析方法 目的変数 説明変数 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 主成分分析 ○ 因子分析 構造方程式モデリングSEM SEM(確証的因子分析) 主成分分析と因子分析の違いは、新しく抽出された変数(潜在変数)が、主成分分析では目的変数で、因子分析では説明変数であること SEMでは、1つ以上の潜在変数と量的変数が、目的変数と量的変数の両方に使われている