多変量解析入門　基礎からSEMまで中山和弘（聖路加国際大学）.

多変量解析入門　基礎からSEMまで中山和弘（聖路加国際大学）

エビデンスのためにはしっかりした変数測定と関連の分析が必要

エビデンスと仮説エビデンスとは？原因と結果＝因果関係があるのか
例えば、患者への適切な情報提供による意思決定支援でQOLは高くなるという仮説の検証結果仮説を表現するため、結果となる目的変数と原因となる説明変数の用意

仮説：おぼろげな測定と関連目的変数？説明変数？？？？

例えば、幸福感と意思決定支援 QOL 意思決定支援？説明変数？？？？

目的変数と説明変数の例目的変数説明変数健康状態、ＱＯＬ：病気、障害、自立度、健康感、自覚症状、
　健康状態、ＱＯＬ：病気、障害、自立度、健康感、自覚症状、　疲労･ストレス、不安、 well-being、生活満足度、生きがい… 　保健行動：健康生活習慣、ストレス対処行動、受診行動、　アドヒアランス、リスク行動… 　虐待、無視、暴力、いじめ、ひきこもり… 説明変数　基本的属性：性、年齢、職業、地域、家族… 　パーソナリティ、態度、信念、価値、規範、役割、自己効力感… 　知識、情報、学習、メディア、各種リテラシー… 　コーピング能力や強さ：レジリエンス、SOC… 　物理・化学的、生物学的、社会的環境　ネットワーク、信頼：ソーシャル・サポート、ソーシャル・キャピタル… 　介入（ケア）：有無、方法・内容の違い…

みなさんの仮説？説明変数？？？？

しっかりとした変数測定

変数測定の信頼性と妥当性信頼性＝偶然誤差が少ない、ぶれない妥当性＝測りたいものを測っているか、ずれない

測定の誤差誤差は観測値（測定値）には必ずある観測値＝真の値＋誤差誤差＝偶然誤差＋系統誤差偶然誤差＝偶然に散らばる→信頼性
　　観測値＝真の値＋誤差誤差＝偶然誤差＋系統誤差偶然誤差＝偶然に散らばる→信頼性系統誤差＝何かの要因で偏る＝バイアス→妥当性

信頼性(偶然誤差)と妥当性(系統誤差)

誤差を減らす複数回測定して平均値（合計点）目に見えない真の値を潜在変数として把握 →因子分析
→構造方程式モデリング（Structural Equation Modeling, SEM）

交絡因子を明らかにする見せかけの関連を作ってしまう影の存在本当は直接の関連＝０ショートヘア彼氏交絡因子

妥当性妥当性＝測りたいものを測っているか定義と測定項目の内容の一致度他の変数との関連から似ているか似ていないか検討

変数の定義（意思決定支援）変数の測定すなわちある概念の測定には、その定義がないとできない
意思決定支援の定義は、問題解決のために複数の選択肢から１つを選ぶのを支援すること意思決定支援としてできること（とりあえず）問題の明確化問題解決方法となる選択肢のリストアップ各選択肢のメリット・デメリットについての情報提供葛藤やジレンマの原因の明確化家族などの意思決定支援者の確認意思決定経験者（サポートグループ）の紹介

変数は量的か質的かデータは量的か質的か量的研究と質的研究とは別次元：両方に存在量的は数字である必要、質は別（文字など）
量のほうが分散（選択肢）が大きく情報量が多い →個々の違いを表現できる量ー反応関係＝強い因果関係

測定の項目数と内容の幅 QOLを幸福感で測定しようとするとあなたは今幸せですか？１はい２いいえという単純なものから
　１　はい　２　いいえ　　　　という単純なものから生きていてよかったと思いますか、楽しいと思うことがありますか、などと幸福感をあらわす多様な表現でたくさんの質問をするという方法まである

測定尺度をつくるには変数の定義に従って項目の収集（アイテムプール）文献、聞き取り、Webでも何でも使って情報収集
各項目の選択肢は何にするか「たいへんそう思う」から「まったくそう思わない」の5件法など（5件法以上でサンプルが多ければ量的データとして扱えるという研究も）人による回答のばらつき（分散）を捉える必要ほとんどの人が同じ値や選択肢になるのでは、人による違いがなぜ生じているのか説明できない 5件法なら真ん中（3）を中心に分布させたい

分散の持つ意味統計を嫌う人は「何でも平均値で見て・・・」平均値は代表値で、分布の中心をあらわす統計的分析の対象は中心ではなく、ばらつき
平均値はばらつきを把握するための基準基準がないと、一人ひとりの位置が定まらない個性的な、例外的な、特別な人も発見できる平均値からどのように離れているのかをあらわすために分散＝(標準偏差)2がある

偏差がいのち偏差＝観測値－平均値＝平均値からのずれ＋とーがあるので→(偏差)2→その平均値＝分散分散の平方根＝標準偏差
相関係数は、一人ひとりの偏差から計算 XとY:Xの偏差×Yの偏差の合計から共に変動する量→共分散

相関がある＝分散の重なりｒ2 ｒ＝０相関がある＝共分散あり片方の偏差（平均値との差）が大きい時、もう一方の偏差も大きい
偏差のバラツキが2変数で連動している分散（円）に重なり　面積＝ｒ2（各分散は１）ｒ2 ｒ＝０

見えないものを測る多変量解析観測変数直接は測れない心理社会的変数：感情、イメージ、性格、能力、人間関係など（潜在変数）
その概念の存在を引き出すため言葉や行動などで観察（観測変数）概念の「定義」から「妥当性」のあるものを、「信頼性」のために繰り返し測定観測変数潜在変数

観測変数の相関から潜在変数の存在を観測変数潜在変数（因子）観測変数観測変数たとえば「愛」を様々な言葉で問う
愛してる、一緒にいたい、いつも想っている…モノ？同じ返事がある場合（相関が高い観測変数）は、背景に共通した「愛」（潜在変数＝因子がある→　因子分析）観測変数潜在変数（因子）観測変数観測変数

潜在変数は真の値に近い誤差観測変数潜在変数 (真の値) 誤差観測変数誤差観測変数観測値＝真の値＋誤差
観測値での相関係数は誤差を含んで低め因子分析後の尺度得点も誤差を含む観測変数から誤差を取り除いて潜在変数（真の値）で相関を計算すれば？誤差観測変数潜在変数 (真の値) 誤差観測変数誤差観測変数

目的変数と説明変数の関連の分析

変数測定が大丈夫なら次は QOL 意思決定支援説明変数？？？

変数間の関連の統計的な分析目的変数と説明変数の関連量的か質的かの変数の種類の組み合わせで方法を選択組み合わせの種類は基本的に次の3種類
意思決定支援とQOLの関連の確認量的か質的かの変数の種類の組み合わせで方法を選択組み合わせの種類は基本的に次の3種類量と量：直線関係と相関係数（無相関の検定）量と質：平均値の差（t検定、一元配置分散分析）質と質：クロス表（カイ２乗検定）多変量解析の種類もこの組み合わせで決まる

量と量関連あり（傾きあり）　　　　　関連なし（傾き＝0）相関係数＝傾きを関連の大きさとして表したもの

量と質関連あり（平均値に差）　関連なし（平均値の差＝0）

質と質関連あり？（比率に差？）　関連なし（比率の差＝0）

関連がないときの共通点は？関連がないときは横線（水平線）一本関連があると、線は傾いている（棒の間の線）関連がないと考えること＝帰無仮説
帰無仮説からのずれの大きさが関連の大きさ

有意な関連　パチパチ？ QOL 意思決定支援説明変数有意？？

多変量解析が必要な理由

疑似相関を生む交絡因子 QOL 意思決定支援セルフケア能力ストレス対処能力有意？？？？

なぜ？直接？媒介変数？ QOL 意思決定支援すぐれた意思決定医療者への信頼有意？？？？

有意な関連なし　ガックリ？ QOL 意思決定支援度説明変数有意でない？？

なぜ？人による？調整変数？ QOL 意思決定支援度問題の大きさ支援の必要性有意でない？？

第３の変数の存在と対処本当は関連がないのに見せかけの関連を生む交絡変数は常にありえる
それとは別に、目的変数と説明変数の間の因果の流れに影響する変数（媒介変数と調整変数）がありえるどうするか？それが影響しない研究デザインそれを分析に取り入れた多変量解析

第３の変数のないデザイン第３の変数の違いで説明変数に違いがないようにする説明変数の違い以外は条件はみな同じにする
セルフケア能力やストレス対処能力によって意思決定支援に差がないようにする観察研究ではマッチング介入研究では無作為化割り付け（RCT）

多変量解析全変数を測定して関連の構造をみる QOL 意思決定支援セルフケア能力ストレス対処能力
QOL＝a×意思決定支援＋b×セルフケア能力＋ｃ×ストレス対処能力＋d

相関とは（再掲）ｒ2 ｒ＝０相関がある＝共分散あり片方の偏差（平均値との差）が大きい時、もう一方の偏差も大きい
偏差のバラツキが2変数で連動している分散（円）に重なり　面積＝ｒ2（各分散は１）ｒ2 ｒ＝０

説明変数間に相関がある場合説明変数２つで、その間に相関のしかたで次の3通り、1番左の場合はいいが右の２つは？意思決定支援意思決定支援
セルフケア能力 QOL 意思決定支援セルフケア能力 QOL 意思決定支援セルフケア能力 QOL 意思決定支援

説明変数の直接、間接の関連左の場合、意思決定支援は、QOLに独自または直接関連をもたず、セルフケア能力（媒介変数）を介して間接的に関連している右の場合、セルフケア能力の関連を差し引いても、直接の関連がある矢印の先の面積を使う QOL 意思決定支援セルフケア能力 QOL 意思決定支援セルフケア能力

多変量解析の意味 QOL＝a×意思決定支援＋b×セルフケア能力＋c
意思決定支援独自の関連各説明変数が、他の説明変数と関連していても、その影響を取り除き（コントロールして）、独自に持つ関連の大きさを評価（矢印部分）＝基本は重回帰分析単相関の結果と一致せず多変量解析が不可欠セルフケア能力 QOL 意思決定支援セルフケア能力独自の関連 QOL＝a×意思決定支援＋b×セルフケア能力＋c

多変量解析：解析の５つのゴール（Tabachnick）
グループ間の平均値の差（目的=量、説明＝質メイン）　　　例. ケアの有無によるQOL得点の差変数間の相関、予測（目的=量、説明＝量メイン）　　　例. 不安とQOLの関連変数による類似性をもとにした対象のグループ分け、分類　（目的=質、説明＝量、質）　　　例. 手術を受けるか受けないかの予測できごとの経時的変化　（目的=量、時間、説明＝時間メイン）　　　例. 回復時間への年齢の影響類似した変数をいくつかにまとめてその間の構造をみる　（目的＝潜在変数メイン、説明＝潜在変数メイン）　　　例. 患者の意思決定のプロセスの構造

目的変数と説明変数説明変数（独立変数）目的変数（説明変数）予測因子基準治療、ケアアウトカムインプットアウトプット刺激反応
要因得点原因結果 X Y

グループ間の平均値の差ゴール解析方法目的変数（従属変数）説明変数（独立変数）共変量数タイプ 1 2- 質量時間 1- 平均値の差共分散分析ANCOVA ○ 多変量分散分析MANOVA 多変量共分散分析MANCOVA 反復測定の多変量解析共変量は、実験系では、目的変数に関連した量的変数、広義には目的変数と説明変数の関連をゆがめる可能性のある元々存在するケース間の差を制御する変数

変数間の相関、予測ゴール解析方法目的変数（従属変数）説明変数（独立変数）共変量数タイプ 1 2- 質量時間 1-
1 2- 質量時間 1- 相関、予測重回帰分析 ○ 階層的重回帰分析 ○　マルチレベル分析、混合モデル

対象のグループ分け、分類ゴール解析方法目的変数（従属変数）説明変数（独立変数）共変量数タイプ 1 2- 質量時間 1- グループ分け判別分析 ○ ロジスティック回帰分析階層的ロジスティック分析ロジスティック回帰分析では、目的変数が2値なら、２項ロジスティック回帰、３カテゴリー以上なら、多項ロジスティック回帰、順序尺度なら順序ロジスティック回帰

できごとの経時的変化ゴール解析方法目的変数（従属変数）説明変数（独立変数）共変量数タイプ 1 2- 質量時間 1- グループ分け生存時間分析 ○ 時系列分析生存時間分析は、何かが起こるまでの時間を分析。何ヶ月間、何日間、何時間、何分間というデータであれば変数として分析が可能。例えば、ケアや患者・看護師の行動などの開始時間、継続期間、中断期間、終了時間など。時系列分析は、過去のデータ同士がどのように似ているかを分析し、未来を予測。介入後の変化も分析可能。

構造をみる主成分分析と因子分析の違いは、新しく抽出された変数（潜在変数）が、主成分分析では目的変数で、因子分析では説明変数であること
ゴール解析方法目的変数説明変数共変量数タイプ 1 2- 質量時間 1- グループ分け主成分分析 ○ 因子分析構造方程式モデリングSEM SEM（確証的因子分析）主成分分析と因子分析の違いは、新しく抽出された変数（潜在変数）が、主成分分析では目的変数で、因子分析では説明変数であること SEMでは、1つ以上の潜在変数と量的変数が、目的変数と量的変数の両方に使われている

さらになぜ構造方程式モデリング（SEM）なのか

構造方程式モデリング（SEM）共分散構造分析潜在変数を測定して関連の構造をみる因子分析と重回帰分析を同時に行う
適合度の明確な理解潜在変数（真の値）

誤差の大きさと相関係数真の値誤差あり相関係数は直線に近いほど高い

関連の希薄化の修正単項目間の相関係数観測変数ｘ＝説明変数観測変数ｙ＝目的変数項目合計点＝尺度間の相関係数尺度X＝説明変数
尺度Y＝目的変数潜在変数間の相関係数観測変数C 観測変数B 説明変数目的変数誤差誤差観測変数Ａ観測変数D 誤差誤差

変数とパスの種類 →パス ↔相関・潜在変数と観測変数と誤差 →楕円と四角と円で書くことが多い・内生変数と外生変数
　→楕円と四角と円で書くことが多い・内生変数と外生変数　内生変数＝矢印のパスを受けている変数　＝従属変数　→必ず誤差が必要　外生変数＝矢印のパスを受けていない変数　＝独立変数　→誤差不要・パスの種類　→パス　↔相関

パス、相関、誤差観測変数説明変数観測変数観測変数目的変数観測変数観測変数説明変数観測変数誤差誤差誤差誤差誤差

統計学の仕事真の値は直接測ることができないことがほとんどとくに生命現象、意識や行動、社会指標・・
誤差を取り除きたい（コントロールしたい） →統計学の仕事

誤差を取り除いていく尺度化：観測の繰り返しによる観測値の和（平均でもよい）＝真の値の和＋誤差の和
観測値を増やせば、誤差の和は０に近づき、真の値の和に近づく（参考　大数の法則） →尺度化は信頼性を高める潜在変数化＝さらに真の値に近づけるために、観測変数間の相関を用いて、共通している部分を真の値と考え、誤差を取り除いている

測定方程式＝因子分析ｘ1＝a1ｆ＋e1 ｘ2＝a2ｆ＋e2 Ｘ3＝a3ｆ＋e3 観測値＝因子負荷量×因子の値＋誤差
→観測値は真の値である共通の因子と誤差から成り立っている誤差e1 観測変数ｘ1 a1 a2 潜在変数ｆ誤差e2 観測変数ｘ2 誤差e3 観測変数Ｘ3 a3

構造方程式潜在変数f3 潜在変数f2 潜在変数f4 潜在変数f1
測定方程式で作り出した潜在因子間の重回帰分析（パス解析＝重回帰分析の組み合わせ） →構造方程式→名前の由来 f1＝a×f2＋b×f3+c×f4+e1 潜在変数f3 潜在変数f2 潜在変数f4 潜在変数f1

直接効果、間接効果、総合効果がわかる a 説明変数ｘ1 目的変数ｙ1 c b 説明変数ｘ2 目的変数ｙ2 d
ｙ2は、ｘ1から直接効果ｃと間接効果ａ×ｂの影響を受け、総合効果はその和仮にｃが0に近い場合も、間接効果がある

直接効果が小さくても… 患者QOL 0.15 0.8 0.5 看護学的ケア医学的ケア看護学的ケアの間接効果は、0.8×0.5＝0.4
総合効果は、直接効果＋間接効果＝0.55>0.5 直接効果患者QOL 看護学的ケア 0.15 0.8 間接効果 0.5 医学的ケア

誤差間の相関が計算できる誤差の間には相関がある場合もかなりあるｘ1とｘ2の真の値の部分の相関はa1×ａ2
e1とe2の相関がある場合は、a1×ａ2とは無関係の相関代表例　質問文の同一語句による回答（勘違いなど）の誤差によって生じるもの→質問紙に潜む問題を修正した上での真の値（潜在変数）を計算できる誤差e1 観測変数ｘ1 a1 a2 潜在変数ｆ誤差e2 観測変数ｘ2 誤差e3 観測変数Ｘ3 a3

適合度の算出によるモデルの妥当性の検討

適合度＝モデルの妥当性（ずれてない）どんなモデルでも作ろうと思えば作れる潜在変数化もパスを引くことも自由
ただし、データとかけ離れてずれているモデルは問題データとのずれ具合を一定範囲内に収める必要出発点の確認そもそもSEMでは、何をしようとしている・・・

飽和モデル観測変数A 観測変数C 観測変数B 観測変数D 飽和モデル
飽和モデル＝全観測変数の関連のしかたをすべての共分散（相関係数）で説明する→当たり前

潜在変数や少ない関連で説明推定（予測）モデル
それよりも、因果の方向を考えたり、より少ない変数（潜在変数化＝直接観測できない背景にあるものへ、抽象化、概念化）間の関連で説明する推定モデル＝研究者がある意味勝手に作ったもの観測変数Ａ観測変数C 観測変数B 観測変数D 説明変数目的変数誤差推定（予測）モデル

飽和モデルと推定モデルのずれ観測変数A 観測変数C 観測変数B 観測変数D 独立モデル（観測変数間の相関が０）
うまく説明できている程度を見る方法（＝適合度）として、飽和モデルにどれだけ近い説明力を持つか検討する方法（飽和モデルとの差をχ2でみる）飽和モデルとの離れ具合を、独立モデルと比較して検討する方法（NFI、TLI、CFIなど）観測変数A 観測変数C 観測変数B 観測変数D 独立モデル（観測変数間の相関が０）

主な適合度指標のもと χ2 飽和モデルと推定モデルのずれ 0なら完全に適合で、これが帰無仮説有意だと帰無仮説を棄却（＝だからよくない）
200サンプル以下ほどならOKとも言われるが、これを越えるとχ2が大きくなってすぐ有意だから適さない他のほとんどの適合度はχ2の欠点を補正したもの

主な適合度指標 ■RMSEA sqr[(χ2／df －１)／(N － 1)] sqrは平方根square root、Nはサンプル数自由度(観測変数が多く、パスを引かないと大きくなる)も、サンプル数も考慮 .05よりも小さいとよい .08が許容範囲 .1を越えると不適 ■CFI .95以上、許容範囲は.90 　Null model（独立モデル）の（χ2－df ）－提案したモデルの（ χ2－df ） Null model（独立モデルのχ2－df）

モデル間の比較に使えるもの ■AIC（Akaike’s. information criterion）
　χ2 + k(k － 1) － 2df　　kは観測変数の数　k(k－ 1) － 2dfは自由パラメータの数の2倍と一致　小さいほど適合度がよい。基準値はなく、値に絶対的な意味はない。同じデータでモデルを比較するのに利用。自由度を考慮してある。 ■CAIC（Consistant Akaike’s Information Criterion ） χ2 +(1+logn)[ k(k － 1) － 2df]／2 nはサンプル数で、AICにさらにサンプル数の影響を考慮どの適合度も、観測変数が変われば見直さなければならない

主な利用法

探索的因子分析（EFA, exploratory factor analysis ）
観測変数ｘ1 観測変数ｘ2 観測変数ｘ3 潜在変数ｆ1 誤差e1 誤差e2 誤差e3 観測変数ｘ4 誤差e4 観測変数ｘ5 誤差e5 潜在変数ｆ2

確証的因子分析（CFA, confirmative factor analysis）
観測変数ｘ1 観測変数ｘ2 観測変数ｘ3 潜在変数ｆ1 誤差e1 誤差e2 誤差e3 観測変数ｘ4 誤差e4 観測変数ｘ5 誤差e5 潜在変数ｆ2

高次因子分析観測変数ｘ1 誤差e1 観測変数ｘ2 潜在変数ｆ1 誤差e2 観測変数ｘ3 誤差e3 潜在変数ｆ3 観測変数ｘ4 誤差e4
観測変数ｘ5 誤差e5 潜在変数ｆ2 潜在変数ｆ3

多母集団同時分析(例.男女別)

パネル（時系列）データによる因果の向きの決定
Ｘが原因かＹが原因か？結果に影響するまで時間を要するのか、同時に変動するのか？ Cross-laggedモデル Synchronousモデル X：T1 X：T2 Y：T1 Y：T2 X：T1 X：T2 Y：T1 Y：T2

多変量解析入門　基礎からSEMまで中山和弘（聖路加国際大学）.

Similar presentations

Presentation on theme: "多変量解析入門　基礎からSEMまで中山和弘（聖路加国際大学）."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

多変量解析入門 基礎からSEMまで 中山和弘（聖路加国際大学）.

Similar presentations

Presentation on theme: "多変量解析入門 基礎からSEMまで 中山和弘（聖路加国際大学）."— Presentation transcript:

Similar presentations

About project

フィードバック

多変量解析入門　基礎からSEMまで中山和弘（聖路加国際大学）.

Presentation on theme: "多変量解析入門　基礎からSEMまで中山和弘（聖路加国際大学）."— Presentation transcript: