Download presentation
Presentation is loading. Please wait.
1
中山和弘(聖路加国際大学大学院看護学研究科 看護情報学) 2019年首都大学東京
多変量解析 中山和弘(聖路加国際大学大学院看護学研究科 看護情報学) 2019年首都大学東京
2
自己紹介 研究テーマ:誰もが、選択肢を知り、それぞれの長所 と短所を理解し、自分の価値観に基づいて意思決定 できる社会の実現
ヘルスリテラシー、健康生成論 「ヘルスリテラシーとストレス対処力の形成により生涯学び成 長する介入モデルの開発」科学研究費基盤研究(B)(平 成28~31年度) 患者中心の情報に基づく意思決定支援 「医療の不確実性に翻弄される患者のライフストーリーに沿っ たディシジョンエイドの開発」科学研究費挑戦的萌芽研究 (平成27~29年度)
3
毎日新聞連載中
5
おすすめテキスト
6
本書の目的 看護学で幅広く使われている多変量解析の方法を網 羅して、 それらをどのように使い分けるのか そこで何が行われていて
何が言えるのかを ありのままわかりやすく紹介すること
7
論文の“生命”は図表 統計が得意でなくても、SPSS、SAS、R、STATA、 JMP、Amosなどの統計ソフトがすぐに使えるテキスト
しかし、統計解析を始める以前には、研究計画があり、 先行研究のレビューが不可欠 文献レビューのために論文を読む時には、その“生命”と も言える図表を見て、そこで何が行われているのかを理 解する必要
8
図表を読めないリスク 研究テーマにピッタリと合った解析方法が選ばれていな いと、誤った結論が導かれるリスク
解析方法が適切に選ばれていたとしても、そこで何が 行われているのか、何か言えるのかが理解されていない ために、誤った結論が述べられるリスク
9
“言いたいこと”を“見える化”する 看護学や保健学の領域で統計学の授業や研究の相 談や支援を続けて30年ほど
人間の生活や健康といった不確実で複雑な現象をと らえるために、生物的・心理的・社会的・文化的な側 面から多様なアプローチ ずっと学生と共に学んで来たことは、研究テーマの中心 (コア)にある人々の“姿や声”を、そのまま多変量解 析の形に表して“見える化”することの大切さ その作業を通して初めて、 “言いたいこと”について説 得力を持って伝えることができる
10
本書の7つの特徴 多変量解析の中心(コア)にあるものを“見える 化”するために、円の重なりを使ったベン図を使ってい る
すべての共通点としての重回帰分析への注目、それ は1つの目的変数(従属変数)を、2つ以上の説 明変数(独立変数)で説明しようとするもの データを用いてSPSSの出力で説明していること 説明変数の種類と役割(媒介変数、調整変数、 抑制変数、制御変数)を明確にしていること
11
説明変数の選び方を大切にしていること(見す見 す大切な変数を削除する悲劇を回避するため、ス テップワイズのリスク、因子分析の注意点)
統計用語に英語を付けていること 学生とのやりとりを基にしたQ&Aがあること
12
多変量解析とは
13
仮説 目的変数? 説明変数A? 説明変数B? 説明変数C? ? ? ?
14
例えば、看護師の経験年数と専門的ケア 専門的ケア 経験年数 説明変数? 制御変数? ? ? ?
15
有意な関連 パチパチ? 専門的ケア 経験年数 説明変数? 制御変数? 関連あり ? ?
16
疑似相関を生む交絡変数 専門的ケア 経験年数 探求心 ストレス対処能力 関連あり ? ? ? ?
17
なぜ?直接?媒介変数(Mediator)?
専門的ケア 経験年数 すぐれた 意思決定 研修受講 関連あり ? ? ? ?
18
多変量解析の意味
19
r2 r=0 相関がある=共分散がある 共分散→片方の偏差(=観測値-平均値)が大き い時、もう一方の偏差も大きい
→偏差のバラツキが2変数で連動している →2変数の分散(偏差の2乗)に重なり →面積=r2(各分散は1) r2 r=0
20
多変量解析=重回帰分析が基本 経験年数 a 専門的ケア 研修受講 b 専門的ケア=a×経験年数+b×研修受講+c
21
相関がある=分散の重なり 経験 年数 ケア r2 経験 年数 ケア r=0
22
研究は目的変数の分散の説明 ケア 専門的ケアの実施度に バラツキ=分散がある 質保障として問題 なぜ?
何と“共に変動”(=共 分散)しているのかで説 明する ケア
23
単相関だけの場合 経験 ケア 研修 ケア
24
多変量解析で説明変数間の相関なし 研修 ケア 経験 専門的ケア=a×経験年数+b×研修受講+c
25
多変量解析で説明変数間に相関あり 研修 ケア 経験 中山和弘(聖路加国際大学)
26
説明変数の直接、間接の関連 研修 ケア 経験
27
直接効果と間接効果 媒介変数(Mediator)
経験年数は直接効果を持たず、間接効果を持つ 直接効果 専門的ケア 経験年数 間接効果 研修受講
28
人による=調整変数(Moderater)=交互作用
QOL 看護学的ケア 対象者の特徴 ケアの必要性 関連がない ? ?
29
QOL 医師 .0 看護師 .4 .5 抑制変数(Suppressor)の存在 患者のQOL と医師と看護師の接触時間の相関係数
30
医師による抑制 看護師 QOL 医師
31
old adage not to ‘judge a book by its cover’
Talamas SN, Mavor KI, Perrett DI (2016) Blinded by Beauty: Attractiveness Bias and Accurate Perceptions of Academic Performance. PLoS ONE 11(2): e
32
誠実さは強い影響 誠実さ 学業 成績 顔の 魅力
33
説明変数の選び方のリスク 単相関で有意→多変量解析 ステップワイズ 理論と仮説 経験 年数 ケア 研修 顔の 魅力
34
説明変数の間接効果(媒介変数)の大事さ 直接効果 患者QOL 看護学的ケア 0.15 0.8 間接効果 0.5 医学的ケア
35
個人レベルと集団レベルの説明変数 マルチレベル分析
36
さらになぜ構造方程式モデリング(SEM)なのか
37
見えないものを測る多変量解析 観測変数 直接は測れない心理社 会的変数:感情、イメー ジ、性格、能力、人間関 係など(潜在変数)
その概念の存在を引き出 すため言葉や行動などで 観察(観測変数) 概念の「定義」から「妥当 性」のあるものを、「信頼 性」のために繰り返し測 定 観測変数 潜在変数
38
観測変数の相関から潜在変数の存在を 観測変数 潜在変数(因子) 観測変数 観測変数 たとえば「愛」を様々な言葉で問う
愛してる、一緒にいたい、いつも想っている…モノ? 同じ返事がある場合(相関が高い観測変数)は、背景に共 通した「愛」(潜在変数=因子がある→ 因子分析) 観測変数 潜在変数(因子) 観測変数 観測変数
39
潜在変数は真の値に近い 観測値=真の値+誤差 観測値での相関係数は誤差を含んで低め 因子分析後の尺度得点も誤差を含む
観測変数から誤差を取り除いて潜在変数(真の値) で相関を計算すれば? 誤差 観測変数 潜在変数 (真の値) 誤差 観測変数 誤差 観測変数
40
誤差の少ない説明変数を 真の値 誤差あり 相関係数は直線に近いほど高い
41
構造方程式モデリング(SEM) 共分散構造分析 潜在変数を測定して関 連の構造をみる 因子分析と重回帰分 析を同時に行う 適合度の明確な理解
潜在変数(真の値)
42
誤差の大きさと相関係数 真の値 誤差あり 相関係数は直線に近いほど高い
43
関連の希薄化の修正 単項目間の相関係数 観測変数x=説明変数 観測変数y=目的変数 項目合計点=尺度間の相関係数 尺度X=説明変数
尺度Y=目的変数 潜在変数間の相関係数 観測変数C 観測変数B 説明変数 目的変数 誤差 誤差 観測変数A 観測変数D 誤差 誤差
44
変数とパスの種類 →パス ↔相関 ・潜在変数と観測変数と誤差 →楕円と四角と円で書くことが多い ・内生変数と外生変数
→楕円と四角と円で書くことが多い ・内生変数と外生変数 内生変数=矢印のパスを受けている変数 =従属変数 →必ず誤差が必要 外生変数=矢印のパスを受けていない変数 =独立変数 →誤差不要 ・パスの種類 →パス ↔相関
45
パス、相関、誤差 観測変数 説明変数 観測変数 観測変数 目的変数 観測変数 観測変数 説明変数 観測変数 誤差 誤差 誤差 誤差 誤差
46
統計学の仕事 真の値は直接測ることができないことがほとんど とくに生命現象、意識や行動、社会指標・・
誤差を取り除きたい(コントロールしたい) →統計学の仕事
47
誤差を取り除いていく 尺度化:観測の繰り返しによる観測値の和(平均で もよい)=真の値の和+誤差の和
観測値を増やせば、誤差の和は0に近づき、真の値 の和に近づく(参考 大数の法則) →尺度化は信頼性を高める 潜在変数化=さらに真の値に近づけるために、観測 変数間の相関を用いて、共通している部分を真の値と 考え、誤差を取り除いている
48
測定方程式=因子分析 x1=a1f+e1 x2=a2f+e2 X3=a3f+e3 観測値=因子負荷量×因子の値+誤差
→観測値は真の値である共通の因子と誤差から成り立っている 誤差e1 観測変数x1 a1 a2 潜在変数f 誤差e2 観測変数x2 誤差e3 観測変数X3 a3
49
構造方程式 潜在変数f3 潜在変数f2 潜在変数f4 潜在変数f1
測定方程式で作り出した潜在因子間の重回帰分析 (パス解析=重回帰分析の組み合わせ) →構造方程式→名前の由来 f1=a×f2+b×f3+c×f4+e1 潜在変数f3 潜在変数f2 潜在変数f4 潜在変数f1
50
直接効果、間接効果、総合効果がわかる a 説明変数x1 目的変数y1 c b 説明変数x2 目的変数y2 d
y2は、x1から直接効果cと間接効果a×bの影響を受け、総合効果はその和 仮にcが0に近い場合も、間接効果がある
51
直接効果が小さくても… 患者QOL 0.15 0.8 0.5 看護学的ケア 医学的ケア 看護学的ケアの間接効果は、0.8×0.5=0.4
総合効果は、直接効果+間接効果=0.55>0.5 直接効果 患者QOL 看護学的ケア 0.15 0.8 間接効果 0.5 医学的ケア
52
誤差間の相関が計算できる 誤差の間には相関がある場合もかなりある x1とx2の真の値の部分の相関はa1×a2
e1とe2の相関がある場合は、a1×a2とは無関係の相関 代表例 質問文の同一語句による回答(勘違いなど)の誤差によって生じるもの→質問紙に潜む問題を修正した上での真の値(潜在変数)を計算できる 誤差e1 観測変数x1 a1 a2 潜在変数f 誤差e2 観測変数x2 誤差e3 観測変数X3 a3
53
適合度の算出によるモデルの妥当性の検討
54
適合度 =モデルの妥当性(ずれてない) どんなモデルでも作ろうと思えば作れる 潜在変数化もパスを引くことも自由
ただし、データとかけ離れてずれているモデルは問題 データとのずれ具合を一定範囲内に収める必要 出発点の確認 そもそもSEMでは、何をしようとしている・・・
55
飽和モデル 観測変数A 観測変数C 観測変数B 観測変数D 飽和モデル
飽和モデル=全観測変数の関連のしかたをすべての共分散(相関係数)で説明する→当たり前
56
潜在変数や少ない関連で説明 推定(予測)モデル
それよりも、因果の方向を考えたり、より少ない変数 (潜在変数化=直接観測できない背景にあるものへ、 抽象化、概念化)間の関連で説明する推定モデル =研究者がある意味勝手に作ったもの 観測変数A 観測変数C 観測変数B 観測変数D 説明変数 目的変数 誤差 推定(予測)モデル
57
飽和モデルと推定モデルのずれ 観測変数A 観測変数C 観測変数B 観測変数D 独立モデル(観測変数間の相関が0)
うまく説明できている程度を見る方法(=適合度)と して、飽和モデルにどれだけ近い説明力を持つか検討 する方法(飽和モデルとの差をχ2でみる) 飽和モデルとの離れ具合を、独立モデルと比較して検 討する方法(NFI、TLI、CFIなど) 観測変数A 観測変数C 観測変数B 観測変数D 独立モデル(観測変数間の相関が0)
58
主な適合度指標のもと χ2 飽和モデルと推定モデルのずれ 0なら完全に適合で、これが帰無仮説 有意だと帰無仮説を棄却(=だからよくない)
200サンプル以下ほどならOKとも言われるが、これを越 えるとχ2が大きくなってすぐ有意だから適さない 他のほとんどの適合度はχ2の欠点を補正したもの
59
主な適合度指標 ■RMSEA sqr[(χ2/df -1)/(N - 1)] sqrは平方根square root、Nはサンプル数 自由度(観測変数が多く、パスを引かないと大きくなる) も、サンプル数も考慮 .05よりも小さいとよい .08が許 容範囲 .1を越えると不適 ■CFI .95以上、許容範囲は.90 Null model(独立モデル)の(χ2-df )-提案したモデルの( χ2-df ) Null model(独立モデルのχ2-df)
60
モデル間の比較に使えるもの ■AIC(Akaike’s. information criterion)
χ2 + k(k - 1) - 2df kは観測変数の数 k(k- 1) - 2dfは自由パラメータの数の2倍と一致 小さいほど適合度がよい。基準値はなく、値に絶対的な意 味はない。同じデータでモデルを比較するのに利用。自由度 を考慮してある。 ■CAIC(Consistant Akaike’s Information Criterion) χ2 +(1+logn)[ k(k - 1) - 2df]/2 nはサンプル 数で、AICにさらにサンプル数の影響を考慮 どの適合度も、観測変数が変われば見直さなければならな い
61
主な利用法
62
探索的因子分析(EFA, exploratory factor analysis )
観測変数x1 観測変数x2 観測変数x3 潜在変数f1 誤差e1 誤差e2 誤差e3 観測変数x4 誤差e4 観測変数x5 誤差e5 潜在変数f2
63
確証的因子分析(CFA, confirmative factor analysis)
観測変数x1 観測変数x2 観測変数x3 潜在変数f1 誤差e1 誤差e2 誤差e3 観測変数x4 誤差e4 観測変数x5 誤差e5 潜在変数f2
64
高次因子分析 観測変数x1 誤差e1 観測変数x2 潜在変数f1 誤差e2 観測変数x3 誤差e3 潜在変数f3 観測変数x4 誤差e4
観測変数x5 誤差e5 潜在変数f2 潜在変数f3
65
多母集団同時分析(例.男女別)
66
パネル(時系列)データによる因果の向きの決定
Xが原因かYが原因か? 結果に影響するまで時間を要するのか、同時に変動するのか? Cross-laggedモデル Synchronousモデル X:T1 X:T2 Y:T1 Y:T2 X:T1 X:T2 Y:T1 Y:T2
67
見えない変数の「見える化」でケアの構造の解明し、理論化を
生物学的状況 QOL 行動(ストレス対処含む) 心理社会的状況 環境
68
多変量解析:解析の5つのゴール(Tabachnick)
グループ間の平均値の差(目的=量、説明=質メイン) 例. ケアの有無によるQOL得点の差 変数間の相関、予測(目的=量、説明=量メイン) 例. 不安とQOLの関連 変数による類似性をもとにした対象のグループ分け、分類 (目的=質、説明=量、質) 例. 手術を受けるか受けないかの予測 できごとの経時的変化 (目的=量、時間、説明=時間メイン) 例. 回復時間への年齢の影響 類似した変数をいくつかにまとめてその間の構造をみる (目的=潜在変数メイン、説明=潜在変数メイン) 例. 患者の意思決定のプロセスの構造
69
目的変数と説明変数 説明変数(独立変数) 目的変数(説明変数) 予測因子 基準 治療、ケア アウトカム インプット アウトプット 刺激 反応
要因 得点 原因 結果 X Y
70
グループ間の平均値の差 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- 平均値の差 共分散分析ANCOVA ○ 多変量分散分析MANOVA 多変量共分散分析MANCOVA 反復測定の多変量解析 共変量は、実験系では、目的変数に関連した量的変数、広義には目的変数と説明変数の関連をゆがめる可能性のある元々存在するケース間の差を制御する変数
71
変数間の相関、予測 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1-
1 2- 質 量 時間 1- 相関、予測 重回帰分析 ○ 階層的重回帰分析 ○ マルチレベル分析、混合モデル
72
対象のグループ分け、分類 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 判別分析 ○ ロジスティック回帰分析 階層的ロジスティック分析 ロジスティック回帰分析では、目的変数が2値なら、2項ロジスティック回帰、3カテゴリー以上なら、多項ロジスティック回帰、順序尺度なら順序ロジスティック回帰
73
できごとの経時的変化 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 生存時間分析 ○ 時系列分析 生存時間分析は、何かが起こるまでの時間を分析。何ヶ月間、何日間、何時間、何分間というデータであれば変数として分析が可能。例えば、ケアや患者・看護師の行動などの開始時間、継続期間、中断期間、終了時間など。 時系列分析は、過去のデータ同士がどのように似ているかを分析し、未来を予測。介入後の変化も分析可能。
74
構造をみる 主成分分析と因子分析の違いは、新しく抽出された変数(潜在変数)が、主成分分析では目的変数で、因子分析では説明変数であること
ゴール 解析方法 目的変数 説明変数 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 主成分分析 ○ 因子分析 構造方程式モデリングSEM SEM(確証的因子分析) 主成分分析と因子分析の違いは、新しく抽出された変数(潜在変数)が、主成分分析では目的変数で、因子分析では説明変数であること SEMでは、1つ以上の潜在変数と量的変数が、目的変数と量的変数の両方に使われている
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.