多変量解析入門 中山和弘(聖路加国際大学).

Slides:



Advertisements
Similar presentations
分散分析と誤差の制御 実験結果からできるだけ多くの情報を取り出すために 分散分析を利用する 主効果の大きさ 交互作用の大きさ 誤差の大きさ 採用した因子の効果の有無 の検定には,誤差の大きさ と比較するので誤差を小さ くできれば分散分析での検 出力が高まる どのようにしたら誤差を小さくできるか?
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
マルチレベル共分散構造分析 清水裕士 大阪大学大学院人間科学研究科日本学術振興会. 本発表の概要・目的 個人 - 集団データの階層性 個人 - 集団データの階層性 階層的データは従来の方法では十分な分析が できない 階層的データは従来の方法では十分な分析が できない 従来の方法は何が不十分なのか?
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
多変量解析入門 基礎からSEMまで 中山和弘(聖路加国際大学).
グラフィカル多変量解析 ----目で見る共分散構造分析----
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
第35回日本看護研究学会学術集会 プレカンファレンスセミナー 2009/8/2(日)14:30~17:00 中山和弘(聖路加看護大学)
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
データ解析 静岡大学工学部 安藤和敏
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
第5回(5/10) 授業の学習目標 1.1.5節 検定の前提とその適否について考えよう(テキスト輪読 p.10から p.11)
第37回日本看護研究学会学術集会 シンポジウムII 20011/8/8(月)(デブの日)14:40~16:40 中山和弘(聖路加看護大学)
分布の非正規性を利用した行動遺伝モデル開発
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
回帰分析.
東京大学保健社会学同窓会シンポジウム 「保健社会学の発想と方法」 2005年12月10日 聖路加看護大学 中山和弘
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
マーケティング・リサーチ.
因果関係3原則 2009年月曜日・3時限 社会理論と調査法.
主成分分析                     結城  隆   .
12月4日 伊藤 早紀 重回帰分析.
ワークショップ ユーザーとメーカーの公開相談会
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
ヘルスプロモーションのための ヘルスリテラシーと 聖路加看護大学『看護ネット』
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
構造方程式モデリング(SEM) Structural Equation Modeling.
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
Evidence-based Practice とは何か
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
疫学概論 交絡 Lesson 17. バイアスと交絡 §A. 交絡 S.Harano, MD,PhD,MPH.
第11回授業(12/11)の学習目標 第8章 分散分析 (ANOVA) の学習 分散分析の例からその目的を理解する 分散分析の各種のデザイン
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
独立成分分析 (ICA:Independent Component Analysis )
東京工科大学 コンピュータサイエンス学部 亀田弘之
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
尺度化について 狩野 裕 大阪大学人間科学部.
再討論 狩野裕 (大阪大学人間科学部).
部分的最小二乗回帰 Partial Least Squares Regression PLS
対応のある共分散分散行列の同時分析 ーー 震災ストレスデータの同時分析 ーー
高齢慢性血液透析患者の 主観的幸福感について
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「パレスチナ社会の民主主義的価値観」 報告のアウトライン はじめに 民主主義的価値観 仮説とデータ 検証1:パレスチナ社会における民主化の
第6章 性格とは何か?.
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
第5章 性格とは何か?.
回帰分析入門 経済データ解析 2011年度.
中山和弘(聖路加国際大学大学院看護学研究科 看護情報学) 2019年首都大学東京
Presentation transcript:

多変量解析入門 中山和弘(聖路加国際大学)

エビデンスのためにはしっかりした変数測定と関連の分析が必要

エビデンスと仮説 エビデンスとは? 原因と結果=因果関係があるのか 例えば、患者への適切な情報提供による意思決定 支援でQOLは高くなるという仮説の検証結果 仮説を表現するため、結果となる目的変数と原因と なる説明変数の用意

仮説:おぼろげな測定と関連 目的変数? 説明変数? ? ? ?

例えば、幸福感と意思決定支援 QOL 意思決定支援? 説明変数? ? ? ?

目的変数と説明変数の例 目的変数 説明変数 健康状態、QOL:病気、障害、自立度、健康感、自覚症状、  健康状態、QOL:病気、障害、自立度、健康感、自覚症状、  疲労・ストレス、不安、 well-being、生活満足度、生きがい…  保健行動:健康生活習慣、ストレス対処行動、受診行動、  アドヒアランス、リスク行動…  虐待、無視、暴力、いじめ、ひきこもり… 説明変数  基本的属性:性、年齢、職業、地域、家族…  パーソナリティ、態度、信念、価値、規範、役割、自己効力感…  知識、情報、学習、メディア、各種リテラシー…  コーピング能力や強さ:レジリエンス、SOC…  物理・化学的、生物学的、社会的環境  ネットワーク、信頼:ソーシャル・サポート、ソーシャル・キャピタル…  介入(ケア):有無、方法・内容の違い…

みなさんの仮説? 説明変数? ? ? ?

しっかりとした変数測定

変数測定の信頼性と妥当性 信頼性=偶然誤差が少ない、ぶれない 妥当性=測りたいものを測っているか、ず れない

測定の誤差 誤差は観測値(測定値)には必ずある 観測値=真の値+誤差 誤差=偶然誤差+系統誤差 偶然誤差=偶然に散らばる→信頼性   観測値=真の値+誤差 誤差=偶然誤差+系統誤差 偶然誤差=偶然に散らばる→信頼性 系統誤差=何かの要因で偏る=バイアス→妥当性

信頼性(偶然誤差)と妥当性(系統誤差)

誤差を減らす 複数回測定して平均値(合計点) 目に見えない真の値を潜在変数として把握 →因子分析 →構造方程式モデリング(Structural Equation Modeling, SEM)

交絡因子を明らかにする 見せかけの関連を作ってしまう影の存在 本当は直接の関連=0 ショートヘア 彼氏 交絡因子

妥当性 妥当性=測りたいものを測っているか 定義と測定項目の内容の一致度 他の変数との関連から似ているか似ていないか検討

変数の定義(意思決定支援) 変数の測定すなわちある概念の測定には、その定義が ないとできない 意思決定支援の定義は、問題解決のために複数の選 択肢から1つを選ぶのを支援すること 意思決定支援としてできること(とりあえず) 問題の明確化 問題解決方法となる選択肢のリストアップ 各選択肢のメリット・デメリットについての情報提供 葛藤やジレンマの原因の明確化 家族などの意思決定支援者の確認 意思決定経験者(サポートグループ)の紹介

変数は量的か質的か データは量的か質的か 量的研究と質的研究とは別次元:両方に存在 量的は数字である必要、質は別(文字など) 量のほうが分散(選択肢)が大きく情報量が多い →個々の違いを表現できる 量ー反応関係=強い因果関係

測定の項目数と内容の幅 QOLを幸福感で測定しようとすると あなたは今幸せですか? 1 はい 2 いいえ という単純なものから  1 はい 2 いいえ     という単純なものから 生きていてよかったと思いますか、楽しいと思うことが ありますか、などと幸福感をあらわす多様な表現でた くさんの質問をするという方法まである

測定尺度をつくるには 変数の定義に従って項目の収集(アイテムプール) 文献、聞き取り、Webでも何でも使って情報収集 各項目の選択肢は何にするか 「たいへんそう思う」から「まったくそう思わない」の5件法な ど(5件法以上でサンプルが多ければ量的データとして 扱えるという研究も) 人による回答のばらつき(分散)を捉える必要 ほとんどの人が同じ値や選択肢になるのでは、人による 違いがなぜ生じているのか説明できない 5件法なら真ん中(3)を中心に分布させたい

分散の持つ意味 統計を嫌う人は「何でも平均値で見て・・・」 平均値は代表値で、分布の中心をあらわす 統計的分析の対象は中心ではなく、ばらつき 平均値はばらつきを把握するための基準 基準がないと、一人ひとりの位置が定まらない 個性的な、例外的な、特別な人も発見できる 平均値からどのように離れているのかをあらわすために 分散=(標準偏差)2がある

偏差がいのち 偏差=観測値-平均値=平均値からのずれ +とーがあるので→(偏差)2→その平均値=分散 分散の平方根=標準偏差 相関係数は、一人ひとりの偏差から計算 XとY:Xの偏差×Yの偏差の合計から共に変動する 量→共分散

相関がある=分散の重なり r2 r=0 相関がある=共分散あり 片方の偏差(平均値との差)が大きい時、もう一 方の偏差も大きい 偏差のバラツキが2変数で連動している 分散(円)に重なり 面積=r2(各分散は1) r2 r=0

見えないものを測る多変量解析 観測変数 直接は測れない心理社 会的変数:感情、イメー ジ、性格、能力、人間関 係など(潜在変数) その概念の存在を引き出 すため言葉や行動など で観察(観測変数) 概念の「定義」から「妥 当性」のあるものを、「 信頼性」のために繰り 返し測定 観測変数 潜在変数

観測変数の相関から潜在変数の存在を 観測変数 潜在変数(因子) 観測変数 観測変数 たとえば「愛」を様々な言葉で問う 愛してる、一緒にいたい、いつも想っている…モノ? 同じ返事がある場合(相関が高い観測変数)は、背景に 共通した「愛」(潜在変数=因子がある→ 因子分析) 観測変数 潜在変数(因子) 観測変数 観測変数

潜在変数は真の値に近い 誤差 観測変数 潜在変数 (真の値) 誤差 観測変数 誤差 観測変数 観測値=真の値+誤差 観測値での相関係数は誤差を含んで低め 因子分析後の尺度得点も誤差を含む 観測変数から誤差を取り除いて潜在変数(真の値)で相 関を計算すれば? 誤差 観測変数 潜在変数 (真の値) 誤差 観測変数 誤差 観測変数

目的変数と説明変数の関連の分析

変数測定が大丈夫なら次は QOL 意思決定支援 説明変数 ? ? ?

変数間の関連の統計的な分析 目的変数と説明変数の関連 量的か質的かの変数の種類の組み合わせで方法を選択 組み合わせの種類は基本的に次の3種類 意思決定支援とQOLの関連の確認 量的か質的かの変数の種類の組み合わせで方法を選択 組み合わせの種類は基本的に次の3種類 量と量:直線関係と相関係数(無相関の検定) 量と質:平均値の差(t検定、一元配置分散分析) 質と質:クロス表(カイ2乗検定) 多変量解析の種類もこの組み合わせで決まる

量と量 関連あり(傾きあり)     関連なし(傾き=0) 相関係数=傾きを関連の大きさとして表したもの

量と質 関連あり(平均値に差) 関連なし(平均値の差=0)

質と質 関連あり?(比率に差?) 関連なし(比率の差=0)

関連がないときの共通点は? 関連がないときは横線(水平線)一本 関連があると、線は傾いている(棒の間の線) 関連がないと考えること=帰無仮説 帰無仮説からのずれの大きさが関連の大きさ

有意な関連 パチパチ? QOL 意思決定支援 説明変数 有意 ? ?

多変量解析が必要な理由

疑似相関を生む交絡因子 QOL 意思決定支援 セルフケア能力 ストレス対処能力 有意 ? ? ? ?

なぜ?直接?媒介変数? QOL 意思決定支援 すぐれた 意思決定 医療者への 信頼 有意 ? ? ? ?

有意な関連なし ガックリ? QOL 意思決定支援度 説明変数 有意でない ? ?

なぜ?人による?調整変数? QOL 意思決定支援度 問題の 大きさ 支援の必要性 有意でない ? ?

第3の変数の存在と対処 本当は関連がないのに見せかけの関連を生む交絡 変数は常にありえる それとは別に、目的変数と説明変数の間の因果の 流れに影響する変数(媒介変数と調整変数)が ありえる どうするか? それが影響しない研究デザイン それを分析に取り入れた多変量解析

第3の変数のないデザイン 第3の変数の違いで説明変数に違いがないようにす る 説明変数の違い以外は条件はみな同じにする セルフケア能力やストレス対処能力によって意思決 定支援に差がないようにする 観察研究ではマッチング 介入研究では無作為化割り付け(RCT)

多変量解析 全変数を測定して関連の構造をみる QOL 意思決定支援 セルフケア能力 ストレス対処能力 QOL=a×意思決定支援+b×セルフケア能力+c×ストレス対処能力+d

相関とは(再掲) r2 r=0 相関がある=共分散あり 片方の偏差(平均値との差)が大きい時、もう一 方の偏差も大きい 偏差のバラツキが2変数で連動している 分散(円)に重なり 面積=r2(各分散は1) r2 r=0

説明変数間に相関がある場合 説明変数2つで、その間に相関のしかたで次の3通 り、1番左の場合はいいが右の2つは? 意思決定支援 意思決定支援 セルフケア能力 QOL 意思決定支援 セルフケア能力 QOL 意思決定支援 セルフケア能力 QOL 意思決定支援

説明変数の直接、間接の関連 左の場合、意思決定支援は、QOLに独自または直 接関連をもたず、セルフケア能力(媒介変数)を 介して間接的に関連している 右の場合、セルフケア能力の関連を差し引いても、 直接の関連がある 矢印の先の面積を使う QOL 意思決定支援 セルフケア能力 QOL 意思決定支援 セルフケア能力

多変量解析の意味 QOL=a×意思決定支援+b×セルフケア能力+c 意思決定支援独自の関連 各説明変数が、他の説明 変数と関連していても、その 影響を取り除き(コントロー ルして)、独自に持つ関連 の大きさを評価(矢印部分 )=基本は重回帰分析 単相関の結果と一致せず 多変量解析が不可欠 セルフケア能力 QOL 意思決定支援 セルフケア能力独自の関連 QOL=a×意思決定支援+b×セルフケア能力+c

多変量解析:解析の5つのゴール(Tabachnick) グループ間の平均値の差(目的=量、説明=質メイン)    例. ケアの有無によるQOL得点の差 変数間の相関、予測(目的=量、説明=量メイン)    例. 不安とQOLの関連 変数による類似性をもとにした対象のグループ分け、分類  (目的=質、説明=量、質)    例. 手術を受けるか受けないかの予測 できごとの経時的変化  (目的=量、時間、説明=時間メイン)    例. 回復時間への年齢の影響 類似した変数をいくつかにまとめてその間の構造をみる  (目的=潜在変数メイン、説明=潜在変数メイン)    例. 患者の意思決定のプロセスの構造

目的変数と説明変数 説明変数(独立変数) 目的変数(説明変数) 予測因子 基準 治療、ケア アウトカム インプット アウトプット 刺激 反応 要因 得点 原因 結果 X Y

グループ間の平均値の差 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- 平均値の差 共分散分析ANCOVA ○ 多変量分散分析MANOVA 多変量共分散分析MANCOVA 反復測定の多変量解析 共変量は、実験系では、目的変数に関連した量的変数、広義には目的変数と説明変数の関連をゆがめる可能性のある元々存在するケース間の差を制御する変数

変数間の相関、予測 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- 1 2- 質 量 時間 1- 相関、予測 重回帰分析 ○ 階層的重回帰分析 ○  マルチレベル分析、混合モデル

対象のグループ分け、分類 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 判別分析 ○ ロジスティック回帰分析 階層的ロジスティック分析 ロジスティック回帰分析では、目的変数が2値なら、2項ロジスティック回帰、3カテゴリー以上なら、多項ロジスティック回帰、順序尺度なら順序ロジスティック回帰

できごとの経時的変化 ゴール 解析方法 目的変数 (従属変数) 説明変数 (独立変数) 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 生存時間分析 ○ 時系列分析 生存時間分析は、何かが起こるまでの時間を分析。何ヶ月間、何日間、何時間、何分間というデータであれば変数として分析が可能。例えば、ケアや患者・看護師の行動などの開始時間、継続期間、中断期間、終了時間など。 時系列分析は、過去のデータ同士がどのように似ているかを分析し、未来を予測。介入後の変化も分析可能。

構造をみる 主成分分析と因子分析の違いは、新しく抽出された変数(潜在変数)が、主成分分析では目的変数で、因子分析では説明変数であること ゴール 解析方法 目的変数 説明変数 共変量 数 タイプ 1 2- 質 量 時間 1- グループ分け 主成分分析 ○ 因子分析 構造方程式モデリングSEM SEM(確証的因子分析) 主成分分析と因子分析の違いは、新しく抽出された変数(潜在変数)が、主成分分析では目的変数で、因子分析では説明変数であること SEMでは、1つ以上の潜在変数と量的変数が、目的変数と量的変数の両方に使われている