因子分析と共分散構造分析 狩野 裕 大阪大学人間科学部 日本行動計量学会 春の合宿セミナー kano@hus.osaka-u.ac.jp 1998.4.2 version 日本行動計量学会 春の合宿セミナー 1998.3.28-30 東京大学検見川セミナーハウス 因子分析と共分散構造分析 狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp http://koko15.hus.osaka-u.ac.jp/~kano/research/tutorial.html
「春の合宿セミナー」紹介パンフより
本コースの構成 準備:回帰分析 因子分析編 検証的因子分析 探索的因子分析 共分散構造分析編
因子分析と共分散構造分析 ---- 準備:回帰分析---- Factor Analysis and Covariance Structure Analysis
中古車価格のデータ
中古車価格 データの散布図行列
乗車年数と価格の散布図 (r=-0.91)
走行距離と価格の散布図 (r=-0.49)
中古車価格のデータの相関行列 S
中古車価格の単回帰分析 PRICE = α+β× YEAR + E1 回帰係数
標準解(単回帰分析) ---- 分散をすべて1に標準化 ---- 標準回帰係数 誤差分散 の平方根
重回帰分析 偏回帰係数 独立変数間の 共分散
標準解(重回帰分析) ---- 分散をすべて1に基準化 ---- 独立変数間 の相関 標準偏回帰係数
SMC:事前共通性の推定値 (探索的因子分析) SMC:事前共通性の推定値 (探索的因子分析)
死亡率と婚姻率は負に相関する? ---- 偏相関係数の考え方 ----
偏相関のパス図による表現
偏相関係数推定結果 標準化しない解 標準解 偏共分散 偏相関
Path Tracing Rule ーーーー パスをたどって共分散 ーーーー
狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp 日本行動計量学会 春の合宿セミナー 1998.3.28-30 東京大学検見川セミナーハウス 因子分析と共分散構造分析 狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp
因子分析編プログラム 因子分析とは 検証的因子分析(CFA) 探索的因子分析(EFA) CFA versus EFA 潜在変数による相関 入力ファイル,適合度の指標 探索的因子分析(EFA) 因子数の選定 推定方法 因子回転 CFA versus EFA CFAは実行できるがEFAがだめな場合 相互比較
潜在変数による相関 ---- コンセプト ---- 観測変数 潜在変数 (共通因子) 相関 因果 誤差変数 潜在変数による相関 ---- コンセプト ----
潜在変数による相関 ---- 具体例 ----
データ
Confirmatory Factor Analysis (CFA) 検証的因子分析 検証的因子分析 Confirmatory Factor Analysis (CFA)
(検証的)因子分析とは ----文科的能力と数学的能力----
因子分析とは 相関関係の背後に潜む構造を研究するための統計的分析方法 相関関係を潜在変数(共通因子)で説明する 潜在変数からの因果の結果として相関が生じるというモデル 探索的因子分析と検証的因子分析 データから構造を探る...区間推定 構造に関する仮説をデータと照らし合わせて検証する...仮説検定
構造式で表す 潜在変数の尺度は自由にとれる
分析結果の解釈 因子負荷量は±1に近いほど因子の影響が大きい 幾何の変動 =F2の変動 +幾何固有の変動 因子負荷量パス係数 独自性の平方根
分析結果の解釈 F2の影響の方がやや大きい 数学の中では「計算」と「代数」が,文科の中では「ゲール語」と「英語」への因子負荷が大きい F1とF2の相関は0.6 因子負荷量パス係数 独自性の平方根
適合度の吟味 0.05 以上であればOK 1.000 に近ければOK
入力ファイル ---- SAS ----
入力ファイル ---- EQS ----
検証的因子分析チャート
適合度の考え方 S と Σ^の食い違いの程度で適合度を測る
推定・適合度の考え方 S と Σ^の食い違いの程度で適合度を測る
いくつかの適合度の指標 (1) S と Σ^の食い違いの程度で適合度を測る
いくつかの適合度の指標 (2-1) 独立モデルを導入する S 現在のモデル 独立モデル データから の距離 観測変数間に相関 がないという最も 制約的なモデル
いくつかの適合度の指標 (2-2) 独立モデルを導入する
いくつかの適合度の指標 (3) モデルを比較するための指標
Exploratory Factor Analysis (EFA) 探索的因子分析 探索的因子分析 Exploratory Factor Analysis (EFA)
探索的因子分析(EFA) 共通因子の数,共通因子が何を示すかが未知 どの因子がどの変数に影響するかが分からない.
探索的因子分析の表現 ---- パス図より行列 ----
直交モデルと斜交モデル
探索的因子分析と検証的因子分析
行列での表現
因子モデルの表現
探索的因子分析チャート
探索的因子分析結果
因子数k の選定法 ---- 以下の客観的ルールと解釈可能性を 考慮して総合的に判断する ---- Guttman ルール関連 相関行列の固有値で値が1以上のものの個数(SPSS) 相関行列の対角部分を事前共通性(多くはSMC)で置き換えた行列にもとづく方法 Scree 法 相関行列の固有値プロットにもとづく方法 適合度の吟味 共通性の割合(累積寄与率) 適合度検定,AIC Tucker-Lewis の指標
Guttman ルール関連 相関行列 S の固有値で,値が1以上のものの個数(SPSS) 相関行列 S の対角部分を事前共通性(多くの場合,SMC)で置き換えた行列 S* にもとづく方法 S*の固有値で,値が0以上のものの個数 S*の固有値の大きいものからの和が初めて tr(S*) [事前共通性の和]を超えたときの固有値番号(SAS;prinit) DS*Dの固有値の大きいものからの和が初めて tr[DS*D] を超えたときの固有値番号.ここで,Dは独自性の平方根の逆数からなる対角行列(SAS;ml)
6科目の例
SASの出力(最尤法ML)
SASの出力(反復主因子法 prinit)
Scree 法 固有値プロットにおいて,固有値の減少量がなだらかになる直前の固有値番号を因子数とする
モデルの吟味 共通性の吟味 各変数の共通性 共通因子が説明する割合(累積寄与率) 適合度検定 Tucker-Lewis の指標
モデルの吟味(SAS) 2因子モデル 1因子モデル
種々の推定方法 †多くの場合,PAF と ULS同じ解を与える † †モデルが適切であれば,ULSとMLは非常に近い解を与える
簡便因子抽出法 PAF: Principal Axis Factoring
オススメの推定方法 因子分析の初級者は(反復)主因子法 因子分析の中級者以上は「反復主因子法+最尤法」 質の良いデータでは推定結果は大きく違わない 最尤法は sensitive 過ぎて使いにくい 因子分析の中級者以上は「反復主因子法+最尤法」 解析の初期では反復主因子法,その後,最尤法に移行する 細かい解釈をするときは最尤解でないと不安がある.というのは,反復主因子法は反復が遅いため収束に不安があるから. モデルの適合に関する情報は最尤法でのみ出力される
推定方法の比較 (バリマックス回転)
最尤解(MLE)と主成分分析法(PCA) (回転方法:バリマックス法)
最尤解(MLE)と反復主因子法(PAF) (回転方法:バリマックス法)
因子回転の方法
オススメの因子回転の手順 直交回転か斜交回転かを決める 固有技術的観点から決定する.回転結果からは斜交・直交を定めにくい 一般的に言って因子が直交していることは希である.また,今後の発展(検証的因子分析,共分散構造分析)のことを考えるならば斜交解 直交回転ならば (基準化)VARIMAX 法 斜交回転ならば PROMAX法 or OBLIMIN法をおこなう
オススメの因子回転の手順(続) 思うような結果が得られないときの一つの解決法は,プロクラテス回転を行うことである 「思うような結果が得られない」ということは因子に関する「仮説」があることが多い.それを活かす回転がプロクラテス法である プロクラテス回転でもうまくいかないときは,「仮説」がデータにあっていないということだから,その他のどんな回転を用いても「仮説」にあう解は得られない 問題点:プロクラテス回転は SAS しかサポートしていない.SAS でも斜交回転しかない. 前川(1997, 262ページ) にSASで直交プロクラテス回転を行うIMLによるプログラムリストがある.
プロクラテス回転のSAS入力ファイル
因子回転の意味
データ(相関係数)から Λ1とΛ2 (or F と F’) のどちらが良いかを決定できない
Λ1と Λ2の関係
F と G の関係
因子回転の意味
因子回転の数学的説明
なぜ因子回転が必要なのか 原因:因子を定めるための情報が不足している 処置:主観的に同定するしかない
たとえ話をすると ---- 真実はどっち ---- 先生への恋慕の情 先生への厳しい目 真剣に話しているのに 私の気持ち 笑って流すあなたは教師 (井本有希子17歳) 学生百人一首より (98/2/12朝日新聞)
回転方法の比較 (最尤解 MLE)
因子回転 初期解とバリマックス解
因子回転 バリマックス解と直接オブリミン解
探索的vs検証的 or 直交vs斜交
質の良いデータは何で解析しても同じような結果が得られるが... 最終的には目的による 因子に関する仮説がないとEFAしかできない CFAしかできない場合がある
検証的因子分析 vs 探索的因子分析 検証的因子分析 vs 探索的因子分析 それぞれの特徴
探索的因子分析できないが検証的因子分析可能な場合 Ledermann の限界: 識別性....2つの観測変数にしか関わらない因子を抽出できない 因子負荷に関するさまざまな仮定の検証 多母集団・因子平均の解析....今回は紹介しない
I.Ledermann の限界:例1 マルコフ(ワイナー) シンプレックスモデル 註:本モデルでは多くの場合 スケールファクターを入れる
Ledermann の限界:例1 上記境界 条件を 満たさない
蛇足 ---- シンプレックス構造モデルでの解析 ----
Ledermann の限界:例2 円環モデル 註:円環モデルでは多くの場合スケールファクターを入れる
Ledermann の限界:例2 (続) 上記境界条件を満たさない
Ⅱ.識別性の問題 ----探索的因子分析では,2つの観測変数にしか関わらない因子を抽出できない ---- Ⅱ.識別性の問題 ----探索的因子分析では,2つの観測変数にしか関わらない因子を抽出できない ---- X3 を除いて探索的因子分析すると,以下のメッセージが出力され,プログラムが停止する[事前共通性は PRIORS=SMC.反復回数(ML,2:ULS,3;PRINIT;281)] ERROR: Communality greater than 1.0 事前共通性を PRIORS=ONEとし,反復主因子法(PRINIT)で分析すると収束する(反復回数=9)
さらに詳しく調べてみる
検証的因子分析では...
なぜ検証的分析でうまく解析できるのか 2つの観測変数にしか関わらない潜在変数があっても,それが他の(潜在)変数と相関があれば解析できる 因子負荷を0とおく事前情報が効いている
Ⅲ.因子負荷に関するさまざまな仮定の検証
探索的分析 versus 検証的分析 探索的因子分析 検証的因子分析 因子数 潜在構造に関する仮説 パス図 因子回転 モデルの評価 探索的因子分析 検証的因子分析 因子数 潜在構造に関する仮説 パス図 因子回転 モデルの評価 推定値の標準誤差 検定の多重性 恣意性 扱えるモデル 未知 既知 なし,探索すべきもの あり,検証すべきもの 分析後に描く 分析前に描く 必要 不必要 (共通性の高低) カイ2乗値,適合度指標 カイ2乗値,適合度指標 残差 難しい 標準出力 罪は軽い 罪は重い 低い 高い やや狭い かなり広い
まとめ 因子分析は,観測変数間の相関関係を潜在変数である共通因子が説明するモデルである. 検証的因子分析(EFA)・探索的因子分析(CFA)の互いの relative advantage を良く理解して使い分けることが必要. モデルの評価は最終的には適合度でみる.因子分析モデルがデータに適合しないこともある.
参考文献 芝祐順(1978). 因子分析法 第2版.東京大学出版会 柳井・繁桝・前川・市川 (1990) 因子分析 --- その理論と方法 --- 朝倉書店 豊田(1992).SASによる共分散構造分析.東京大学出版会 前川(1994).SASによる多変量データの解析.東京大学出版会 狩野(1997) AMOS EQS LISREL によるグラフィカル多変量解析 -- 目で見る共分散構造分析 --- 現代数学社
狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp 日本行動計量学会 春の合宿セミナー 1998.3.28-30 東京大学検見川セミナーハウス 因子分析と共分散構造分析 狩野 裕 大阪大学人間科学部 kano@hus.osaka-u.ac.jp
共分散構造分析編プログラム 共分散構造分析とは 中古車価格の解析:パス解析 自然食品店での購買行動の解析:多重指標分析 一つの実例 標準解と標準化しない解 効果の分解:間接・直接・総合効果 自然食品店での購買行動の解析:多重指標分析 共分散構造分析の典型的手順 潜在変数導入の意義 一つの実例 簡単なまとめ
共分散構造分析とは 直接観測できない潜在変数を導入し,潜在変数と観測変数との間の因果関係を同定することにより社会現象や自然現象を理解するための統計的アプローチ.基本的に非実験多変量データの分析方法で,因子分析と多重回帰分析(パス解析)の拡張.
潜在変数による相関
中古車価格のデータ 相関行列
中古車価格の共分散構造分析 ---- パス解析モデル ----
中古車価格の解析 ---- 標準解と適合度指標 ----
中古車価格の解析 ---- 不適切なモデルでは ----
入力ファイル
標準解と普通の解 ---- コンセプト ---- 標準解(standardized solution) :すべての変数の分散を1に標準化した解 パス係数は相関係数(偏相関係数)になり,因果(影響)の強さを表す 普通の解(標準化しない解) 因果(影響)の大きさを表す
標準解と普通の解 ---- 具体例 ----
効果(相関)の分解 ---- 総合効果=直接効果+間接効果 ---- 効果(相関)の分解 ---- 総合効果=直接効果+間接効果 ----
効果(相関)の分解:標準解 ----総合効果=直接効果+間接効果---- 効果(相関)の分解:標準解 ----総合効果=直接効果+間接効果----
効果(相関)の分解2:標準解 ----総合効果=直接効果+間接効果---- 効果(相関)の分解2:標準解 ----総合効果=直接効果+間接効果---- 註:YEAR から SHEKEN へのパスの実質的な意味はない.解説のための例題
効果(相関)の分解3:標準解 ----総合効果=直接効果+間接効果---- 効果(相関)の分解3:標準解 ----総合効果=直接効果+間接効果---- 註:YEAR と SHEKEN の相関の実質的な意味はない.解説のための例題
回帰分析の繰り返しとの比較 モデルが適切なときには,推定値間に大きな差はないことが多い 「回帰分析の繰返し」の欠点 一部のデータで一部の母数を推定するので推定効率が落ちる モデルの良さがチェックできない 独立変数間相関=0などの情報が使えない
自然食品店での購買行動 自然食品店での購買行動 ---- アンケートデータの解析 ----
潜在変数のある 共分散構造分析チャート
自然食品店での購買行動 ---- アンケートデータの解析 ---- 仮説を潜在変数で表す 測定モデル:指標の作成
自然食品店での購買行動 ---- データの収集 ---- X1: 食品添加物に気を使う X2: 栄養のバランスに気を使う X3: 自然食料品店での購買額 X4: 自然食料品店での購買回数
解析結果 ---- 多重指標モデル(標準解) ----
自然食品店での購買行動 ---- 不適切なモデルでは ----
入力ファイル作成の要点 推定方法のデフォルトは最尤法(ML) 従属変数には方程式を作成 独立変数には分散・共分散を設定 潜在変数の尺度を固定する 潜在変数からのパス係数を一つ1に固定 独立潜在変数は分散を1に固定してもよい † 矢印を1本も受けていない変数を独立変数,1本でも受けていれば従属変数となる
入力ファイル
潜在変数の導入の意義 (心理学などでの)構成概念の数理モデル 次元縮小 誤差を伴ってしか測定できない状況 測定道具(コスト)の問題 低い相関の補正…..アンケートデータの相関はなぜ低いか
構成概念と次元縮小
誤差を伴ってしか測定できない---- 窒素含有量とトウモロコシの生産高 ---- ★単回帰モデル Y=73.15+0.34X ★変量内誤差モデル Y=67.56+0.42F1
変量内誤差モデル ★方程式 X= F1+E1 Y=*F1+E2
アンケートデータの相関はなぜ低いか ---- 被験者の信頼性が低い ----
低い相関を補正する ---- 希薄化の修正 ---- Fit?
方法因子を入れた解析 ---- 誤差間相関と等式制約の応用 ----
共分散構造分析はなぜ難しいと言われるか? 潜在変数に関する仮説が練られていない 指標(観測変数)が適切でない モデル規定の自由度が大きい EFAでは因子数と回転の自由度のみ モデルの適合度が上がらない EFAでは適合度の吟味をしていない.共通性を中心に観る傾向がある 分散やパスを固定するといったテクニカルなことが多い EFAではデフォルトで共通因子の分散=1を設定してある
指標(観測変数)の 収束・弁別妥当性 (収束妥当性) 項目=>構成概念を予想 (弁別妥当性) 構成概念=>項目を選択
一つの実例 一つの実例 多母集団の解析と欠測値データ
日経プリズム:企業評価システム
潜在変数に関する仮説 このデータは限定 100社程度しかない
日経PRISM:項目とモデル
多母集団による欠測値データの解析手順 「評価」のデータがあるグループとないグループに分ける. 2つの母集団間の対応するパス係数に等式制約を入れて推定する.
多母集団による欠測値データの解析例 「評価」があるグループ 「評価」がないグループ
因果と相関 ---- 相関は因果の必要条件! ---- 時間的先行性 関連性の強さ 直接的関係 関連の一致性(普遍性 consistency) 関連の整合性(coherence)
簡単なまとめ 直接観測できない潜在変数を導入し,潜在変数と観測変数との間の因果関係を同定することにより社会現象や自然現象を理解するための統計的アプローチ. 特 徴 データから因果関係に関する情報を得る. 現象をシンプルに記述できる. 柔軟なモデル構成,因果関係の修正,因果モデルの比較,希薄化の修正,多母集団の同時分析
参考図書 豊田(1992).SASによる共分散構造分析.東京大学出版会. 豊田+前田+柳井(1992).原因をさぐる統計学.講談社ブルーバックス. Bollen (1989). Structural Equations with Latent Variables,Wiley. 狩野(1997).Amos, Eqs, Lisrel によるグラフィカル多変量解析 --- 目で見る共分散構造分析 ---.現代数学社. 以下の URL に共分散構造分析に関する洋書が紹介されている: http://www.gsm.uci.edu/~joelwest/SEM/SEMBooks.html
ソフトウェア AMOS: SmallWaters Corporation 1507 E. 53rd Street, #452, Chicago, IL 60615-4509, USA Email: info@smallwaters.com Web: http://www.smallwaters.com/ Phone: +1 773-667-8635 Fax: +1 773-955-6252 〒150 東京都渋谷区広尾 1-1-39 エス・ピー・エス・エス株式会社 Email: sales@spss.co.jp Web: http://www.spss.co.jp/ Phone: 03-5466-5511 Fax: 03-5466-5621 EQS: Multivariate Software, Inc. 4924 Balboa Blvd. #368 Encino, CA 91316, USA Email: sales@mvsoft.com Web: http://www.mvsoft.com/ Phone: +1 818-906-0740 Fax: +1 818-906-8205 LISREL: Scientific Software International Email: sales@ssicentral.com Web: http://www.ssicentral.com/ 1525 East 53rd Street, Suite 906 Chicago, IL 60615-4530, USA Phone: +1 312-684-4920 Fax: +1 312-684-4979 SAS(CALIS): SASインスティチュートジャパン 〒104-0054 東京都中央区勝どき1-13-1 イヌイビル・カチドキ8F http://www.sas.com/japan/ TEL:03-3533-6921 FAX:03-3533-6927