1 心理学の基礎 (6) 因子分析の基本問題 香川大学経済学部 堀 啓造 日本心理学会第回大会 2000年11月6日.

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

マルチレベル共分散構造分析 清水裕士 大阪大学大学院人間科学研究科日本学術振興会. 本発表の概要・目的 個人 - 集団データの階層性 個人 - 集団データの階層性 階層的データは従来の方法では十分な分析が できない 階層的データは従来の方法では十分な分析が できない 従来の方法は何が不十分なのか?
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
グラフィカル多変量解析 ----目で見る共分散構造分析----
データ解析
データ分析入門(12) 第12章 単回帰分析 廣野元久.
因子分析,共分散構造分析 Factor Analysis Structural Equations Model
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
コメント 「ファセット・アプローチの 魅力とパワー」
重回帰分析入門 経済データ解析 2009年度.
因子分析と共分散構造分析 狩野 裕 大阪大学人間科学部 日本行動計量学会 春の合宿セミナー
攻撃性尺度の分析:小学生vs中学生Ⅱ ---- 多母集団の同時分析&男女間の平均を調整 ----
コメント 狩野 裕 大阪大学人間科学部 日本心理学会ワークショップ 「探索的因子分析における変数の選択(3)」
突然ですが、 金政分析へのコメント 大阪大学大学院人間科学研究科 平井 啓 2017年3月13日(月)
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
重回帰分析入門 経済データ解析 2011年度.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
日本行動計量学会第29回大会 於:甲子園大学 (2001/9/14-16)
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
回帰分析.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
主成分分析と因子分析 による競馬の勝因の研究
ワークショップ ユーザーとメーカーの公開相談会
analysis of survey data 第3回 香川大学経済学部 堀 啓造
analysis of survey data 第2回 堀 啓造
構造方程式モデリング(SEM) Structural Equation Modeling.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
相関分析.
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
4章までのまとめ ー 計量経済学 ー.
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
独立成分分析 (ICA:Independent Component Analysis )
香川大学経済学部 堀 啓造 日本心理学会第64回大会 2000年11月6日
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
尺度化について 狩野 裕 大阪大学人間科学部.
再討論 狩野裕 (大阪大学人間科学部).
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
対応のある共分散分散行列の同時分析 ーー 震災ストレスデータの同時分析 ーー
analysis of survey data 堀 啓造
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
クロス表分析補遺 。堀 啓造(香川大学経済学部) 2003年5月.
データ解析 静岡大学工学部 安藤和敏
藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
重回帰分析入門 経済データ解析 2008年度.
実験計画法 Design of Experiments (DoE)
重回帰分析入門 (第5章補足) 統計学 2007年度.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
心理学研究の自己点検(6): 心理学研究における 探索的因子分析の基本問題 企画・講演:堀 啓造氏
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

1 心理学の基礎 (6) 因子分析の基本問題 香川大学経済学部 堀 啓造 日本心理学会第回大会 2000年11月6日

2 1.主成分分析・因子分析 (直交モデル) 主成分分析はデータの集約 因子分析は潜在因子を仮定する この違いを示す。

3 データの作成 全く相関しない乱数データを多数作る。 N=1000 の変数を任意に作成する。 SPSS 使用 互いに独立な正規乱数生成マクロ spss.html#ranzero

4 F1因子F1因子 F2因子F2因子 =0.6 × =0.5 × V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 E1E1 E2E2 E3E3 E4E4 E5E5 E6E6 E7E7 E8E8 E9E9 E1 0 +0.8 × +0.87 ×

5 変数の作成 (v1 ~ v10) 第1因子 compute x1=0.6**2. compute w1=sqrt(x1). compute w2=sqrt(1-x1). compute v1=w1*f1+w2*e1. compute v2=w1*f1+w2*e2. compute v3=w1*f1+w2*e3. compute v4=w1*f1+w2*e4. compute v5=w1*f1+w2*e5. 第2因子 compute x1=0.5**2. compute w1=sqrt(x1). compute w2=sqrt(1-x1). compute v6=w1*f2+w2*e6. compute v7=w1*f2+w2*e7. compute v8=w1*f2+w2*e8. compute v9=w1*f2+w2*e9. compute v10=w1*f2+w2*e10.

6 相関行列 V1V2V3V4V5V6V7V8V9V10 V V V V V V V V V V

7 1 .00 + 0.36 *4 1 .00 + 0.25 *4 0.36 *5 0.25 *5

8

9

10 主成分分析を行う FACTOR /VARIABLES v1 to v10 /ANALYSIS v1 to v10 /PRINT extraction /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION pc.

11 sqrt(2.44/5) =

12 因子分析はモデルをきれいに再現させ た。 主成分分析はもとのモデルよりも負荷 量・共通性とも大きくなる。 主成分分析がデータの記述であること を示すにはもう一つつっこむ必要があ る。 変数の数を減らしてみる。 v9,v10 をカット

13

14

15 主成分分析と因子分析の違い 主成分分析は関係する変数の数が変わ ると負荷量・共通性が変わる。 → 主成分分析は記述 しかも,数値はその因子に関連する変 数の数によって意味が違っていて,結 果を誤読するおそれがある。 因子分析は関係する変数の数が変わっ ても負荷量・共通性の値は変化しない。

16 2.主成分分析と 因子分析の直交解・斜交解 斜交解が適切な場合におこる問題を指 摘し,斜交解が適切であることを示す。 特に主成分分析は斜交解が適切な場合 におおきな問題を抱えている。回転を しない解の問題を指摘する。 斜交回転は 直接 oblimin(0)

17 データの作成 compute a1=0.5. /* 因子 compute a3=0.3. /* g compute a2=1-a1-a3. compute w1=sqrt(a1). compute w3=sqrt(a3). compute w2=sqrt(a2). compute v6=w1*f2+w3*f5+w2*e6. compute v7=w1*f2+w3*f5+w2*e7. compute v8=w1*f2+w3*f5+w2*e8. compute v9=w1*f2+w3*f5+w2*e9. compute v10=w1*f2+w3*f5+w2*e10. compute a1=0.3. /* 因子 compute a3=0.3. /*g compute a2=1-a1-a3. compute w1=sqrt(a1). compute w3=sqrt(a3). compute w2=sqrt(a2). compute v16=w1*f4+w3*f5+w2*e16. compute v17=w1*f4+w3*f5+w2*e17. compute v18=w1*f4+w3*f5+w2*e18. compute v19=w1*f4+w3*f5+w2*e19. compute v20=w1*f4+w3*f5+w2*e20. exec.

18 G因子G因子 F1因子F1因子 F2因子F2因子 =0.5 5 × +0.7 1 × +0.55 × V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 E1E1 E2E2 E3E3 E4E4 E5E5 E6E6 E7E7 E8E8 E9E9 E1 0 +0.4 5 × +0.6 3 × (sqrt (0.3)) (sqrt (0.5))

19

20

21

22 r=.43 3 0.89 4= sqrt (0.3 +0. 5) 0.77 5= sqrt (0.3 +0. 3)

23 主成分分析をすると

24

25 一般因子がある場合,主成分分析(回 転をしない本来のもの)は,意味もな く,2つの因子をひっつける。これは 単に分散を最大化するためのもの。 だから,解釈する意味はないと考えた ほうがいい。 実際にはいろんな複雑な関係があるか ら,解釈したくなる。 意味づけできるものでも分散最大化の 人工的なものと抑える。

26 r=.39 7 r=.43 3

27 主成分分析 変数の数を減らす 因子分析の負荷量は変化しないが, 主成分負荷量は変化する。

28 主成分間相関・因子間相関 主成分分析 主成分分析 因子分析 因子分析 主成分分析の主成分間相関はもとのモ デルを再現できないし,変数の数に よって変化する

29 G因子G因子 F3F3 F4F4 = V1 V2 V6 V7 V11 V12 V16 V17 E1E1 E2E2 E6E6 E7E7 E1 1 E1 2 E1 6 E1 7 F1F1 F2F2

30 4因子データ (2,4 は前と同 じ) compute a1=0.6. /* 因子 compute a3=0.3. /*g */ compute a2=1-a1-a3. compute w1=sqrt(a1). compute w3=sqrt(a3). compute w2=sqrt(a2). compute v1=w1*f1+w3*f5+w2*e1. V2 ~ v5 compute a1=0.4. /* 因子 compute a3=0.3. /*g */ compute a2=1-a1-a3. compute w1=sqrt(a1). compute w3=sqrt(a3). compute w2=sqrt(a2). compute v11=w1*f3+w3*f5+w2*e 11.v12 ~ v15

31

32 主成分を解釈したくなるが,あくまで 分散最大化するためのもの 意味がなくても結合するのである。 但し,第1主成分は主として一般因子

33 Varimax 回転と直接 oblimin Varimax 解には小さな負荷量がつく。 小さな負荷量であっても必ずしも無視 できるものではない。

34 因子間相関 r=0.433

35 Varimax 回転直接 oblimin

36 高次因子 階層因子分析

37 変数 因子 高次因子 階層因子 1次因 子

38 高次因子 因子間相関行列から計算 一般因子の負荷量の設定 は同じ: sqrt(0.3)=0.548 F1=0.577*0.949 = F2=0.613*0.894 = F3=0.655*0.837 = F4= 0.707*0.775 = 絶対量でなく比率

39 参考: Statistica の階層因子分析 変数大幅に省略(各因子の1変数のみ記 載) sqrt(0.3)= sqrt(0.6)= sqrt(0.5)= sqrt(0.4)= sqrt(0.3)= 0.548

40 斜交の図(省略) promax k の指定:3,4,6,8 kが大きい方が単純解 直接 oblimin γ または δ =0 指定 -方向は直交解に近くなる +方向はより斜交 0がもっともよい (promax よりも単純 解)

41 promax k=3 r=0.373 θ=68.1°

42 promax k=4 r= θ=64.7°

43 直接 oblimin γ=0 r=0.442 θ=63.7°

44 第2部 因子抽出法 (1) ML 最尤法 (2) ULS 最小2乗法=反復主因子法 (3) 非反復法 ( Kano, 1990; Cudeck,1991) Cudeck(2000)

45 (1) 最尤法(ML) (a) 多変量正規分布を前提 はっきりと正規分布からはずれる場 合には使わない → 最小2乗法 (b) 検定法がいろいろある →good (c) 変数が非常に多いときにはよくない かもしれない。 Cudeck(2000) では50以 内。 (d) 不適解になる可能性が他の方法より 多い →bad であり 診断としては good (e) 初期値を変えたら不適解でなくなるか もしれない

46 (2) 最小2乗法 (ULS) (a) 収束すれば反復主因子法, Minres な どと同じ結果。 (b) 反復主因子法に比べ収束がはやい (c) 多変量正規分布の前提がない (d) どの因子数でもそれなりにフィット する (これは欠点) (e) 不適解

47 (3) 不適解「共通性が1を超えま した」 (a) 反復主因子法をやってみる (不適解 か?) (b) 非反復因子分析 (Kano, 1990; Cudeck, 1991) (c) 不適解がどうして起こっているか検討す る 狩野裕 (1998). 不適解の原因と処理:探索的因 子分析 大阪大学人間学部紀要, 24, (d) 因子数を減らしてみる (e) その因子の変数の減(またはなくす) (f) 主成分分析または非反復の主因子法 (g) その因子の変数増 (再調査) (h) サンプル増(良性の場合)(再調査)

48 第3部 因子数の決定 因子分析と主成分分析との違いは分かった。 しかし,因子数をうまく決定しないと因子分 析は結局意味ないよ。 探索的因子分析なんて風水みたいなもんじゃ ない。

49 1.因子数決定の主たる方法 (1) 市川雅教,1990 in 柳井・繁桝・前川・市川 『因子分析ーその理論と方法』朝倉書店 (1) 対角1の相関行列の固有値1以上の数 (2) 相関行列の対角にSMCを入れて固有値 0以上の数 (3) スクリープロット (4) 共通因子により説明される割合 (5) 尤度比検定 (6) 情報量 AIC

50 1.因子数決定の主たる方法 (2) Cudeck, R. (2000). Exploratory factor analysis. In Handbook of applied multivariate statistics and mathematical modeling. Academic Press. (1)Eigenvalues Greater than Unity (2)Scree Test (3)Test of Exact Fit (4)Root Mean Square Error of Approximation (RMSEA)

51 (a) 固有値1以上 →parallel analysis ランダムなデータを因子分析したときの固 有値の期待値よりもその固有値が大きい Horn, J.L. (1965). 同一変数,ケース数の 乱数を生成し,比較する。 その都度生成せず,(変数数,因子数, ケース数をつかう)重回帰により固有値の 大きさを推測する。 –Montanelli & Humphreys (1976) SMC –Allen and Hubbard(1986) など 主成分分析

52 (b) MAP (Velicer, 1976) 最小平均偏相関 minimum average partial correlation (MAP) 1因子あたりの指標の数が多いときに もっともいい成績 Velicer, W.F. (1976). Determining the number of components from the matrix of partial correlations. Psychometrika, 41,

53 2.因子の範囲を絞り込む MAP<=主成分PA<=SMCのPA 基本的にこの範囲の中に解がある。 さらに以下のことを考慮する RMSEAが 0.08 以下である。 0.05 以下なら よい (AIC),BIC,BIC * の最小値 不適解にならない 結果が解釈可能 変数の増減,サンプルの削除

54 柳井・繁桝・前川・市川『因子分析ー その理論と方法』朝倉書店 の性格検査 男女各100名合計20 0名 13性格尺度

55

56 3~5因 子

57 4因子が有望

58

59

60

61 3.因子のチェック 一つの変数だけの因子になっていない か – 独自因子 高い負荷量であっても標準誤差が大き くないか? Browne らのCEFAを使用 する 果たして直交解でいいのか?

62 4.過小因子数と過大因子数 このタイプの研究はいくつかある。 Wood et al.(1996) の研究からまとめる。 – (シミュレーション実験) 過小因子数は過大因子数よりも大きな 問題がある。独自因子だけの変数があ る場合、かつ1または2の過大因子数 による被害はほとんどない。独自因子 だけの変数がない場合は本来の因子を 分割する。

63 第4部 被験者,変数の数 相関係数を安定させるためにはかなり の被験者の数を要求する。きれいな構 造をもつデータで100~200程度 は必要というものもある。それ以外は 200以上。 しかし,変数の数とも関係する。

64 1.変数の数 その因子に所属する変数の数。 共通性が高ければ変数の数は少なくて もいい。 しかし,その因子をどの程度代表する のか問題。広範に変数をとる。変数の サンプリングは重要 Velicer らの実験結果をまとめた Stevens の考え。次に →

65 因子と変数の数 Guadagnoli and Velicer(1988) (1) 絶対値 0.60 以上の負荷をもつ変数が4つ以 上の因子(サンプル数に関係ない) (2) 低い負荷量 (0.40) の因子が10以上の変数で サンプル数が150以上 (3) サンプル数が300以上でない場合は、少 数の低負荷量変数しかない因子は解釈すべき でない。 追加。 0.80 以上の負荷量の変数が少なくとも3 あるときはいい。

66 (2)RMSEA から必要サンプルを求 める SAS のマクロがある。 これを SPSS の syntax にした。 #samplefactor 探索的因子分析の必要サンプル数求める syntax (参考) 1因子当たりの変数の数が増えると必要な ケース数は減る

67 第5部モデル 知能テスト 児玉ら (1978) 『日本版 WISC-R 知能検査 法』 男女50人ずつ 6歳児 12の下位検査 (1) 知識 (2) 類似 (3) 算数 (4) 単語 (5) 理解 (6) 数唱 (7) 絵画完成 (8) 絵画配列 (9) 積木模様 (10) 組み合わせ (11) 符号 (12) 迷路

68

69

70

71 第1因子に注目

72

73

74 Varimax 解

75 varimax 解

76 promax 解 k=4 r=0.444

77 階層因子分析 Statistica (元r=0. 514)

78 モデル 直交解でいいのか? → 一般因子や因子間 相関を見えなくする 高次因子でいいのか → 斜交の当てはまりの 良さを強調する。きちんと理論モデルを立 てていないとなにか分かりにくい 階層因子分析でいいのか → モデルがあまり きれいでない 下位尺度をつくるなら,一般因子があるは ず。 – 高次因子または階層因子を想定する → 斜交解 いろんなモデルの立て方を学ぶ

79 結局は探索的因子分析である。確定す るためには検証するための他の研究が 必要 因子の単純構造がはっきりしている場 合にはどの方法を使っても,因子数を 含め簡単に決定できる。 人間は何でも解釈できるという欠点を もっている。