因子分析,共分散構造分析 Factor Analysis Structural Equations Model

Slides:



Advertisements
Similar presentations
社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
マルチレベル共分散構造分析 清水裕士 大阪大学大学院人間科学研究科日本学術振興会. 本発表の概要・目的 個人 - 集団データの階層性 個人 - 集団データの階層性 階層的データは従来の方法では十分な分析が できない 階層的データは従来の方法では十分な分析が できない 従来の方法は何が不十分なのか?
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
グラフィカル多変量解析 ----目で見る共分散構造分析----
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
データ分析入門(12) 第12章 単回帰分析 廣野元久.
数理統計学(第四回) 分散の性質と重要な法則
阪神・中日選手の 時系列傾向分析  福元 祥二  渡部 達朗.
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
北日本における4月と8月気温の強い相関関係とその時間変動(2)
9. 主成分分析 Principal Component Analysis (PCA)
相関係数 植物生態学研究室木村 一也.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
林俊克&廣野元久「多変量データの活用術」:海文堂
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
日本行動計量学会第29回大会 於:甲子園大学 (2001/9/14-16)
回帰分析.
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
3章 Analysing averages and frequencies (前半 p )
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
回帰分析/多変量分析 1月18日.
主成分分析と因子分析 による競馬の勝因の研究
ワークショップ ユーザーとメーカーの公開相談会
構造方程式モデリング(SEM) Structural Equation Modeling.
ガウス過程による回帰 Gaussian Process Regression GPR
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
相関分析.
データ解析 静岡大学工学部 安藤和敏
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
主成分分析 (Principle Component Analysis)
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
データ解析 静岡大学工学部 安藤和敏
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
大規模なこと Large scale.
独立成分分析 (ICA:Independent Component Analysis )
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
主成分分析 Principal Component Analysis PCA
東京工科大学 コンピュータサイエンス学部 亀田弘之
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Rを使用したデータ解析・グラフ描き.
RでのScheffeの多重比較.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
データ解析 静岡大学工学部 安藤和敏
データ解析 静岡大学工学部 安藤和敏
RでのScheffeの多重比較.
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
プログラミング論 相関
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
統計現象 高嶋 隆一 6/26/2019.
Presentation transcript:

因子分析,共分散構造分析 Factor Analysis Structural Equations Model      主成分分析 Principal Components 第17章 共分散構造分析 Structural Equations Model (SEM)

線形構造の図式(p310) Linear Structure 観測変数 Observed V. 潜在変数 Latent V. 誤差項 Error term 重回帰分析 Multiple Linear Regression (複数の観測変数と誤差で目的の観測変数を表現) x1 y e x2 因子分析 Factor Analysis (複数の観測変数を 共通の潜在変数で表現) 主成分分析 Principal Components (複数の観測変数を統合し 集約した潜在変数で表現) y1 e1 x1 f1 h1 e1 y2 x2 e2 h2 e2 f2 y3 x3 e3

線形構造の図式(p310) Linear Structure 観測変数 Observed V. 潜在変数 Latent V. 誤差項 Error term 一般線形構造 General Structure δ2 y1 e1 f2 e4 y4 y2 e2 f1 f3 y3 e3 y5 e5 Structural Equation Model (SEM), Linear Structure Regression with Latent variables(LISREL) δ3

乱数による人工データの発生(p320) 1変数の発生 2変数(相互に相関を持つ)の発生 乱数関数で,必要な個数の乱数を発生させる x <- runif(n=100, -3, 3) 一様乱数(個数,区間) y <- rnorm(n=100, 50, 10)正規分布(個数,平均,標準偏差) 2変数(相互に相関を持つ)の発生 rho <- 0.6, x <- rnorm(100,50,10), e <- rnorm(100,0,5) y <- rho * x + sqrt(1-rho^2)*e a1 <- sqrt(0.6), a2 <- sqrt(0.6) x <- rnorm(100,50,10), e1 <- rnorm(100,0,5) e 2<- rnorm(100,0,5) y1 <- a1 *x +sqrt(1-a1^2)*e1 y2 <- a2 *x +sqrt(1-a2^2)*e2

乱数による人工データの発生(p328) 3変数以上の発生(任意の相関行列) 独立乱数からなる行列をZとする. 母相関行列をRとする. R=U'U (コレスキー分解) ただしU:上三角行列 X =ZU+μ により,目的の人工データができる. サンプルサイズ <- 10000 変数の数 <- 4 独立変数 <- matrix(rnorm(n=サンプルサイズ*変数の数),nrow=サンプルサイズ) 平均行列 <- matrix(rep(c(1,2,3,4),サンプルサイズ),nrow=サンプルサイズ,byrow=TRUE) 共分散行列 <- matrix(c(1.0, 0.5, 0.4, 0.3, 0.5, 1.0, 0.5, 0.4, 0.4, 0.5, 1.0, 0.5, 0.3,0.4.0.5,1.0), nrow=変数の数) 上三角行列 <- chol(共分散行列) 観測値 <- 独立変数 %*% 上三角行列 + 平均行列 mean(観測値[,1]) cov(観測値)

因子分析用データの発生(p308) Generation for example data # p308 generation of data for factor analysis set.seed(9999) n <- 200 relation <- matrix(c(0.09884, 0.17545, 0.52720, 0.73462, 0.45620, 0.72141, 0.47258, 0.17901, 0.07984, 0.37204), nrow=5) indiv <- diag(sqrt(c(0.53201,0.254119,0.309986,0.546036, 0.346539))) factpoint <- matrix(rnorm(2*n), nrow=2) indivpt <- matrix(rnorm(5*n), nrow=5) subjects <- round(t(relation%*%factpoint + indiv%*% indivpt)*10+50) colnames(subjects) <- c("jap","soc","math","sci","eng")

散布図行列 plot(dataframe) eval <- data.frame(subjects) plot(eval)

相関行列 Correlation Coefficients Matrix corrcoef <- cor(subjects) corrcoef 国語   社会   数学   理科   英語 国語 1.0000000 0.5502661 0.1958106 0.1631430 0.4277273 社会 0.5502661 1.0000000 0.3317530 0.2944938 0.5178159 数学 0.1958106 0.3317530 1.0000000 0.5301135 0.4575891 理科 0.1631430 0.2944938 0.5301135 1.0000000 0.3876493 英語 0.4277273 0.5178159 0.4575891 0.3876493 1.0000000

因子数の決定(相関係数の固有値) Eigen Value of Correlation Coef. Matrix eigen(corrcoef) $values [1] 2.5577515 1.0654064 0.5057871 0.4462341 0.4248208 $vectors [,1] [,2] [,3] [,4] [,5] [1,] -0.4041725 0.57887716 -0.3519510 -0.3105217 0.53033259 [2,] -0.4791143 0.36327064 -0.1060289 0.0743595 -0.78848747 [3,] -0.4380351 -0.48389701 0.2494864 -0.7130299 -0.05756589 [4,] -0.4064104 -0.54428764 -0.6058969 0.3977507 0.11517295 [5,] -0.5000499 0.05030239 0.6599499 0.4810715 0.28364804

因子分析の実行(直交回転) fvarimax <- factanal(subjects,factors=2, scores="regression") print(fvarimax,cutoff=0) 科目 第1因子 第2因子 独自性 国語 0.722 0.085 0.471 社会 0.730 0.268 0.395 英語 0.537 0.469 0.491 数学 0.177 0.768 0.379 理科 0.156 0.547 因子寄与 1.399 1.317 Uniquenesses: 国語 社会 数学 理科 英語 0.471 0.395 0.379 0.547 0.491 Loadings: Factor1 Factor2 国語 0.722 0.085 社会 0.730 0.268 数学 0.177 0.768 理科 0.156 0.655 英語 0.537 0.469           Factor1 Factor2 SS loadings   1.399 1.317 Proportion Var 0.280 0.263 Cumulative Var 0.280 0.543 Test of the hypothesis that 2 factors are sufficient. The chi square statistic is 0.08 on 1 degree of freedom. The p-value is 0.779

plot(fvarimax$loadings[,1], fvarimax$loadings[,2], asp=1) abline(h=0, v=0) text(fvarimax$loadings[,1], fvarimax$loadings[,2], labels=c("jap","soc","math","sci","eng"), pos=3)

#fvarimax <- factanal(subjects,factors=2, scores="regression") plot(fvarimax$score[,1], fvarimax$score[,2], asp=1) abline(h=0, v=0)

因子分析の実行(斜交回転) 科目 第1因子 第2因子 独自性 国語 0.801 -0.156 0.471 社会 0.749 0.050 fpromax <- factanal(subjects,factors=2,rotation="promax", scores="regression") print(fpromax,cutoff=0,sort=TRUE) 科目 第1因子 第2因子 独自性 国語 0.801 -0.156 0.471 社会 0.749 0.050 0.395 英語 0.461 0.348 0.491 数学 -0.050 0.814 0.379 理科 -0.038 0.693 0.547 因子寄与 1.419 1.291 Uniquenesses: 国語 社会 数学 理科 英語 0.471 0.395 0.379 0.547 0.491 Loadings: Factor1 Factor2 国語 0.801 -0.156 社会 0.749 0.050 数学 -0.050 0.814 理科 -0.038 0.693 英語 0.461 0.348 SS loadings 1.419 1.291 Proportion Var 0.284 0.258 Cumulative Var 0.284 0.542 Test of the hypothesis that 2 factors are sufficient. The chi square statistic is 0.08 on 1 degree of freedom. The p-value is 0.779

plot(fpromax$loadings[,1], fpromax$loadings[,2], asp=1) abline(h=0, v=0) text(fpromax$loadings[,1], fpromax$loadings[,2], labels=c("jap","soc","math","sci","eng"), pos=3) plot(fpromax$score[,1], fpromax$score[,2], asp=1)

因子分析の実行(無回転) 科目 第1因子 第2因子 独自性 国語 0.583 0.471 社会 0.715 0.395 数学 0.656 factnorot <- factanal(subjects, factors=2, rotation="none", scores="regression") print(factnorot,cutoff=0) 科目 第1因子 第2因子 独自性 国語 0.583 -0.435 0.471 社会 0.715 -0.307 0.395 数学 0.656 0.436 0.379 理科 0.563 0.369 0.547 英語 0.713 -0.028 0.491 因子寄与 2.106 0.610 Uniquenesses: 国語 社会 数学 理科 英語 0.471 0.395 0.379 0.547 0.491 Loadings: Factor1 Factor2 国語 0.583 -0.435 社会 0.715 -0.307 数学 0.656 0.436 理科 0.563 0.369 英語 0.713 -0.028 SS loadings 2.106 0.610 Proportion Var 0.421 0.122 Cumulative Var 0.421 0.543 Test of the hypothesis that 2 factors are sufficient. The chi square statistic is 0.08 on 1 degree of freedom. The p-value is 0.779 >

plot(factnorot$loadings[,1], factnorot$loadings[,2], asp=1) abline(h=0, v=0) text(factnorot$loadings[,1], factnorot$loadings[,2], labels=c("jap","soc","math","sci","eng"), pos=3) plot(factnorot$score[,1], factnorot$score[,2], asp=1)

因子得点の算出 Factor Score for each sample 因子負荷量と各個体のデータから算出 不確定性があり,複数の方法がある バートレットの重み付き最小二乗法 トムソンの回帰推定法 factoanal(df, factors=n, scores="Bartlett", "regression", "none") ffive <- factanal(subjects,factors=2,scores="Bartlett") score <- data.frame(cbind(subjects,ffive$scores)) plot(score)

因子と各変数との散布図

主成分分析 Principal Components Analysis 先の五教科の成績において,国語と社会は互いに相関が強いため,国語の点数が高ければ社会も高い可能性が高い.そこで,国語と社会の2つのデータを把握しなくても,「文系総合点」のような1つのデータで個人の状況を把握できる. 同様に,5つの教科のデータを知らなくても,例えば文系総合点,理系総合点という2つのデータで,各個人の状況を把握することができる. このように,もとのデータをうまく使って,できるだけ少ない数の総合得点(評価軸)を定義し,各個人の分布のばらつきを把握したい

主成分分析の考え方 複数変数の荷重和で,新しい指標を作る. Define a new weighting sum of variables in order to explain much of the variances. その指標で,多くのばらつきを説明したい. データが最も大きく散らばる方向を探る 「分散共分散行列」の固有ベクトルEigen vectors of Vaiance-covariance matrix 各変数のスケールが異なる場合は標準偏差で基準化して計算する 「相関係数行列」の固有ベクトル Eigen vectors of Correlation coefficients matrix

Rによる主成分分析 (分散共分散行列からはじめる) pca.gaku <- prcomp(subjects) #分析の実行 names(pca.gaku) #名前属性のチェック pca.gaku   #固有値の平方根と固有ベクトルの表示 summary(pca.gaku) #固有値平方根,寄与率,累積寄与率 screeplot(pca.gaku) #スクリープロット(固有値のグラフ) pca.gaku$center #元の変数の平均値の表示 pca.gaku$scale #スケーリングの有無の確認 pca.gaku$loadings #主成分負荷量(元の変数との相関) cor(pca.gaku$x,subjects) #主成分得点と変数の相関 cor(pca.gaku$x) #主成分得点同士の相関(0) biplot(pca.gaku, choices=c(1,3)) #バイプロット

Rによる主成分分析 (分散共分散行列からはじめる) pca.gaku   #固有値の平方根と固有ベクトルの表示 Standard deviations: [1] 13.971074 9.674429 6.556847 5.395683 5.088521 Rotation: PC1  PC2    PC3  PC4   PC5 国語 -0.4545261 0.6634739 -0.47289752 0.14516839 0.32939713 社会 -0.3667710 0.2531514 0.07138947 -0.05134978 -0.89087609 数学 -0.3561308 -0.2524045 0.28362861 0.85244739 0.04848823 理科 -0.5479742 -0.6486996 -0.45243098 -0.27164715 0.02066735 英語 -0.4814356 0.1058187 0.69723203 -0.41932160 0.30831653

Rによる主成分分析 (分散共分散行列からはじめる) summary(pca.gaku) #固有値平方根,寄与率,累積寄与率 Importance of components:   PC1 PC2 PC3 PC4 PC5 Standard deviation 13.971 9.674 6.557 5.3957 5.089 Proportion of Variance 0.505 0.242 0.111 0.0753 0.067 Cumulative Proportion 0.505 0.747 0.858 0.9331 1.000 cor(pca.gaku$x,subjects) #主成分負荷量:得点と原変数の相関 国語 社会 数学 理科 英語 PC1 -0.65302293 -0.70318791 -0.66851161 -0.73343826 -0.7778664 PC2 0.66006849 0.33608746 -0.32808926 -0.60123277 0.1183926 PC3 -0.31886138 0.06423561 0.24987036 -0.28419803 0.5287002 PC4 0.08054865 -0.03802171 0.61799311 -0.14041879 -0.2616560 PC5 0.17236584 -0.62209333 0.03315107 0.01007511 0.1814368

Rによる主成分分析 (相関係数行列からはじめる) pca.gaku2 <- prcomp(subjects,scale=TRUE) #分析実行 names(pca.gaku2) #名前属性のチェック pca.gaku2   #固有値の平方根と固有ベクトルの表示 summary(pca.gaku2) #固有値平方根,寄与率累積寄与率 screeplot(pca.gaku2) #スクリープロット(固有値のグラフ) pca.gaku2$center #元の変数の平均値の表示 pca.gaku2$scale #スケーリングの有無の確認 pca.gaku2$x #主成分得点の表示 cor(pca.gaku2$x,subjects) #主成分得点と変数の相関 biplot(pca.gaku2, choices=c(1,3)) #バイプロット

Rによる主成分分析 (相関係数行列からはじめる) pca.gaku2   #固有値の平方根と固有ベクトルの表示 Standard deviations: [1] 1.5992972 1.0321853 0.7111871 0.6680076 0.6517828 Rotation: PC1  PC2    PC3  PC4   PC5 国語 -0.4041725 0.57887716 -0.3519510 0.3105217 0.53033259 社会 -0.4791143 0.36327064 -0.1060289 -0.0743595 -0.78848747 数学 -0.4380351 -0.48389701 0.2494864 0.7130299 -0.05756589 理科 -0.4064104 -0.54428764 -0.6058969 -0.3977507 0.11517295 英語 -0.5000499 0.05030239 0.6599499 -0.4810715 0.28364804

Rによる主成分分析 (相関係数行列からはじめる) summary(pca.gaku2) #固有値平方根,寄与率,累積寄与率 Importance of components:   PC1 PC2 PC3 PC4 PC5 Standard deviation 1.599 1.032 0.711 0.6680 0.652 Proportion of Variance 0.512 0.213 0.101 0.0892 0.085 Cumulative Proportion 0.512 0.725 0.826 0.9150 1.000 cor(pca.gaku2$x,subjects) #主成分負荷量:得点と原変数の相関 国語 社会 数学 理科 英語 PC1 -0.6463919 -0.76624613 -0.70054837 -0.64997107 -0.79972835 PC2 0.5975085 0.37496261 -0.49947137 -0.56180569 0.05192139 PC3 -0.2503030 -0.07540635 0.17743154 -0.43090611 0.46934784 PC4 0.2074308 -0.04967271 0.47630935 -0.26570047 -0.32135939 PC5 0.3456617 -0.51392258 -0.03752046 0.07506775 0.18487692