林俊克&廣野元久「多変量データの活用術」:海文堂 多変量データ分析B 第6回 第3章:主成分分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.5.26. SFC5限 第3章 主成分分析 Ⅱ
3.2 三変量による主成分分析 狙い 回転プロットによる表現 座標表現とベクトル表現の理解 総合得点よりも主成分の方がよい総合指標 3.2 三変量による主成分分析 狙い 回転プロットによる表現 座標表現とベクトル表現の理解 総合得点よりも主成分の方がよい総合指標 第3章 主成分分析 Ⅱ
3.2.1 三変量の総合指標 1/2 扱うデータ:電子部品A 寸法と重量のデータ 3次元のデータをどの方向で みようが本当は分析者の自由 3.2.1 三変量の総合指標 1/2 扱うデータ:電子部品A 寸法と重量のデータ 3次元のデータをどの方向で みようが本当は分析者の自由 図3.7 3変量での散布図行列 散布図行列は立方体の面ごとに見ている状態 第3章 主成分分析 Ⅱ
3.2.1 三変量の総合指標 2/2 高さ,下幅,重量で部品の総合的な大きさ指標を作ろう 測定単位や性格が異なるので,そのまま和を取れない 3.2.1 三変量の総合指標 2/2 高さ,下幅,重量で部品の総合的な大きさ指標を作ろう 測定単位や性格が異なるので,そのまま和を取れない そこで,標準化変量の和を作ろう 問題:この合成指標よりも,性質のよい(情報量が最大) 合成変数(線形結合)があるか 第3章 主成分分析 Ⅱ
3.2.2 三変量の主成分の算出 1/7 テキストでは,最近全然流行らないパワー法で計算しています. 3.2.2 三変量の主成分の算出 1/7 テキストでは,最近全然流行らないパワー法で計算しています. パワー法は計算精度が悪く敬遠されていますが,手計算(無論電卓は必要)で解けることがうれしい 多くのソフトは,ヤコビ法を使って解いています 相関行列 初期値として(1,1,1)を与える 第3章 主成分分析 Ⅱ
3.2.2 三変量の主成分の算出 2/7 2乗和を1に基準化 代入する 2乗和を1に基準化 代入する 2乗和を1に基準化 3.2.2 三変量の主成分の算出 2/7 2乗和を1に基準化 代入する 2乗和を1に基準化 代入する 2乗和を1に基準化 第3章 主成分分析 Ⅱ
3.2.2 三変量の主成分の算出 3/7 固有ベクトルの値が安定したら繰り返し計算を止める この比がλになる 3.2.2 三変量の主成分の算出 3/7 固有ベクトルの値が安定したら繰り返し計算を止める この比がλになる 第1主成分の完成:単純な和(√p=3で割っているが)ではない 分散最大化(主成分)は,標準化した等しい重みの係数 を掛けた線形結合ではない. 相関のあり方により値が変わる(この表現は正確ではない) 第3章 主成分分析 Ⅱ
3.2.2 三変量の主成分の算出 4/7 第2主成分以降をどう求めるか 回帰の残差を求めても,そこには第2&第3主成分が混ざっている 3.2.2 三変量の主成分の算出 4/7 第2主成分以降をどう求めるか 回帰の残差を求めても,そこには第2&第3主成分が混ざっている アイデア 残差の相関係数行列を使い,再びパワー法で解けばよい 回帰残差と回帰で説明できる(第1主成分)部分とは無相関より,残差には第1主成分の情報はない 第1主成分は1番しぼりだ スペクトル分解の公式を使う(回帰残差を計算するよりも) 第3章 主成分分析 Ⅱ
3.2.2 三変量の主成分の算出 5/7 この比がλになる 第2主成分の完成 最後のしぼり汁 第3章 主成分分析 Ⅱ
3.2.2 三変量の主成分の算出 6/7 この比がλになる 第3主成分の完成 第3章 主成分分析 Ⅱ
3.2.2 三変量の主成分の算出 7/7 第3章 主成分分析 Ⅱ
3.2.3 回転プロット 1/3 JMPの主成分分析の方法 ①グラフメニューの回転プロットから ②多変量メニューの多変量の相関から 3.2.3 回転プロット 1/3 JMPの主成分分析の方法 ①グラフメニューの回転プロットから ②多変量メニューの多変量の相関から 電子部品Aを使い回転プロットを利用しよう 今度は可視化による主成分の探索!!! 第3章 主成分分析 Ⅱ
3.2.3 回転プロット 2/3 手のひらツールを使う 手の位置を変えると その位置に従って 回転する 図3.9 電子部品Aの回転プロット 3.2.3 回転プロット 2/3 図3.9 電子部品Aの回転プロット 手のひらツールを使う 手の位置を変えると その位置に従って 回転する 第3章 主成分分析 Ⅱ
図3.8 回転した方向によりプロットの分布の様子が大きく異なる 3.2.3 回転プロット 3/3 図3.8 回転した方向によりプロットの分布の様子が大きく異なる 手のひらツールを使い, ①水平方向(横軸)のばらつきがもっとも大きくなる方向をさがせ. ②逆にばらつきがもっとも小さくなる方向をさがせ. 第3章 主成分分析 Ⅱ
3.2.4 主成分分析の実行とその解釈 高さと下幅の散布図での 主成分方向の表示 2つの主成分の空間での 元の変量のベクトル表示 3.2.4 主成分分析の実行とその解釈 図3.10 回転プロットとPCA 高さと下幅の散布図での 主成分方向の表示 2つの主成分の空間での 元の変量のベクトル表示 見ている方向が違うと座標軸になったり,ベクトルになったりする 第3章 主成分分析 Ⅱ
図3.11 GHバイプロット(左)とJKバイプロット(右) 3.2.5 バイプロット 図3.11 GHバイプロット(左)とJKバイプロット(右) 個体と変量を同時に表すグラフをバイプロットという ・GHタイプ:主成分得点を標準化して,因子負荷量を同時プロット ・JKタイプ:主成分得点と固有ベクトルの同時プロット 第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 1/6 JMPでは,主成分を回転することで より軸の性格を明瞭にするために バリマックス回転を行う 3.2.6 バリマックス回転 1/6 図3.12 バリマックス回転後のバイプロット JMPでは,主成分を回転することで より軸の性格を明瞭にするために バリマックス回転を行う 第3章 主成分分析 Ⅱ
因子分析 因子分析(探索的因子分析) 目標 因子分析と主成分分析の違いについて 因子分析のコンピュータ出力(JMP)を 読み取れる力を身につけよう 因子分析は数学モデルであることを理解しよう 因子分析の潜在因子の概念を理解しよう 実際には,主成分分析と因子分析とは違う といった方がよさそうである. 長い間の論争があり,社会科学者は厳密に 両者を分けたがる. 第3章 主成分分析 Ⅱ
適用例と解析ストーリー データ 試験の成績データ 1)潜在因子数の決定 2)因子軸の回転 3)因子得点と 潜在因子の解釈 国語 x1 生徒 国語 x1 英語 x2 数学 x3 理科 x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 33 45 50 7 53 64 72 8 66 52 47 9 51 76 10 89 92 93 91 1)潜在因子数の決定 2)因子軸の回転 3)因子得点と 潜在因子の解釈 第3章 主成分分析 Ⅱ
因子分析とは 1/6 ・因子分析には,様々な方法が提案されている ・主成分解 ・主因子解 ・最尤解 ・アルファ因子解 など 因子分析とは 1/6 ・因子分析には,様々な方法が提案されている ・主成分解 ・主因子解 ・最尤解 ・アルファ因子解 など この部分はSPSSが優れている 因子分析 ・心理学者のスピアマンが創始者であるとされる ・心理学者のサーストンが多因子モデルを提唱 ・様々な数学的モデルが発展 チャトフィールド&コリンズら統計学者は批判的 ・現在の展開 →SEM(因子分析とパス解析)により真の意味で有用な 道具として認知されている (詳しくは,豊田秀樹 狩野裕の成書を) ・今回は古典的因子分析についての概要を述べる 潜在因子の概念:共通因子 特殊因子により変量を分解 第3章 主成分分析 Ⅱ
因子分析とは 2/6 1因子モデル 学力と科目特有の能力 回帰分析を行うが 説明変数は観測されていない という奇妙なもの 因子分析とは 2/6 1因子モデル 学力と科目特有の能力 回帰分析を行うが 説明変数は観測されていない という奇妙なもの 第3章 主成分分析 Ⅱ
因子分析とは 3/6 多因子モデル:複数の学力指標と科目特有の能力 ここの双方向線がない ものが直交解,あるのもが斜交解 主成分分析では, 因子分析とは 3/6 多因子モデル:複数の学力指標と科目特有の能力 ここの双方向線がない ものが直交解,あるのもが斜交解 主成分分析では, ・特殊因子(回帰分析での誤差変数)と共通因子の区別がない ・→の向きが逆(合成か分解か:解釈に大きなズレがある) 第3章 主成分分析 Ⅱ
因子分析とは 4/6 回転による単純構造化 ・回転にはバリマックス回転などがある ・共通因子を回転することによって,因子と観測変数間に単純 因子分析とは 4/6 回転による単純構造化 ・回転にはバリマックス回転などがある ・共通因子を回転することによって,因子と観測変数間に単純 構造を仮定する 2成分 2成分 数学 理科 数学 理科 国語 英語 国語 英語 社会 社会 個別能力 (変数分類) 対立概念 1成分 1成分 美術 音楽 美術 音楽 主成分分析では ・1成分は総合力 ・2成分は芸術対主要科目学力 因子の回転により ・1因子は主要科目学力 ・2因子は芸術力 第3章 主成分分析 Ⅱ
因子分析とは 5/6 バリマックス回転 による単純構造化 変数分類 ・各因子の順番は無意味 ・共通因子の意味が重要 因子分析とは 5/6 バリマックス回転 による単純構造化 変数分類 ・各因子の順番は無意味 ・共通因子の意味が重要 ・回転方法により解が異なる ・不適解が存在する -誤差変数の分散が負,共通因子と観測変数との相関が1を超える 第3章 主成分分析 Ⅱ
因子分析とは 6/6 因子モデルの定式化 相関係数行列の分解 非対角要素はゼロ 対角要素は 対角要素は特殊因子による分散 1ではない 因子分析とは 6/6 因子モデルの定式化 相関係数行列の分解 非対角要素はゼロ 対角要素は特殊因子による分散 対角要素は 1ではない 第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 2/6 データは,学生の試験を使う ①メニューの<グラフ>から<回転プロット>をクリック 3.2.6 バリマックス回転 2/6 データは,学生の試験を使う ①メニューの<グラフ>から<回転プロット>をクリック ②ウインドウで<列の選択>から“国語”,“英語”,“数学”,“理科” を選択し<OK>ボタンをクリック ③クリックして,メニューの<白色の背景>をクリック ▼ ③クリックして, メニューの <主成分分析> をクリック 第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 3/6 ▼ 2因子の説明力 (寄与率) ①クリックして,メニューの <成分の回転>をクリック 因子得点 3.2.6 バリマックス回転 3/6 ▼ 2因子の説明力 (寄与率) ①クリックして,メニューの <成分の回転>をクリック 因子得点 ②2因子モデルを考えるので, 回転する成分を2とする 第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 4/6 文系能力 軸の変更 を行う 理系能力 きれいな変数分類ができている バリマックス回転の特徴 3.2.6 バリマックス回転 4/6 文系能力 軸の変更 を行う 理系能力 きれいな変数分類ができている バリマックス回転の特徴 ・ある1つにの因子についての因子負荷量が大きくなるが それ以外では小さい 第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 5/6 因子軸 文系能力 バリマックス法は 因子負荷量の2乗分散を 最大化して単純構造化する 対立概念 総合力 3.2.6 バリマックス回転 5/6 因子軸 文系能力 バリマックス法は 因子負荷量の2乗分散を 最大化して単純構造化する 対立概念 総合力 理系能力 因子軸 総合力を分かち,対立概念局別に因子を構成する 利点:単純化構造のために潜在的因子の解釈が容易 欠点:うまく単純化構造が得られない場合の解釈が困難 不適解の存在と解法の多様性(どの方法を用いるか) 第3章 主成分分析 Ⅱ
3.2.6 バリマックス回転 6/6 因子得点による布置 総合能力 文系能力 理系能力 3.2.6 バリマックス回転 6/6 因子得点による布置 総合能力 文系能力 理系能力 因子分析では,総合能力を示す変数(最終目的変数y:例:総合満足度など)を 入れて分析しない→多因子モデルでは総合ぶりが因子群になると解釈困難!! 多くの分析では後から因子得点散布図上にベクトルを追記する(選好回帰) 第3章 主成分分析 Ⅱ
3.3 主成分分析の活用指針 ・主成分分析の目的と到達レベル ・主成分分析の主要な用語とアウトプット ・主成分分析の手順 3.3 主成分分析の活用指針 ・主成分分析の目的と到達レベル ・主成分分析の主要な用語とアウトプット ・主成分分析の手順 第3章 主成分分析 Ⅱ
3.3.1 主成分分析の目的と到達レベル 目的 第3章 主成分分析 Ⅱ
3.3.2 主成分分析の主要な用語とアウトプット 固有値:主成分の分散,得られた主成分の情報の大きさを表す 3.3.2 主成分分析の主要な用語とアウトプット 固有値:主成分の分散,得られた主成分の情報の大きさを表す 固有ベクトル:元の変量へ掛けるべき係数:重み 寄与率: 主成分で,元の変数の情報をどれだけ説明できるかを表す量 累積寄与率: 主成分で,大きい固有値を持つ方から寄与率 を累積した量 第3章 主成分分析 Ⅱ
3.3.2 主成分分析の主要な用語とアウトプット 因子負荷量:主成分と元の変量との相関係数である. 主成分の解釈に使う. 3.3.2 主成分分析の主要な用語とアウトプット 因子負荷量:主成分と元の変量との相関係数である. 主成分の解釈に使う. 因子負荷量の絶対値が大きい場合が主成分と 元の変数との関連が強いことを表す. 主成分得点:求めた主成分の線形結合の値である. この分散が1になるように固有値の平方根 ( )で割って標準化する. 因子負荷量と主成分得点を並べて解釈する場合, 標準化された主成分得点を使う. 第3章 主成分分析 Ⅱ
3.3.3 主成分分析の手順 1/5 第3章 主成分分析 Ⅱ
3.3.3 主成分分析の手順 2/5 第3章 主成分分析 Ⅱ
3.3.3 主成分分析の手順 3/5 計算の過程 手順1.分析する変量を標準化する 手順2.合成変量として,第1主成分を以下のようにおく 3.3.3 主成分分析の手順 3/5 計算の過程 手順1.分析する変量を標準化する 手順2.合成変量として,第1主成分を以下のようにおく 重みの未知数は aj (j=1,2,・・・,p) 手順3.z1の分散Vz1が最大になるような固有値,固有ベクトルを 求める. 第3章 主成分分析 Ⅱ
3.3.3 主成分分析の手順 4/5 手順4.順次,第p主成分が得られるようにp個の固有値と固有 3.3.3 主成分分析の手順 4/5 手順4.順次,第p主成分が得られるようにp個の固有値と固有 ベクトルを求める(ヤコビ法と呼ばれるアルゴリズム). 手順5.寄与率と累積寄与率を求める. 寄与率: 累積寄与率: 手順6.分析者による解釈 主成分の選択 基準固有値1以上 (固有値の平均以上を選択する) 累積寄与率80%以上 主成分を解釈する 因子負荷量のグラフを描く 主成分得点のグラフを描く サンプルや変量を分類,特徴つけする 第3章 主成分分析 Ⅱ
3.3.3 主成分分析の手順 5/5 第3章 主成分分析 Ⅱ