主成分分析 (Principle Component Analysis) 商品アンケート,成績データを分析 分散を最大にする見方 主成分の解釈
缶ビールのアンケート 顧客はどんな味を求めているかを分析したい 多次元だと何が何だかわからない 偏っている部分を中心として拡大して見たい 味わい系 スッキリ系 苦味 コク 香り http://ruo.mbl.co.jp/jutaku/gene_datamining.html より
座標を取り直す 少数の軸に変更 原点を,重心に移動 座標を変更する ベクトルであれば,それを軸とする座標に変換しても 対象となる個体の ほとんどを表現可能 な, 直交する ベクトルであれば,それを軸とする座標に変換しても 情報の損失はほとんどない http://home.a02.itscom.net/coffee/tako04Annex01.html より
どうすれば,見やすい座標? 斜めに散らばっているデータは斜めに見るべき 散布図を書いた紙を机の上でグルグル回転させて 一番広がっている所を横にして新しいx軸を書き 次に広がっている所を新しいy軸にする この幅で見れる この幅で 見ないといけない http://home.a02.itscom.net/coffee/tako04Annex01.html より
目標 散らばりの中心に原点があって もっとも散らばっている方向に向いている 少ない数の 座標軸を求める問題 中心からの 散らばり は,分散 偏差ベクトル:平均からいくら離れているか 分散:偏差ベクトルの大きさの2乗の平均 分散を最大 にする軸を選べばよい
高校生の成績による進路相談の例 20人の成績 数学x, 理科y, 社会u, 英語v, 国語w a,b,c,d,eを定数とし 合成変数 p を考える pが最大の分散を持つように a,b,c,d,eを選ぶ
主成分と主成分負荷量 と考えれば,合成変数pは ベクトル の線形変換 3教科の場合のパス図は右の通り ベクトル の線形変換 3教科の場合のパス図は右の通り a,b,c,d,eがむやみに大きくならない ように,制約を付加する.(以下の第2式) pを 主成分, a,b,c,d,eを 主成分負荷量 という u v w p c d e
分散を最大にするための定式化 pの分散 はpの平均, は個体数(この場合20) 各個体に対して線形変換を施すと だから, を条件 のもと, a,b,c,d,eを変数とみなし,最大化 これは,まさしく,ラグランジュの未定乗数法
ラグランジュの未定乗数法に従い を微分する.ただし, 最大値で が成立 最初の式の左辺は 左辺=0だから
行列の形に表現 他の微分の条件からも同様に計算すると 行列に直すと これは の 固有値問題 さらに,行列は 分散共分散行列 という対称行列
固有値問題を解く 分散共分散行列 A が5次以上ではA-1の計算は大変. 累乗法で固有値を数値的に解く. 解いたあと,前式に行ベクトル(a,b,c,d,e)を左からかけると 左辺を展開すると,左辺=sp2 (次ページ以降に証明) 右辺を展開し, だから右辺=λ よって つまり,固有値は 主成分の分散
前頁の左辺=sp2 を証明 左辺
左辺=sp2 の証明(続き) sp2を分散の公式を使い展開すると この式は などと表記を変えると,前頁の最後の式と同一
各主成分を構成する軸は直交する の固有値を大きいものから並べる. 各固有値に対応した固有ベクトル を考えると,Aは分散共分散行列で 対称行列だから,これらは互いに 直交 する. さらに, の要素で定義される は,k番目に大きい固有値λkに対する第k主成分 は第k主成分の軸を示すベクトルで λk は第k主成分の軸方向の 分散 の大きさ 固有ベクトルを求めると各主成分の計算法が一度に得られる
主成分の解釈 第k番目の固有ベクトルの要素を主成分負荷量とする算式 で計算される値を第k主成分の 主成分得点 という. 成績データの計算の結果,第1主成分は 数学 理科 社会 英語 国語 すべての主成分負荷量が正 分散を最大とするため,一般に第1主成分は「総合点」となる 英語の主成分負荷量が高く,英語が席次を上げる上で重要, 逆に国語の重みはきわめて軽い
第1主成分とそれ以外の主成分の関係 第1主成分によって説明しきれない分散を第2主成分で説明 さらに,第1,第2で説明しきれない分散を第3主成分で説明 第2主成分からは,分析対象に依存した意味 第2主成分 数学 理科 社会 英語 国語 数学,理科,社会の主成分負荷量は正,英語と国語では負 数学と理科は自然科学,社会は地理,経済など社会科学 自然科学・社会科学では,ルール通りの単一の解釈 英語と国語などの文学では,あいまい性を扱う. 文学では,多様な解釈を扱うことが求められる. 第2主成分は,科学性と文学性との対比(科学性が正方向)
第k主成分を除いた第(k+1)主成分 固有値 に対応した主成分p1, p2, p3, p4, p5 を考える.第k主成分 では以下の関係が成り立つ. (次頁以降に証明) したがって固有値問題を解かなくても,x, y, …の分散の合計を最大にするa1,b1,…をもとめ,第1主成分が得られれば,第2主成分は として,x’, y’, ….をもとめ,これらの分散の合計を最大にする a2,b2,…をもとめることで得られる. [注] 頑張れば,Excelでも,主成分分析はできる.
第2主成分 抽出法の証明 簡単化のために,2変数から合成される第1主成分 P を考える. x,yの分散共分散行列を 第2主成分 抽出法の証明 簡単化のために,2変数から合成される第1主成分 P を考える. x,yの分散共分散行列を 第1主成分負荷量からなる は Sの固有ベクトルで が成立. 固有値は主成分の分散だから, Pで説明しきれないベクトル を求める ために,座標軸をつけ,1点に着目
分散,共分散の定義より だから を展開した第1式 を代入 これと を代入すると, は 同様にして Pで説明しきれないベクトルは 射影により 単位ベクトル 分散,共分散の定義より だから を展開した第1式 を代入 これと を代入すると, は 同様にして
寄与率 (主成分は全体の性質をどれだけ表しているのか) 資料全体の分散に占める第k主成分の分散 の割合 累積寄与率 第1から第m主成分までの寄与率の合計 累積寄与率が1.0に十分近ければ,もとの資料 の性質を十分に表していることになる.
変量プロット もとの変数が,主成分から見て,どんな位置にあるかを示す 数学 理科 社会 英語 国語 第1主成分 第2主成分 横軸は第1主成分 数学 理科 社会 英語 国語 第1主成分 第2主成分 x y u w v 横軸は第1主成分 すべての変数が広く散らばっており,第1主 成分が総合点であることをよく示している 縦軸は第2主成分 数学,理科,社会が正,英語と国語が負になっ ており,科学 vs 文学の軸であると言える.
主成分得点プロット 主成分得点: 各個体について,主成分を計算した値 第1主成分 第2主成分 第1主成分 第2主成分 主成分得点プロット 各個体の主成分得点を,主成分を軸とする座標平面上に表示したもの,サンプル・プロットともいう 1 8 2 縦軸が 第2主成分 横軸が 第1主成分
各個体を解釈 番号1の学生 番号2の学生 番号8の学生 総合力で1番 科学 vs 文学 は平均的 学力優秀,二重人格 総合力は低い 理論に強いが融通もきく 学力優秀,二重人格 番号2の学生 総合力は低い 文学性が高く,あいまい性に 強い. 学力は中の下,懐が広い 営業職,部下を理解できる上司 番号8の学生 総合力は平均的 学力は中の上,理論好き 結果だけを見て取り組み姿勢を理解しない,血も涙もない性格 銀行員,警察官,工場長など 1 8 2