主成分分析 結城 隆
主成分分析とは? 主成分分析とは、変数相互の関係から、新しい概念のファクターを導く手法である。 このファクターをものさしとして、変数やサンプルの類似性あるいはポジショニングを明らかにすることができる。 文系能力 総合能力 あり あり ・国語 ・国語 ・国語 ・英語 ・数学 ・化学 ・英語 理系能力 理系能力 系別能力 系別能力 ・物理 ・物理 ・数学 ・化学 なし あり 文系 理系 なし なし 文系能力 総合能力
主成分 総合能力 このようなファクターがあるとする。例えば先ほどの右図のような場合だと科目の順位を単純に足して総合順位を出す 主成分分析 主成分分析の総合点では、各科目の得点と各科目のウェイトの積和で表される。 ファクターは と表しこの式を主成分という。変数xは先ほどの例だと国語、数学などの科目である。これをみると重要な科目ほど係数が大きくなることがわかる。 主成分は左の式のようになり、 を第1主成分, を第2主成分・・・という。 主成分分析はp個の変数をm個の新しいファクターに集約する手法である。主成分が何を表しているかは分析者が行う。
主成分分析の例 左の表では、順位は単純合計だが主成分分析を用いて順位を出す。 数学 英語 合計 順位 A 2 3 5 7 B 1 4 C 10 D E 9 F 8 6 G 13 H I J ・A ・B ・C ・D ・E ・F ・H ・G ・J ・I 0 2 4 6 8 10 10 8 6 4 2 英語 × まず点グラフを作成する。英語と数学の重心を通る線を引く。 重心(4.2,3.8) 重心を通る直線は、各点からこの直線におろした垂線の長さの2乗和の値がもっとも小さくなるような直線を引くことにする。 主成分分析では、この直線の式のことを主成分、各生徒の直線上における重心からの距離を主成分得点とする。 また に垂直な直線 を引く。 軸と 軸はそれぞれ第1主成分で総合能力、第2主成分で系別能力を表している。
主成分得点の算出 主成分の算出 AからJ、それぞれの主成分からその主成分の平均を引く 主成分の係数を固有ベクトルいう。第1主成分の固有ベクトルを第1固有ベクトルという。 主成分の算出 主成分 Z1 Z2 A 3.0082 1.9877 B 2.4751 3.2976 C 2.6198 1.0662 D 3.5413 0.6778 E 6.1611 1.7440 F 5.2396 2.1324 G 9.3140 1.5003 H 6.6942 0.4341 I 8.7809 2.8102 J 5.6280 3.0539 平均 5.3462 1.8704 主成分得点 第1 第2 A -2.3380 0.1173 B -2.8711 1.4272 C -2.7264 -0.8042 D -1.8049 -1.1926 E 0.8149 -0.1264 F -0.1066 0.2620 G 3.9678 -0.3701 H 1.3480 -1.4363 I 3.4347 0.9398 J 0.2818 1.1835 主成分は、右表のように求まる。主成分得点は新しい軸での座標。よって主成分から平均値を引くことによって求まる。 AからJ、それぞれの主成分からその主成分の平均を引く
主成分得点での順位 主成分分析での順位と単純集計を比べると下図のようになり単純集計より正確になっているように思える。 順位 単純集計 第1主成分得点 A 7 8 B 10 C 9 D E 3 4 F 6 G 1 H I 2 J 5
主成分得点の基本統計量 第1主成分得点の分散第2主成分得点の分散 第1主成分得点 第2主成分得点 A -2.3380 0.1173 5.4663 0.0138 -0.2742 B -2.8711 1.4272 8.2432 2.0369 -4.0976 C -2.7264 -0.8042 7.4334 0.6468 2.1926 D -1.8049 -1.1926 3.2577 1.4223 2.1526 E 0.8149 -0.1264 0.6640 0.0160 -0.1030 F -0.1066 0.2620 0.0114 0.0686 -0.0279 G 3.9678 -0.3701 15.7433 0.1370 -1.4686 H 1.3480 -1.4363 1.8171 2.0630 -1.9361 I 3.4347 0.9398 11.7970 0.8832 3.2278 J 0.2818 1.1835 0.0794 1.4006 0.3335 合計 54.5128 8.6882 0.0000 第1主成分得点の分散第2主成分得点の分散
第1主成分得点と第2主成分得点との関係 主成分分析で、2本の直線を求めるということは散布点の相関0となるような新しい軸を求めることと同じ。 2つの主成分得点相互の単相関係数の計算は0となる 第1主成分得点と第2主成分得点との相関 主成分分析で、2本の直線を求めるということは散布点の相関0となるような新しい軸を求めることと同じ。 主成分得点は、どの組み合わせに対しても単相関係数は0。 このことを「主成分得点は互いに独立である」という
固有値 これまで2つの主成分を求めたが、下の図をみると 軸のほうが重要に思える。そこでどちらが重要かを統計的に表すのが固有値である。 これまで2つの主成分を求めたが、下の図をみると 軸のほうが重要に思える。そこでどちらが重要かを統計的に表すのが固有値である。 この幅が狭い 主成分得点の分散が小さい 分散の大きい軸の方が重要 主成分得点の分散が大きい この幅が広い 分散は固有値である 主成分得点の基本統計量で求めた各主成分得点の分散が、固有値となる。 したがって固有値の大きい方が重要
固有値の算出 これは主成分得点の基本統計量で求めた主成分得点の分散と一致する。 数学 英語 A 2 3 4.84 0.64 1.76 B 1 10.24 0.04 -0.64 C 3.24 3.96 D 1.44 2.16 E 5 0.16 F -0.04 G 8 14.44 4.56 H 6 -1.44 I 7 7.84 6.16 J -0.24 42 38 47.6 15.6 16.4 これは主成分得点の基本統計量で求めた主成分得点の分散と一致する。
固有ベクトルの算出 の場合、すなわち第1固有ベクトルを求める。 これを解くと と求められる。 よって となる。 これを解くと と求められる。 よって となる。 同様にして の場合も求まるので なお2つの主成分の対応する固有ベクトルを掛け加算すると0になる。 このことを2つの主成分は直交するという。 第1固有ベクトル 第2固有ベクトル 数学 0.9215 -0.3884 英語 0.3884 固有値 6.06 0.97
データ単位が異なっているときの固有ベクトル 変数の単位を変えると固有ベクトルがどうなるかを調べてみる。 数学 英語 A 20 3 B 10 4 C 2 D 30 E 50 F 40 G 80 5 H 60 I 70 6 J 第1固有ベクトル 第2固有ベクトル 数学 0.9994 -0.0345 英語 0.0345 固有値 529.518 1.104 数学の得点を100点満点に直して主成分分析を行ってみる 固有ベクトルの算出で求めた固有ベクトルとは、全く違った値となってしまう。 そこで固有ベクトルを求めるときはデータ単位を同じにして主成分分析をして求めればよい。データ単位を揃えるには基準値を用いればよい。
相関行列による固有ベクトルの算出 不思議と分散行列の代わりに相関行列を用いて固有ベクトルを用いても求まる。 データ単位が異なっているときの固有ベクトルの表より これらよりよって 固有ベクトルは 第1固有ベクトル 第2固有ベクトル 数学 0.7071 英語 -0.7071 固有値 1.6018 0.3981 これは基準値をもちいた主成分分析と同じ値になる。 よってデータ単位が異なる場合、相関行列を用いて固有ベクトルを求めればよい。
主成分負荷量 固有ベクトルに 固有ベクトルを乗じたものを主成分負荷量という。 固有ベクトルに 固有ベクトルを乗じたものを主成分負荷量という。 相関行列で求めた固有ベクトルについて主成分負荷量を求めると、次のようになる。 第1主成分負荷量 第2主成分負荷量 数学 英語
寄与率 固有値の値が大きいほど、主成分の説明力は高くなる しかし固有値はもちいたデータ単位によって大きさが変わるので、各主成分の固有値が全体(固有値の総合計)に占める割合によって、固有値の大きさをみる。これによって求められる値を寄与率という。 1番目主成分からj番目主成分までの固有値の合計を累積寄与率という j番目主成分の寄与率= 分散・共分散行列のとき 相関行列で主成分分析を行った場合という相関が成立する。 j番目主成分の累積寄与率= 相関行列のとき よって相関行列で主成分分析を行ったときの j番目主成分の累積寄与率= j番目主成分の寄与率=
主成分の数 ①累積寄与率が、ある程度(例えば60%)以上大きくなること ②相関行列で主成分分析を行うときは、固有値が1.0以上であること 変数がたくさんある場合主成分の数をいくつまでとるかが問題になる 主成分の数の決め方にこれといった方法はないが目安として次のようなものがあげられる。 ①累積寄与率が、ある程度(例えば60%)以上大きくなること ②相関行列で主成分分析を行うときは、固有値が1.0以上であること 累積寄与率が第1主成分で90%以上ある 累積寄与率が大きくならない かなりの数の主成分を選択してもこのような場合がおこるのは扱っているテーマが複雑であることを表している。 これは別に悪いことではないが少ない主成分で累積寄与率を大きくしたいと考えるなら、用いている変数を整理し、2つに分けて主成分分析をするのもいつの方法である。 このような場合が起こる時はほとんど同じ変数を扱っているときでこのような場合は新しいファクターは1つしか見つからない。 このようなときは別の変数を入れるか、現在使っている変数を相互に組み合わせ新しい変数を作り、やり直せばよい
変数の設定 主成分分析は、数量データであれば、どんな変数を用いてもかまわない。変数が2つ以上なら、いくつあってもよい。しかしあまり多すぎると複雑になりすぎて累積寄与率が大きくならないことがあるので注意。 変数を新しく作る いろいろな変数を組み合わせ、新しく変数を作って主成分分析を行うことにより、新しいファクターが発見できることがあります。例として次のような変数が作れます。 人口 面積 人口 世帯数 人口密度 1世帯当たり人員
主成分の解釈とネーミング 主成分分析を行うと、主成分の式を算出するが、これが何を表してるかまでは求めない。 そこで主成分が何を表しているかは分析者が判断する。 主成分の解釈やネーミングの仕方の例として以下がある。 ①固有ベクトルの棒グラフ分析 ②固有ベクトルの点グラフ分析 ③主成分得点の属性別平均の棒グラフの分析 ④主成分得点の属性別平均の点グラフの分析
固有ベクトルの棒グラフの分析 例 主成分ごとに、固有ベクトルの大きい順にならべ棒グラフを書く。 上位方向、下位方向にある変数を調べ、これらが何を弁別しているかを分析し、その主成分の解釈を行う 例 第2固有ベクトル 第1固有ベクトル 数学 0.9215 数学 -0.3884 英語 0.3884 英語 0.9215
固有ベクトルの点グラフの分析 棒グラフと分析の仕方は変わらないが、点グラフを書くことによって、主成分の解釈がしやすくなることがある。 例 高 ・数学 0.5 ・英語 理系 文系 -0.5 0.5 低