9. 主成分分析 Principal Component Analysis (PCA) 気象学(In Meteorology)では経験的直交関数分析 (Empirical Orthogonal Function Analysis) EOF 解析ともいう。 互いに相関のある多種類の特性値のもつ情報を互いに無相関な少数個の総合特性値に要約する手法である。 (Statistical method for summary of the data) Example: ○多くの科目の得点。(数学、英語、、;学生) Math, English, : students ○多くの地点の気温時系列データ (札幌、東京、、、、、;1970,71,….2005) Temperature at Sapporo, Tokyo, : years
sum
Xij X1 X2 ……….. Xp 1 X11 X12 X1p 2 X21 X22 X2p . n Xn1 Xn2 ……. Xnp 平均 特性値(例えば、地点) Data: observation point データ | 特性値 X1 X2 ……….. Xp 1 X11 X12 X1p 2 X21 X22 X2p . n Xn1 Xn2 ……. Xnp 平均 [X1] [X2] [Xp] データ(例えば、年) Data: year
分散共分散行列:対称行列 Variance-covariance matrix
[条件]:conditions rotation of axis 1) 第1主成分Z1の係数(L1,j)は(2)の束縛条件のもとで、Z1の分散が最大となるように定める。(To maximize the variance of Z1) 2) 第2主成分Z2の係数は、(2)を満たし、かつ、Z2がZ1と無相関(直交する)の条件のもとで Z2の分散が最大になるように定める。(Z1 and Z2 are orthogonal)
ラグランジェの未定乗数法
分散共分散行列の固有値・固有ベクトル(Eigen-value and Eigen vector of the Matrix)
固有ベクトルは より 比が求まり 束縛条件 から 規格化したベクトルが求まる。
固有ベクトルの性質から したがって、分散は固有値に等しい。 最大の固有値とそれに対応する固有ベクトルがZ1を与える。第1主成分という。
根と係数の関係から 固有値の和は全分散に等しい。 一般に、固有値の和は全分散に等しい。 J の寄与率という
第2主成分は、同様に求めるが、結局、2番目に大きい固有値に対応する固有ベクトルとなる。 以下、同様。 結局、分散共分散行列の固有値問題を解き、固有値の大きい順に対応する固有ベクトルを係数とするものが順次、主成分となる。 K番目が、第k主成分。
主成分得点(スコア) 図のOH
再規格化 主成分ベクトル:単位あり。スコアが1のときの主成分パターンとなる。 スコア時系列:標準偏差が1に規格化。
主成分分析の手順 データから分散共分散行列または相関行列を計算する。 固有値・固有ベクトルを求める。 固有値の大きいものから、だい1,2、。。。主成分となる。 スコア(PC)時系列を求める。 PCの分散が1になるよう規格化。(固有値のルート)
Rule of thumb (North) 一般に固有ベクトル(主成分パターン)は定在的な空間パターンを表す。 連続する固有値(ベクトル)が別のものか、どうか。 移動性のものは2つのパターンとして現れることが多い。
例
例2
北極振動または北半球環状モード(Arctic Oscillation or Northern Annular Mode) EOF1 of the winter NH SLP 北極振動にともなう海面気圧偏差。等値線間隔は0.5hPa。負の領域に陰影
冬(12,1,2月平均)の北極振動指数(○つき実線)と札幌の平均気温(太実線)。
IPCC第4次報告書10章 Figure 10.17
「実践!気候データ解析(松山・谷本)」より 北大西洋海面水温のEOF1 「実践!気候データ解析(松山・谷本)」より 空間EOF1 時間EOF1
主成分と回帰直線の違い Y 主成分軸からの距離の自乗和を最小にする。 回帰直線とのy軸方向の差(dy)の自乗和を最小にする X
正準相関分析 Canonical correlation 2組の互いに相関のあるデータがある。 X1, X2, …………, Xs Y1, Y2, ……………., Yt (sとtは異なっても良い) r1
1) uk, vk の平均0、分散1 2) uk, um は無相関 (k =/ m) 3) vk, vm は無相関 (k =/ m) 以下の条件を満たすとき、u, v を正準変量( canonical variable ) といい、uk と vk の相関係数 rk を第 k 正準相関 (canonical correlation) という。 1) uk, vk の平均0、分散1 2) uk, um は無相関 (k =/ m) 3) vk, vm は無相関 (k =/ m) 4) uk, vm は無相関 (k =/ m) 5) uk と vk の相関は rk で大きさの順。
結合-EOF は左の行列(2つの変数を合わせたもの)の固有値・固有ベクトル。 Rはs行 t 列の行列 正準相関分析は上記を解く。
特異値分解 (singular value decomposition: SVD)
「実践!気候データ解析(松山・谷本)」より