社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部

Slides:



Advertisements
Similar presentations
Mathematica による固有値計算の高速化 Eigenvalue calculation speed by Mathematica 情報工学部 06A2055 平塚翔太.
Advertisements

Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
1 線形代数学. 2 履修にあたって 電子情報システム学科 必修 2005 年度1セメスタ開講 担当 草苅良至 (電子情報システム学科) 教官室: G I 511 内線: 2095 質問等は上記のいずれかに行なうこと。 注意計算用のノートを準備すること。
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
陰関数定理と比較静学 モデルの連立方程式体系で表されるとき パラメータが変化したとき 如何に変数が変化するか 至るところに出てくる.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
0章 数学基礎.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
グラフィカル多変量解析 ----目で見る共分散構造分析----
データ解析
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
因子分析,共分散構造分析 Factor Analysis Structural Equations Model
阪神・中日選手の 時系列傾向分析  福元 祥二  渡部 達朗.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
データ解析 静岡大学工学部 安藤和敏
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
3 二次方程式 1章 二次方程式 §2 二次方程式と因数分解         (3時間).
4.3 連立1次方程式   Ax = b   (23) と書くことができる。
第1回 担当: 西山 統計学.
第三回 線形計画法の解法(1) 標準最大値問題 山梨大学.
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
回帰分析.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計学 第3回 10/11 担当:鈴木智也.
線形代数学 4.行列式 吉村 裕一.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
寺尾 敦 青山学院大学社会情報学部 社会統計 第8回:多重比較 寺尾 敦 青山学院大学社会情報学部
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
3次元での回転表示について.
相関分析.
データ解析 静岡大学工学部 安藤和敏
数学 ---> 抽象化、一般化 より複雑な関係ー>解析学 一次関数 y=ax+b より多くの要素ー>線形代数 x y f(x) y1 x1
 統計学講義 第11回     相関係数、回帰直線    決定係数.
主成分分析 (Principle Component Analysis)
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データ解析 静岡大学工学部 安藤和敏
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
独立成分分析 (ICA:Independent Component Analysis )
3次元での回転表示について.
知能システム論I(13) 行列の演算と応用(Matrix) 2008.7.8.
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
中学数学1年 3章 方程式 §1 方程式とその解き方 (6時間).
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
資料 線型変換のイメージ 固有値、固有ベクトル 平賀譲(209研究室) 資料
4. システムの安定性.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
データ解析 静岡大学工学部 安藤和敏
行列式 方程式の解 Cramerの公式 余因数展開.
相関分析 2次元データと散布図 共分散 相関係数.
行列 一次変換,とくに直交変換.
プログラミング論 相関
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
回帰分析入門 経済データ解析 2011年度.
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部

1.主成分分析とは テキスト:渡部洋(編著)『心理・教育 のための多変量解析入門 基礎編』第1 章 ひとつの集団に対して多くの変数を測定 – 例:複数科目の学力試験,多くの変数を測定 する社会調査 複数の変数を何らかの方法で合成して, 新しい総合的な変数を作りたい. – 性的寛容性の指数(『社会統計学』第 11 章)

変数の重みづけによる合成 主成分分析( principal component analysis ): 合成変数 Y の分散が最大となるように,重 み w を決定する方法 – 個人差をはっきりさせる 回帰分析と異なり,予測すべき外的な変数 (基準変数)は存在しない. – 合成変数 Y はデータとして与えられるのではな い

第1主成分( first principal component ): いくつかの変数から,分散最大化の原理 にしたがって合成された変数. 第2主成分( second principal component ):第1主成分との相関がゼロ になるような合成変数のうち,分散が最 大のもの 変数が p 個ある場合,最大で p 個の主成分 を求めることができる.

主成分分析の主要な目的は,相互に相関 のある p 個の変数を,それら変数に含ま れる情報を大きく損なうことなく,相互 に無相関の,より少ない変数に置き換え ること.次元縮約. – 後述するように, p 個の変数の分散を合計す ると, p 個の主成分の分散の合計に等しい. – より少数の主成分の分散を合計したとき,そ れがもとの全分散とあまり大きく変わらない ならば,情報の損失は小さい.

2.2変量データの主成分分析 (1) 主成分分析を行うデータには多くの変数 が含まれるのが一般的.説明のため,2 変数の場合を考える. – 例題:20人の大学生 – X 1 :教育統計学( stat1 ) – X 2 :心理測定法( stat2 ) > head(pca1) Student stat1 stat

平均 X1X1 X2X2

> mean(pca1$stat1) [1] 71.2 > var(pca1$stat1) [1] > sd(pca1$stat1) [1] > mean(pca1$stat2) [1] 79.6 > var(pca1$stat2) [1] > sd(pca1$stat2) [1] > cor(pca1$stat1, pca1$stat2) [1] この値は,不偏分散およ びその正の平方根.テキ ストの値と異なる.

合成変数 Y 合成変数の分散 s Y 2 は, X 1 の分散を s 1 2 , X 2 の分散を s 2 2 , X 1 と X 2 の共分散を s 12 と して, 重みを大きくしていけば合成変数の分散 はいくらでも大きくできるので,制約を つける. (1-1) (1-2) (1-3)

合成変数 Y の分散 あるいは N -1

制約式より, w 1 の値が決まれば w 2 も決ま る 第1主成分を合成するときの重みは,分 散最大化のため,共分散が正ならば2つ の重みを同符号に,負ならば異符号にす る – 後述するように,重みは固有ベクトルとして 「まとめて」得られるので,あまり気にしな くてよい. (1-6, 1-7)

主成分の分散 第1主成分の重み (1-8) (1-4) (1-5)

教育統計学と心理測定法のデータを, R を 使って主成分分析する. > pca2 <- pca1[,2:3] > result <- prcomp(pca2) > summary(result) Importance of components: PC1 PC2 Standard deviation Proportion of Variance Cumulative Proportion 主成分の分散 の平方根

分散の再配分 最大化された分散 これら2つの分散の合計は,もとの2変 数の分散の合計と等しい.主成分分析は, もとの変数の分散の総和を各主成分に再 配分する.第1主成分から順にできるだ け大きな分散を占めるようにする. > result$sdev^2 [1]

説明される分散 主成分によって説明される分散.この データでは,第1主成分で 92% が説明され ている.もとの2変数のかわりに,この 合成変数だけを利用してよい.落ちてし まう情報は8%だけ. > summary(result) Importance of components: PC1 PC2 Standard deviation Proportion of Variance Cumulative Proportion 寄与率

重み – 第1主成分の合成式 – 第2主成分の合成式 > result$rotation PC1 PC2 stat stat

3.2変量データの主成分分析 (2) 第1主成分の軸.この軸にそった方向の 測定値の散らばり(分散)が最大 各測定値での第1主成分の値は, 測定値を表す点から第1主成分の 軸に下ろした垂線の足(垂線と軸 との交点). 主成分分析は,データの散らばり が最大となる軸の方向を見つけ, その軸上での原点からの距離を 新しいスコアとする変数をつくる 方法である. もとの2変数の平均を原点とする

第2主成分の軸は第1主成分と直交 第1主成分の軸 第2主成分の軸 Y1Y1 Y2Y2 各測定値での第2主成分は, 第2主成分の軸に垂線を 下ろした点の座標(左図の Y 2 )

個人ごとの主成分得点(1人目~ 10 人 目) > result$x PC1 PC2 [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]

主成分得点を散布図にプロット > pcscore <- data.frame(result$x) > plot(pcscore$PC1, pcscore$PC2, type="n") > text(pcscore$PC1, pcscore$PC2) 軸だけ描く ラベルを加える関数. ここではデータ番号 をラベルとしている

座標軸の回転 もとの変数軸を角度 θ だけ回転させたとき, これが主成分の軸であるとする(テキス ト図 1-2 ).どちらの座標系でも距離の単 位は同じ. θ θ 主成分の座標系での,軸方向の 単位ベクトル(大きさ1)は, もとの座標系での,軸方向の 単位ベクトル(大きさ1)は,

特定の点( a, b )を,もとの座標系と主成 分の座標系のそれそれで表現すると, 以上2つの式を整理すると(次のスライ ド参照), (1-13) (1-9)

第1主成分での重みは, 第2主成分での重みは, 重みの2乗和は1. (1-11) (1-12) (1-10)

主成分分析=座標軸の回転 – 座標軸の直交性を保つ – 新しい座標軸が各主成分に対応する > pcscore <- data.frame(result$x) > cor(pcscore$PC1, pcscore$PC2) [1] e-16 新しい座標軸で相関を計算するとゼロ

4.変数の標準化 重み(後述の固有ベクトル),および, 最大化された分散(後述の固有値)は, 観測値の単位に依存する. – 分散共分散行列の固有値と固有ベクトル この影響をなくすためには,測定値を変 数ごとに標準化してから主成分分析を行 えばよい. – 標本相関係数行列の固有値と固有ベクトル

各変数を標準化すると,それぞれ分散は 1になる.すると第1主成分の分散 λ 1 は, (1-4) 式より, (1-14)

変数を標準化したときの,第1主成分を 構成するための重み w 1 , w 2 は, (1-5) およ び (1-6) 式より, 次のスライドへ (1-15)

r 12 > 0 のとき, r 12 < 0 のとき,

変数を標準化してから主成分分析を実行 > result2 <- prcomp(pca2, scale=TRUE) > summary(result2) Importance of components: PC1 PC2 Standard deviation Proportion of Variance Cumulative Proportion > result2$rotation PC1 PC2 stat stat

5.多変量データの主成分分析 多変量(変数の数が3つ以上)の場合で も,主成分分析の原理は同じ. – 各主成分において重みの2乗和は1. – 合成変数の分散を最大化するように,第1主 成分の重みを決める. – 第 j 主成分は,それまでの主成分のいずれと も無相関となる合成変数のうち,分散が最大 となるもの. – 幾何学的には,合成変数間の相関がゼロとな るように,変数軸を直交回転させる.

データが標準化されているとき,それぞれの 主成分において,各変数との相関は,その変 数にかかる重みに比例する.第 j 主成分 Y j と, もとの変数 X k との相関は(証明は次のスラ イド), ある主成分がどのような内容の変数であるか の解釈は,どの変数に大きな重みがかかって いるかを見て考えることができる. (1-17) 主成分負荷量

分子を変形すると, N 人のデータがあるとき,第 j 主成分 Y j と変数 X k の相関係数は, 次のスライドへ

数学的補足説明のセクションで後述するように, したがって相関係数 r jk の分子は, したがって相関係数 r jk は, もとの変数を標準化すれば, 分母は1

もとの変数(素点)と主成分との相関 変数を標準化した場合 > cor(pca2, result$x) PC1 PC2 stat stat > cor(pca2, result2$x) PC1 PC2 stat stat

(1-17) 式の両辺を2乗した後,すべての変 数について足し合わせると,主成分 Y j で の重みの2乗和が1であることに注意し て, 合成された分散を最大化することは,合 成された変数と各変数との相関の2乗和 を最大化することに等しい. (1-18)

6.主成分分析の数学的補足説 明 ここまでに証明なしで与えてきた式を数 学的に導く. ラグランジュの未定乗数法.最大化した い関数(分散 s Y 2 )と,制約条件を組み合 わせた,次のような関数 Q を定義する. この関数の値を最大化することを考える. (1-19)

未知数が3つあるので,それぞれについ て偏微分してゼロとおく (1-22) :制約式と同じ (1-21) (1-20)

(1-20), (1-21) 式より, これを行列とベクトルで表記すると, (1-27) (1-30) (1-28) 分散共分散行列

λ は合成変数の分散になる. (1-27) 式の両 辺に w 1 , (1-28) 式の両辺に w 2 をかけて, 2つの式を辺ごとに加えて整理すると, (1-27) (1-28) (1-23)

得られた式をさらに変形(連立方程式の 右辺を左辺に移項)すると, 左辺の行列に逆行列が存在すると,重み がいずれもゼロになってしまう(両辺に 左から逆行列をかけてみよ).逆行列を 持たないためには行列式の値がゼロでな ければならない.

行列式を求めてゼロとおく. λ の2次方程 式が得られる.この方程式を特性方程式 ( characteristic equation )と呼ぶ.

λ の2次方程式を解く.2つの解がそれぞ れ,第1主成分の分散と第2主成分の分 散.

最大化された分散が求められたら,もと の連立方程式に戻って,重み(連立方程 式の解)を求める. 連立方程式の解は不定(行列式の値がゼ ロであったことに注意)なので,2乗和 が1という制約を満たすように重みを決 める.

下の式のように,一次変換において方向 の変わらないベクトルを固有ベクトル ( eigenvector ),一次変換による固有ベク トルの伸縮率 λ を固有値( eigenvalue )と 呼ぶ. 主成分分析における主成分の分散と重み を求める問題は,分散共分散行列の固有 値と固有ベクトルを求める問題になる.

各主成分の構成に用いられる重みのベク トルを並べて行列 X を作る.2変数の場 合, (1-16) 式の記号を使うと, 分散共分散行列 S は,行列 X とその転置 行列 X t を用いて,以下のように対角化さ れる. (正方行列の固有値の性質)

理解確認のポイント 主成分分析の目的を説明できますか? 主成分とは何か,説明できますか? – 分散が最大となる合成変数 – 重みの2乗和は1 – 合成する変数が p 個のとき,最大で p 個の主 成分を合成できる – 主成分はどうしの相関はゼロ

合成する変数が p 個のとき, p 個の主成分 の分散を合計すると,何に等しくなるか わかりますか? 主成分分析の幾何学的意味を説明できま すか? – 2変数を標準化してからの主成分分析での, 軸の回転角は?

変数を標準化する目的は何か,説明でき ますか? 変数を標準化しての主成分分析では,も との変数と主成分との相関係数は何に比 例しますか? – この相関係数の2乗和は,主成分の分散に等 しい.

行列の固有値および固有ベクトルとは何 か,説明できますか? 分散共分散行列の固有値と固有ベクトル は,主成分分析での何と対応しているか わかりますか? – 変数を標準化した場合には相関行列