主成分分析 Principal Component Analysis PCA

Slides:



Advertisements
Similar presentations
社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
0章 数学基礎.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
データ解析
阪神・中日選手の 時系列傾向分析  福元 祥二  渡部 達朗.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
回帰分析.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
第12章 連続潜在変数 修士 1年 村下 昇平.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
高校数学の知識から、 人工知能・機械学習・データ解析へ つなげる、 必要最低限の教科書
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
主成分分析 (Principle Component Analysis)
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
6. ラプラス変換.
独立成分分析 (ICA:Independent Component Analysis )
プログラミング論 主成分分析
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
線形判別分析 Linear Discriminant Analysis LDA
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
回帰分析(Regression Analysis)
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
rd-7. 主成分分析 (Rシステムでデータサイエンス演習)
AAMと回帰分析による視線、顔方向同時推定
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
高校数学の知識から、 人工知能・機械学習・データ解析へ つなげる、 必要最低限の教科書
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

主成分分析 Principal Component Analysis PCA 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

主成分分析 (PCA) とは? 主成分分析 (Principal Component Analysis, PCA) 見える化 (可視化) する手法 多変量 (多次元) のデータセットを低次元化する方法 データセットのもつ情報量をなるべく失わないように 元の次元から より低い次元でデータセットを表現 “より低い次元” を2次元にすれば可視化を達成 軸を回転 (+反転) させる

PCAの図解 例) 15人の身長・体重データ (多次元のデータ) PCA 第1主成分だけでも、15人のだいたいの情報はおさえられる 第1主成分軸 X2: 体重 第2主成分軸 PCA X1: 身長 第1主成分だけでも、15人のだいたいの情報はおさえられる

PCAで できること データセットのだいたいの様子を見る いろいろな主成分同士のプロットを見る それぞれの主成分の角度を見ることで、データセットがどんな方向に 分布しているか分かる ノイズを除く 第4成分以降をノイズとみなして、第1,2,3主成分のみ使う、とか データセットの中で外れているサンプルを探す PCAをした後に主成分のプロットを見たとき、他のサンプルと 離れているサンプルは、PCA前のサンプル同士も必ず離れている 変数 (PCA後は成分) の間の相関を 0 にする 回帰分析をしたときの回帰係数の値が安定になる

データセットの表し方 : k 個目のサンプルにおける、i 番目の変数(記述子) の値 : 変数(記述子) の数 : サンプルの数

PCAの前に PCAの前に、必ず前処理を行いましょう 分散が 0、もしくは同じ値を多くもつ変数の削除 オートスケーリング 詳しくは こちら

2変数のときのPCA (3変数以上への拡張も簡単) 変数(記述子) サンプル

主成分とローディング : 第 i 主成分 : 第 i 主成分に対応する、j 番目の変数(記述子) の重み (ローディング)

行列で表すと・・・ : k 個目のサンプルにおける、i 番目の変数(記述子) の値 : k 個目のサンプルにおける、第 i 主成分の値 : 第 i 主成分に対応する、j 番目の変数(記述子) の重み (ローディング)

第1主成分を考える

ローディングの制約条件 ローディング(重み)を定数倍することで、主成分が変わってしまうため ローディングの二乗和は 1 とする

主成分の分散を最大化 データセットのばらつき (分散) が最大の方向を第一主成分軸とする 元のデータセットはオートスケーリングしてあり、各変数の平均は 0 p.7 のように変数の線形結合で表される主成分の平均も 0 分散を最大化させることは、主成分の値の二乗和を最大化させることに 対応する を最大化させる! : i 個目のサンプルにおける、第1主成分の値

Sを最大化するローディングを求める が規格化条件 を満たしながら S を最大化する Lagrange の未定乗数法

Lagrangeの未定乗数法 λ を未知の定数として下の G が最大となる λ , を求める G が最大 G が極大

Gを偏微分して 0 G が最大 G が極大 G をλ , で偏微分して 0 行列で表現

行列で表す ただし、

固有値問題へ 以外の解をもつためには、 の行列式が 0 である必要がある λ を固有値、 p1 に加えて p2 を固有ベクトルとする固有値問題 これによって p1, p2 を求め、対応する主成分を計算する

寄与率 第 i 主成分に対応する固有値 λi は、その主成分の二乗和に等しい つまり、 固有値 λi を第 i 主成分のもつ情報量と仮定する 全固有値の中の λi の割合を寄与率 ci として、 第 i 主成分のもつ情報量の割合として用いる m : すべての主成分の数

累積寄与率 第 i 主成分までの寄与率の和を、第 i 主成分までの累積寄与率とする たとえば、 可視化した第2主成分までの累積寄与率は 0.75 であった 累積寄与率が 0.9 を超えた最初の主成分までを用いる といったように用いられる

逆写像 PCAにより、あるサンプルを低次元空間に写像できる 低次元空間に写像された点を、元の空間に戻すことを逆写像という 元のサンプル点と逆写像された点との距離を見ることで、 サンプル点が写像先とどれくらい近いかが分かる 離れているサンプルは、適切に写像されていない、外れ値である、 などの議論ができる

逆写像のしかた 第 i 主成分までのローディング P を用いる あるサンプル x に対して、T = xP で第 i 主成分までのスコア T を 計算する TPT が逆写像されたサンプルである つまり、 xPPT で逆写像されたサンプルを計算できるあ