主成分分析 (Principle Component Analysis)

Slides:



Advertisements
Similar presentations
Mathematica による固有値計算の高速化 Eigenvalue calculation speed by Mathematica 情報工学部 06A2055 平塚翔太.
Advertisements

社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
1 運動方程式の例2:重力. 2 x 軸、 y 軸、 z 軸方向の単位ベクトル(長さ1)。 x y z O 基本ベクトルの復習 もし軸が動かない場合は、座標で書くと、 参考:動く電車の中で基本ベクトルを考える場合は、 基本ベクトルは時間の関数になるので、 時間で微分して0にならない場合がある。
0章 数学基礎.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
データ解析
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
因子分析,共分散構造分析 Factor Analysis Structural Equations Model
阪神・中日選手の 時系列傾向分析  福元 祥二  渡部 達朗.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
データ解析 静岡大学工学部 安藤和敏
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1回 担当: 西山 統計学.
第三回 線形計画法の解法(1) 標準最大値問題 山梨大学.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
Extremal Combinatorics 14.1 ~ 14.2
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
回帰分析.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
透視投影(中心射影)とは  ○ 3次元空間上の点を2次元平面へ投影する方法の一つ  ○ 投影方法   1.投影中心を定義する   2.投影平面を定義する
主成分分析と因子分析 による競馬の勝因の研究
需要の価格弾力性 価格の変化率と需要の変化率の比.
電気回路学Ⅱ エネルギーインテリジェンスコース 5セメ 山田 博仁.
(ラプラス変換の復習) 教科書には相当する章はない
高校数学の知識から、 人工知能・機械学習・データ解析へ つなげる、 必要最低限の教科書
3次元での回転表示について.
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
プログラミング論 II 2008年吉日 主成分分析 数値積分
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データ解析 静岡大学工学部 安藤和敏
6. ラプラス変換.
独立成分分析 (ICA:Independent Component Analysis )
3次元での回転表示について.
ルンゲクッタ法 となる微分方程式の解を数値的に解く方法.
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
資料 線型変換のイメージ 固有値、固有ベクトル 平賀譲(209研究室) 資料
第1回、平成22年6月30日 ー FEM解析のための連続体力学入門 - 応力とひずみ 解説者:園田 恵一郎.
4. システムの安定性.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
計測工学 計測工学8 最小二乗法3 計測工学の8回目です。 最小二乗法を簡単な一時関数以外の関数に適用する方法を学びます。
データ解析 静岡大学工学部 安藤和敏
行列式 方程式の解 Cramerの公式 余因数展開.
データ解析 静岡大学工学部 安藤和敏
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
相関分析 2次元データと散布図 共分散 相関係数.
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
行列 一次変換,とくに直交変換.
プログラミング論 相関
電気回路学Ⅱ 通信工学コース 5セメ 山田 博仁.
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
回帰分析入門 経済データ解析 2011年度.
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
Presentation transcript:

主成分分析 (Principle Component Analysis) 商品アンケート,成績データを分析 分散を最大にする見方 主成分の解釈

缶ビールのアンケート 顧客はどんな味を求めているかを分析したい 多次元だと何が何だかわからない 偏っている部分を中心として拡大して見たい 味わい系 スッキリ系 苦味 コク 香り http://ruo.mbl.co.jp/jutaku/gene_datamining.html より

座標を取り直す 少数の軸に変更 原点を,重心に移動 座標を変更する ベクトルであれば,それを軸とする座標に変換しても 対象となる個体の ほとんどを表現可能  な, 直交する ベクトルであれば,それを軸とする座標に変換しても 情報の損失はほとんどない http://home.a02.itscom.net/coffee/tako04Annex01.html より

どうすれば,見やすい座標? 斜めに散らばっているデータは斜めに見るべき 散布図を書いた紙を机の上でグルグル回転させて 一番広がっている所を横にして新しいx軸を書き 次に広がっている所を新しいy軸にする この幅で見れる この幅で 見ないといけない http://home.a02.itscom.net/coffee/tako04Annex01.html より

目標 散らばりの中心に原点があって もっとも散らばっている方向に向いている 少ない数の 座標軸を求める問題 中心からの 散らばり は,分散 偏差ベクトル:平均からいくら離れているか 分散:偏差ベクトルの大きさの2乗の平均 分散を最大 にする軸を選べばよい

高校生の成績による進路相談の例 20人の成績 数学x, 理科y, 社会u, 英語v, 国語w a,b,c,d,eを定数とし 合成変数 p を考える pが最大の分散を持つように a,b,c,d,eを選ぶ

主成分と主成分負荷量 と考えれば,合成変数pは ベクトル の線形変換 3教科の場合のパス図は右の通り ベクトル       の線形変換 3教科の場合のパス図は右の通り a,b,c,d,eがむやみに大きくならない ように,制約を付加する.(以下の第2式) pを 主成分, a,b,c,d,eを 主成分負荷量 という u v w p c d e

分散を最大にするための定式化 pの分散 はpの平均, は個体数(この場合20) 各個体に対して線形変換を施すと だから, を条件              のもと, a,b,c,d,eを変数とみなし,最大化 これは,まさしく,ラグランジュの未定乗数法

ラグランジュの未定乗数法に従い を微分する.ただし, 最大値で が成立 最初の式の左辺は 左辺=0だから

行列の形に表現 他の微分の条件からも同様に計算すると 行列に直すと これは      の 固有値問題 さらに,行列は 分散共分散行列 という対称行列

固有値問題を解く 分散共分散行列 A が5次以上ではA-1の計算は大変. 累乗法で固有値を数値的に解く. 解いたあと,前式に行ベクトル(a,b,c,d,e)を左からかけると 左辺を展開すると,左辺=sp2 (次ページ以降に証明) 右辺を展開し, だから右辺=λ よって つまり,固有値は 主成分の分散

前頁の左辺=sp2 を証明 左辺

左辺=sp2 の証明(続き) sp2を分散の公式を使い展開すると この式は                   などと表記を変えると,前頁の最後の式と同一

各主成分を構成する軸は直交する の固有値を大きいものから並べる. 各固有値に対応した固有ベクトル を考えると,Aは分散共分散行列で 対称行列だから,これらは互いに 直交 する. さらに, の要素で定義される は,k番目に大きい固有値λkに対する第k主成分    は第k主成分の軸を示すベクトルで   λk は第k主成分の軸方向の 分散 の大きさ 固有ベクトルを求めると各主成分の計算法が一度に得られる

主成分の解釈 第k番目の固有ベクトルの要素を主成分負荷量とする算式 で計算される値を第k主成分の 主成分得点 という. 成績データの計算の結果,第1主成分は            数学  理科   社会  英語  国語 すべての主成分負荷量が正 分散を最大とするため,一般に第1主成分は「総合点」となる 英語の主成分負荷量が高く,英語が席次を上げる上で重要, 逆に国語の重みはきわめて軽い

第1主成分とそれ以外の主成分の関係 第1主成分によって説明しきれない分散を第2主成分で説明 さらに,第1,第2で説明しきれない分散を第3主成分で説明 第2主成分からは,分析対象に依存した意味 第2主成分               数学  理科 社会  英語 国語 数学,理科,社会の主成分負荷量は正,英語と国語では負 数学と理科は自然科学,社会は地理,経済など社会科学 自然科学・社会科学では,ルール通りの単一の解釈 英語と国語などの文学では,あいまい性を扱う. 文学では,多様な解釈を扱うことが求められる. 第2主成分は,科学性と文学性との対比(科学性が正方向)

第k主成分を除いた第(k+1)主成分 固有値 に対応した主成分p1, p2, p3, p4, p5 を考える.第k主成分 では以下の関係が成り立つ.   (次頁以降に証明) したがって固有値問題を解かなくても,x, y, …の分散の合計を最大にするa1,b1,…をもとめ,第1主成分が得られれば,第2主成分は                     として,x’, y’, ….をもとめ,これらの分散の合計を最大にする a2,b2,…をもとめることで得られる. [注] 頑張れば,Excelでも,主成分分析はできる. 

第2主成分 抽出法の証明 簡単化のために,2変数から合成される第1主成分 P を考える. x,yの分散共分散行列を 第2主成分 抽出法の証明 簡単化のために,2変数から合成される第1主成分 P を考える. x,yの分散共分散行列を              第1主成分負荷量からなる        は Sの固有ベクトルで      が成立. 固有値は主成分の分散だから, Pで説明しきれないベクトル  を求める ために,座標軸をつけ,1点に着目

分散,共分散の定義より だから を展開した第1式 を代入 これと を代入すると, は 同様にして Pで説明しきれないベクトルは 射影により 単位ベクトル 分散,共分散の定義より だから を展開した第1式 を代入 これと を代入すると, は 同様にして

寄与率 (主成分は全体の性質をどれだけ表しているのか) 資料全体の分散に占める第k主成分の分散 の割合 累積寄与率 第1から第m主成分までの寄与率の合計     累積寄与率が1.0に十分近ければ,もとの資料     の性質を十分に表していることになる.

変量プロット もとの変数が,主成分から見て,どんな位置にあるかを示す 数学 理科 社会 英語 国語 第1主成分 第2主成分 横軸は第1主成分 数学  理科 社会  英語 国語 第1主成分 第2主成分 x y u w v 横軸は第1主成分  すべての変数が広く散らばっており,第1主  成分が総合点であることをよく示している 縦軸は第2主成分  数学,理科,社会が正,英語と国語が負になっ  ており,科学 vs 文学の軸であると言える.

主成分得点プロット 主成分得点: 各個体について,主成分を計算した値 第1主成分 第2主成分  第1主成分  第2主成分 主成分得点プロット 各個体の主成分得点を,主成分を軸とする座標平面上に表示したもの,サンプル・プロットともいう 1 8 2 縦軸が 第2主成分 横軸が 第1主成分

各個体を解釈 番号1の学生 番号2の学生 番号8の学生 総合力で1番 科学 vs 文学 は平均的 学力優秀,二重人格 総合力は低い 理論に強いが融通もきく 学力優秀,二重人格 番号2の学生 総合力は低い 文学性が高く,あいまい性に 強い. 学力は中の下,懐が広い 営業職,部下を理解できる上司 番号8の学生 総合力は平均的 学力は中の上,理論好き 結果だけを見て取り組み姿勢を理解しない,血も涙もない性格 銀行員,警察官,工場長など 1 8 2