主成分分析                     結城  隆   .

Slides:



Advertisements
Similar presentations
Mathematica による固有値計算の高速化 Eigenvalue calculation speed by Mathematica 情報工学部 06A2055 平塚翔太.
Advertisements

社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
進学率と就職率から見るフリーター を生む社会構造の問題点について 発表者 中田 憲裕 炭山 元希.
衛星画像とセンサスデータを用 いたQOLのマッピング 筑波大学生命環境系 松下文経 2011年10月13日.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
因子分析,共分散構造分析 Factor Analysis Structural Equations Model
・力のモーメント ・角運動量 ・力のモーメントと角運動量の関係
阪神・中日選手の 時系列傾向分析  福元 祥二  渡部 達朗.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
重回帰分析入門 経済データ解析 2009年度.
データ解析 静岡大学工学部 安藤和敏
初級ミクロ経済学 -生産者行動理論- 2014年10月20日 古川徹也 2014年10月20日 初級ミクロ経済学.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
Bassモデルにおける 最尤法を用いたパラメータ推定
重回帰分析入門 経済データ解析 2011年度.
回帰分析.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
線形代数学 4.行列式 吉村 裕一.
データ分析入門(13) 第13章 主成分分析 廣野元久.
回帰分析/多変量分析 1月18日.
主成分分析と因子分析 による競馬の勝因の研究
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
プログラミング論 II 2008年吉日 主成分分析 数値積分
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
主成分分析 (Principle Component Analysis)
2a グラフの用法.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データ解析 静岡大学工学部 安藤和敏
独立成分分析 (ICA:Independent Component Analysis )
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
非対称リンクにおける ジャンボフレームの性能評価
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
母分散の信頼区間 F分布 母分散の比の信頼区間
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
第3章補足2 多変量データの記述 統計学基礎 2010年度.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
資料 線型変換のイメージ 固有値、固有ベクトル 平賀譲(209研究室) 資料
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
データ解析 静岡大学工学部 安藤和敏
クロス表とχ2検定.
データ解析 静岡大学工学部 安藤和敏
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第2章 統計データの記述 データについての理解 度数分布表の作成.
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
回帰分析入門 経済データ解析 2011年度.
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
Presentation transcript:

主成分分析                     結城  隆   

主成分分析とは? 主成分分析とは、変数相互の関係から、新しい概念のファクターを導く手法である。 このファクターをものさしとして、変数やサンプルの類似性あるいはポジショニングを明らかにすることができる。 文系能力 総合能力 あり あり ・国語 ・国語 ・国語 ・英語 ・数学 ・化学 ・英語 理系能力 理系能力 系別能力 系別能力 ・物理 ・物理 ・数学 ・化学 なし あり 文系 理系 なし なし 文系能力 総合能力

主成分 総合能力 このようなファクターがあるとする。例えば先ほどの右図のような場合だと科目の順位を単純に足して総合順位を出す 主成分分析 主成分分析の総合点では、各科目の得点と各科目のウェイトの積和で表される。 ファクターは                          と表しこの式を主成分という。変数xは先ほどの例だと国語、数学などの科目である。これをみると重要な科目ほど係数が大きくなることがわかる。 主成分は左の式のようになり、 を第1主成分,  を第2主成分・・・という。 主成分分析はp個の変数をm個の新しいファクターに集約する手法である。主成分が何を表しているかは分析者が行う。

主成分分析の例 左の表では、順位は単純合計だが主成分分析を用いて順位を出す。 数学 英語 合計 順位 A 2 3 5 7 B 1 4 C 10 D E 9 F 8 6 G 13 H I J ・A ・B ・C ・D ・E ・F ・H ・G ・J ・I 0 2 4 6 8 10 10 8 6 4 2 英語 × まず点グラフを作成する。英語と数学の重心を通る線を引く。 重心(4.2,3.8) 重心を通る直線は、各点からこの直線におろした垂線の長さの2乗和の値がもっとも小さくなるような直線を引くことにする。            主成分分析では、この直線の式のことを主成分、各生徒の直線上における重心からの距離を主成分得点とする。  また に垂直な直線  を引く。  軸と  軸はそれぞれ第1主成分で総合能力、第2主成分で系別能力を表している。  

主成分得点の算出 主成分の算出 AからJ、それぞれの主成分からその主成分の平均を引く 主成分の係数を固有ベクトルいう。第1主成分の固有ベクトルを第1固有ベクトルという。 主成分の算出 主成分 Z1 Z2 A 3.0082 1.9877 B 2.4751 3.2976 C 2.6198 1.0662 D 3.5413 0.6778 E 6.1611 1.7440 F 5.2396 2.1324 G 9.3140 1.5003 H 6.6942 0.4341 I 8.7809 2.8102 J 5.6280 3.0539 平均 5.3462 1.8704 主成分得点 第1 第2 A -2.3380 0.1173 B -2.8711 1.4272 C -2.7264 -0.8042 D -1.8049 -1.1926 E 0.8149 -0.1264 F -0.1066 0.2620 G 3.9678 -0.3701 H 1.3480 -1.4363 I 3.4347 0.9398 J 0.2818 1.1835 主成分は、右表のように求まる。主成分得点は新しい軸での座標。よって主成分から平均値を引くことによって求まる。 AからJ、それぞれの主成分からその主成分の平均を引く

主成分得点での順位 主成分分析での順位と単純集計を比べると下図のようになり単純集計より正確になっているように思える。 順位 単純集計 第1主成分得点 A 7 8 B 10 C 9 D E 3 4 F 6 G 1 H I 2 J 5

主成分得点の基本統計量 第1主成分得点の分散第2主成分得点の分散 第1主成分得点 第2主成分得点 A -2.3380 0.1173 5.4663 0.0138 -0.2742 B -2.8711 1.4272 8.2432 2.0369 -4.0976 C -2.7264 -0.8042 7.4334 0.6468 2.1926 D -1.8049 -1.1926 3.2577 1.4223 2.1526 E 0.8149 -0.1264 0.6640 0.0160 -0.1030 F -0.1066 0.2620 0.0114 0.0686 -0.0279 G 3.9678 -0.3701 15.7433 0.1370 -1.4686 H 1.3480 -1.4363 1.8171 2.0630 -1.9361 I 3.4347 0.9398 11.7970 0.8832 3.2278 J 0.2818 1.1835 0.0794 1.4006 0.3335 合計 54.5128 8.6882 0.0000 第1主成分得点の分散第2主成分得点の分散

第1主成分得点と第2主成分得点との関係 主成分分析で、2本の直線を求めるということは散布点の相関0となるような新しい軸を求めることと同じ。 2つの主成分得点相互の単相関係数の計算は0となる 第1主成分得点と第2主成分得点との相関 主成分分析で、2本の直線を求めるということは散布点の相関0となるような新しい軸を求めることと同じ。 主成分得点は、どの組み合わせに対しても単相関係数は0。 このことを「主成分得点は互いに独立である」という

固有値 これまで2つの主成分を求めたが、下の図をみると 軸のほうが重要に思える。そこでどちらが重要かを統計的に表すのが固有値である。 これまで2つの主成分を求めたが、下の図をみると  軸のほうが重要に思える。そこでどちらが重要かを統計的に表すのが固有値である。 この幅が狭い 主成分得点の分散が小さい 分散の大きい軸の方が重要 主成分得点の分散が大きい この幅が広い 分散は固有値である 主成分得点の基本統計量で求めた各主成分得点の分散が、固有値となる。 したがって固有値の大きい方が重要

固有値の算出 これは主成分得点の基本統計量で求めた主成分得点の分散と一致する。 数学 英語 A 2 3 4.84 0.64 1.76 B 1 10.24 0.04 -0.64 C 3.24 3.96 D 1.44 2.16 E 5 0.16 F -0.04 G 8 14.44 4.56 H 6 -1.44 I 7 7.84 6.16 J -0.24 42 38 47.6 15.6 16.4 これは主成分得点の基本統計量で求めた主成分得点の分散と一致する。

固有ベクトルの算出 の場合、すなわち第1固有ベクトルを求める。 これを解くと と求められる。 よって となる。 これを解くと                        と求められる。           よって                           となる。 同様にして  の場合も求まるので なお2つの主成分の対応する固有ベクトルを掛け加算すると0になる。             このことを2つの主成分は直交するという。 第1固有ベクトル 第2固有ベクトル 数学 0.9215 -0.3884 英語 0.3884 固有値 6.06 0.97

データ単位が異なっているときの固有ベクトル 変数の単位を変えると固有ベクトルがどうなるかを調べてみる。 数学 英語 A 20 3 B 10 4 C 2 D 30 E 50 F 40 G 80 5 H 60 I 70 6 J 第1固有ベクトル 第2固有ベクトル 数学 0.9994 -0.0345 英語 0.0345 固有値 529.518 1.104 数学の得点を100点満点に直して主成分分析を行ってみる 固有ベクトルの算出で求めた固有ベクトルとは、全く違った値となってしまう。  そこで固有ベクトルを求めるときはデータ単位を同じにして主成分分析をして求めればよい。データ単位を揃えるには基準値を用いればよい。

相関行列による固有ベクトルの算出 不思議と分散行列の代わりに相関行列を用いて固有ベクトルを用いても求まる。 データ単位が異なっているときの固有ベクトルの表より これらよりよって 固有ベクトルは 第1固有ベクトル 第2固有ベクトル 数学 0.7071 英語 -0.7071 固有値 1.6018 0.3981 これは基準値をもちいた主成分分析と同じ値になる。   よってデータ単位が異なる場合、相関行列を用いて固有ベクトルを求めればよい。

主成分負荷量 固有ベクトルに 固有ベクトルを乗じたものを主成分負荷量という。 固有ベクトルに 固有ベクトルを乗じたものを主成分負荷量という。 相関行列で求めた固有ベクトルについて主成分負荷量を求めると、次のようになる。 第1主成分負荷量 第2主成分負荷量 数学 英語

寄与率 固有値の値が大きいほど、主成分の説明力は高くなる しかし固有値はもちいたデータ単位によって大きさが変わるので、各主成分の固有値が全体(固有値の総合計)に占める割合によって、固有値の大きさをみる。これによって求められる値を寄与率という。 1番目主成分からj番目主成分までの固有値の合計を累積寄与率という j番目主成分の寄与率= 分散・共分散行列のとき 相関行列で主成分分析を行った場合という相関が成立する。 j番目主成分の累積寄与率= 相関行列のとき よって相関行列で主成分分析を行ったときの j番目主成分の累積寄与率= j番目主成分の寄与率=

主成分の数 ①累積寄与率が、ある程度(例えば60%)以上大きくなること ②相関行列で主成分分析を行うときは、固有値が1.0以上であること 変数がたくさんある場合主成分の数をいくつまでとるかが問題になる   主成分の数の決め方にこれといった方法はないが目安として次のようなものがあげられる。 ①累積寄与率が、ある程度(例えば60%)以上大きくなること     ②相関行列で主成分分析を行うときは、固有値が1.0以上であること 累積寄与率が第1主成分で90%以上ある 累積寄与率が大きくならない かなりの数の主成分を選択してもこのような場合がおこるのは扱っているテーマが複雑であることを表している。    これは別に悪いことではないが少ない主成分で累積寄与率を大きくしたいと考えるなら、用いている変数を整理し、2つに分けて主成分分析をするのもいつの方法である。 このような場合が起こる時はほとんど同じ変数を扱っているときでこのような場合は新しいファクターは1つしか見つからない。                   このようなときは別の変数を入れるか、現在使っている変数を相互に組み合わせ新しい変数を作り、やり直せばよい

変数の設定 主成分分析は、数量データであれば、どんな変数を用いてもかまわない。変数が2つ以上なら、いくつあってもよい。しかしあまり多すぎると複雑になりすぎて累積寄与率が大きくならないことがあるので注意。 変数を新しく作る いろいろな変数を組み合わせ、新しく変数を作って主成分分析を行うことにより、新しいファクターが発見できることがあります。例として次のような変数が作れます。 人口 面積 人口 世帯数 人口密度 1世帯当たり人員

主成分の解釈とネーミング 主成分分析を行うと、主成分の式を算出するが、これが何を表してるかまでは求めない。                            そこで主成分が何を表しているかは分析者が判断する。       主成分の解釈やネーミングの仕方の例として以下がある。 ①固有ベクトルの棒グラフ分析                  ②固有ベクトルの点グラフ分析                  ③主成分得点の属性別平均の棒グラフの分析         ④主成分得点の属性別平均の点グラフの分析

固有ベクトルの棒グラフの分析 例 主成分ごとに、固有ベクトルの大きい順にならべ棒グラフを書く。 上位方向、下位方向にある変数を調べ、これらが何を弁別しているかを分析し、その主成分の解釈を行う 例 第2固有ベクトル 第1固有ベクトル 数学 0.9215 数学 -0.3884 英語 0.3884 英語 0.9215

固有ベクトルの点グラフの分析 棒グラフと分析の仕方は変わらないが、点グラフを書くことによって、主成分の解釈がしやすくなることがある。 例 高 ・数学 0.5 ・英語 理系 文系 -0.5 0.5 低