プログラミング論 主成分分析 http://www.ns.kogakuin.ac.jp/~ct13140/Prog/
概要 主成分分析 難しい.簡易に触れるのみ.
主成分分析 主成分分析とは,複数(N個)の要素からなるデータを,重要なM個(M≦N)の要素に代表させて把握する手法. データの要素数を減らす → 情報量は失われる → 情報の把握が容易になる 重要度の低い情報を捨て, 重要度の高い情報のみにする.
例A(相関の強いデータ) 英語Listeningと 英語Readingの成績 二つのデータ (Listening成績 非常に強い相関が あった場合. 右上がりの軸(水色) でデータを把握すれば ほぼ正確に, データを把握する ことが可能.
例A(相関の強いデータ) 水色の横軸の値のみを考えれば,各人の能力はほぼ分かる. 2次元データが1次元データになった. 厳密さは失われたが,理解が容易に. 横軸は,大まかに英語力を示していると言える.
例A(相関の強いデータ) 下図の緑色の横の軸1本を 用いて,両データを 代表させた場合, 緑軸の値は英語力を 適切に表現していない. 次元を減らして, 全体を代表させる 場合は, 軸を適切に選択 せねばならない.
主成分分析 (2次元値の場合) 第一主成分 重心を通り分散が 最大の方向に 軸をとり,それを とする. それと垂直方向に 英語と数学の成績 重心を通り分散が 最大の方向に 軸をとり,それを 第一主成分 とする. それと垂直方向に 重心を通る軸をとり, これを 第二主成分とする.
主成分分析 (N次元値の場合) N次元空間上で,重心点を通り,最も分散の大きい方向に軸をとり,それを第一主成分とする. 第一主成分と垂直な軸の中で,重心点を通り,最も分散が大きい方向に軸をとり,それを第二主成分とする. 以下,同様に第1~第N主成分全てに垂直で,重心点を通り,分散が最大の方向に第N+1主成分をとる.