部分的最小二乗回帰 Partial Least Squares Regression PLS

Slides:

Advertisements

Similar presentations

2016 年度計量経済学講義内容担当者：河田正樹

Advertisements

主成分分析主成分分析は多くの変数の中を軸を取り直すことでより低い次元で表現できるようにする。データがばらついている方向ほど

データ分析入門（12）第12章　単回帰分析廣野元久.

第4章回帰分析の諸問題（１）ｰ計量経済学ｰ.

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

第4章回帰分析の諸問題（１）ｰ計量経済学ｰ.

9. 主成分分析 Principal Component Analysis (PCA)

重回帰分析入門経済データ解析　2009年度.

得点と打率・長打率・出塁率らの関係政治経済学部経済学科 ●年●組 ●●　●●.

重回帰分析入門経済データ解析　2011年度.

寺尾敦青山学院大学社会情報学部社会統計　第12回重回帰分析（第11章前半）寺尾　敦青山学院大学社会情報学部

第６章　数量化Ｉ類.

第3章重回帰分析ｰ計量経済学ｰ.

第3章重回帰分析ｰ計量経済学ｰ.

主成分分析　　　　　　　　　　　　　　　　　　　　結城　　隆　　　.

回帰分析／多変量分析 1月18日.

高校数学の知識から、人工知能・機械学習・データ解析へつなげる、必要最低限の教科書

変数選択手法っていろいろあるけど何を使えばいいの？

Generative Topographic Mapping (GTM) でデータの可視化・回帰分析・モデルの逆解析を一緒にやってみた

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 Model validation

プロセスデータ解析学２ -単回帰分析- 担当：長谷部伸治　　　　金　尚弘.

スペクトル・時系列データの前処理方法～平滑化 (スムージング) と微分～

ガウス過程による回帰 Gaussian Process Regression GPR

第6章　カーネル法修士2年藤井　敬士.

データ解析静岡大学工学部安藤和敏

市場規模の予測.

　統計学講義　第11回　　　　相関係数、回帰直線　　　決定係数.

4章までのまとめｰ計量経済学ｰ.

モデルの適用範囲モデルの適用領域 Applicability Domain (AD)

第9章　混合モデルとEM 修士２年北川直樹.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

T2統計量・Q統計量明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

第６章特徴空間の変換６．１特徴選択と特徴空間の変換６．２特徴量の正規化平成１５年５月２３日（金）発表者藤井丈明

独立成分分析 (ＩＣＡ：Independent Component Analysis )

主成分分析 Principal Component Analysis PCA

市場規模の予測.

決定木 Decision Tree DT 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

多変量解析～主成分分析～１．主成分解析とは２．適用例と解析の目的３．解析の流れ４．変数が２個の場合の主成分分析

パターン認識特論担当：和田俊和部屋 A513 主成分分析

プロセスデータ解析学５ -主成分分析- 担当：長谷部伸治　　　　金　尚弘.

Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

線形判別分析 Linear Discriminant Analysis LDA

第3章　線形回帰モデル修士1年山田　孝太郎.

ベイズ最適化 Bayesian Optimization BO

Stepwise (ステップワイズ) 法による説明変数 (入力変数・記述子・特徴量) の選択

データ解析静岡大学工学部安藤和敏

サポートベクターマシン Support Vector Machine SVM

自己組織化マップ Self-Organizing Map SOM

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

遺伝的アルゴリズム (GA) を活用したスペクトルの波長選択および時系列データにおけるプロセス変数かつその時間遅れ (ダイナミクス) の選択明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

回帰分析（Regression Analysis)

データ解析静岡大学工学部安藤和敏

最小二乗法による線形重回帰分析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

誤差逆伝播法によるニューラルネットワーク (BackPropagation Neural Network, BPNN)

重回帰分析入門経済データ解析　2008年度.

実験計画法 Design of Experiments (DoE)

Locally-Weighted Partial Least Squares LWPLS 局所PLS

重回帰分析入門 (第5章補足) 統計学　2007年度.

モデルの微分による非線形モデルの解釈明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

Boruta 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

高校数学の知識から、人工知能・機械学習・データ解析へつなげる、必要最低限の教科書

転移学習 Transfer learning

混合ガウスモデル Gaussian Mixture Model GMM

外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection

Presentation transcript:

部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理工学部応用化学科データ化学工学研究室金子弘昌

部分的最小二乗回帰 (PLS) とは？部分的最小二乗回帰 (Partial Least Squares Regression, PLS) 線形の回帰分析手法の１つ説明変数(記述子)の数がサンプルの数より多くても計算可能回帰式を作るときにノイズの影響を受けにくい説明変数の間の相関が高くても対応可能主成分分析をしたあとの主成分と目的変数との間で最小二乗法を行うのは主成分回帰 (PCR) であり、PLSとは異なるので注意 PLS回帰とかPLSRとも呼ばれているが、ここでは PLS

どうして PLS を使うの？～多重共線性～多重共線性の問題説明変数の間に強い相関がある場合、回帰係数が不安定になるわずかなデータの変化（追加、削除）で回帰係数が大きく変わってしまう赤い線を中心に回帰平面が回りやすい → 回帰係数が変わりやすい y x1 x2

多重共線性への対策事前に共線性のある変数(記述子)を削除 → 変数選択必要な変数(記述子)を取り除いてしまう危険もある Xを無相関化 (相関係数=0 に) してから重回帰分析 Xの情報の一部のみを使用して重回帰分析主成分分析 (Principal Component Analysis, PCA) ＋重回帰分析主成分回帰 (Principal Component Regression, PCR) 重回帰分析についてはこちら、PCAについてはこちら

主成分回帰 (PCR) 主成分回帰 (Principal Component Regression, PCR) 説明変数のデータ X のみを用いて主成分分析を行い主成分 T を得る T の成分(変数)の間は無相関 T と目的変数 y との間で最小二乗法による重回帰分析説明変数(記述子) 目的変数(物性・活性) X 最小二乗法 y 通常の重回帰分析サンプル主成分成分抽出 (PCA) X T 最小二乗法 y PCR

PCR と PLS との違い PCA 主成分 t の分散 ( tTt ) が最大になるように主成分を抽出 PLS 主成分 t と目的変数 y との共分散 ( tTy ) が最大になるように主成分を抽出共分散大きい共分散小さい

PLS の概要 PCA 主成分 t の分散 ( tTt ) が最大になるように主成分を抽出 PLS 主成分 t と目的変数 y との共分散 ( tTy ) が最大になるように主成分を抽出説明変数(記述子) 主成分 X 成分抽出 T 最小二乗法 y サンプル yの情報

PLSの基本式 (yは１変数) X、y はオートスケーリング後 (平均0、標準偏差1) オートスケーリングについてはこちら A : PLS の成分数 ta : a 番目の主成分 pa : a 番目のローディング E : X の残差 qa : a 番目の係数 f : y の残差行列の表し方やローディングについてはこちら

1成分のPLSモデル PLSモデル式 t1 は X の線形結合で表わされると仮定 wa : a番目の重みベクトル大きさ(ノルム)は1とする

t1の計算 yとの共分散の最大化 y との関連性が大きい t1 を抽出したい y と t1 の共分散 yTt1 を最大化するよう t1 を求めるオートスケーリングしているため X と y は平均0 ただし、 (制約条件)

t1の計算 Lagrangeの未定乗数法制約条件がある中での最大化 Lagrangeの未定乗数法

t1の計算 Gの最大化 G は w1 の関数 G が最大値のとき、G を w1 の要素ごとに偏微分した値は 0 n : データ数 d : 説明変数の数 k : 変数番号

t1の計算式変形より、 w1,k を両辺に掛けると、 k について 1 から d まで和を取る (制約条件を使ってwが消える) よって、

t1の計算 w1の計算より、 μは yTt1 の値、w1の大きさ(ノルム)は1より、 w1 が得られた後、t1 も計算

p1とq1の計算 p1 は X の残差 E の要素の二乗和が最小になるように求める (最小二乗法) q1 は y の残差 f の要素の二乗和が最小になるように求める (最小二乗法)

2成分のPLSモデル PLSモデル式 X2 : X の中で1成分のPLSモデルでは説明できない部分 y2 : y の中で1成分のPLSモデルでは説明できない部分 t2 は X2 の線形結合ただし、w2 の大きさ(ノルム)は1

w2、t2、p2、q2の計算 y2 との関連性が大きい t2 を抽出したい y2 と t2 の共分散 y2Tt2 を最大化するよう t2 を計算する 1成分の時と同様にして、 3成分以降も同様に計算する

何成分まで用いるか？多くの成分を用いるとモデルの自由度が大きく(モデルが複雑に)なり、過学習の恐れがある多くの成分を用いるとモデルの自由度が大きく(モデルが複雑に)なり、過学習の恐れがある過学習: モデル構築用データには回帰式(回帰モデル)がよく当てはまるが、新しいデータに対する予測誤差が大きくなってしまうこと予測性の高いモデルが得られる適切な成分数を選択クロスバリデーション

クロスバリデーション例) 3-fold クロスバリデーション変数サンプル比較 X y X1 y1 ② y1p y1 X2 y2 ③ ① y3p y3 ① ② ③ X1 y1 X2 y2 X3 y3 X2 y2 X3 y3 X1 y1 X3 モデル1 y3p X1 モデル2 y1p X2 モデル3 y2p

r2CV (予測的説明分散) クロスバリデーションによる予測値を用いた説明分散 r2 Leave-one-out クロスバリデーション N-fold クロスバリデーションなどモデルの予測性を表す指標 1に近いほど良い y(i)：i 番目のサンプルにおける目的変数の値 yCV(i)：i 番目のサンプルにおけるクロスバリデーションによる目的変数の推定値 yA：目的変数の平均値 n：サンプル数

成分数の決め方例) r2CV値を指標にして判断 r2CV値が最大値を取る成分数 r2CV値が最初の極大値を取る成分数モデル構築用データに対する性能は高くなっているが、予測性能は低下 → 過学習が起きている r2(青) r2CV(赤) 成分数

Root Mean Squared Error (RMSE) : 誤差の指標 RMSEC (RMSE of Calibration) yの計算値 RMSECV (RMSE with Cross-Validation) クロスバリデーションによるyの予測値データが同じであれば、 r2, r2CV が大きい ⇔ RMSEC, RMSECV が小さい