変数選択手法っていろいろあるけど 何を使えばいいの?

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
データ分析入門(12) 第12章 単回帰分析 廣野元久.
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
Rによる回帰分析 高崎経済大学 宮田 庸一.
推定の精度 例: 宍道湖に生育するある魚が今回の大水害でどのような影響を 受けたかを明らかにするために,魚を捕獲して調査しようとした.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
パネル分析について 中村さやか.
遺伝的アルゴリズム  新川 大貴.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
分布の非正規性を利用した行動遺伝モデル開発
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
回帰分析.
シミュレーション物理7 乱数.
データ構造と アルゴリズム 第十一回 理工学部 情報システム工学科 新田直也.
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
プロセスデータ解析学2 -単回帰分析- 担当:長谷部伸治     金 尚弘.
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
中澤 港 統計学第4回 中澤 港
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
部分的最小二乗回帰 Partial Least Squares Regression PLS
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
自己組織化マップ Self-Organizing Map SOM
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
半正定値計画問題(SDP)の 工学的応用について
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
アルゴリズムとデータ構造 補足資料5-3 「サンプルプログラムstrcat.c」
自己縮小画像と混合ガウス分布モデルを用いた超解像
市松模様を使用した カメラキャリブレーション
転移学習 Transfer learning
各種荷重を受ける 中空押出形成材の構造最適化
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

変数選択手法っていろいろあるけど 何を使えばいいの? 明治大学 理工学部 応用化学科 専任講師 金子 弘昌 2017年5月16日 (火) 第5回ケモインフォマティクス若手の会@渋谷ヒカリエ

自己紹介 明治大学 応用化学科 応用化学科 専任講師 金子 弘昌 データ化学工学研究室 部屋: 第二校舎D館D409 明治大学 応用化学科 応用化学科 専任講師 金子 弘昌 データ化学工学研究室 部屋: 第二校舎D館D409 E-mail: hkaneko@meiji.ac.jp Tel: 044-934-7197 生年月日 1985年1月9日 (32歳) 同い年の芸能人 綾瀬はるか、松山ケンイチ、松下奈緒、TAKAHIRO、 木村カエラ、速水もこみち、島袋寛子 など

自己紹介 出身地 栃木県足利市 あしかがフラワーパーク 足利学校 相田みつを ココ・ファーム・ワイナリー 経歴 足利高校 → 東京大学 → 東京大学大学院 修士課程 → 東京大学大学院 博士課程 → 東京大学大学院 助教 → 明治大学へ 趣味 ソフトテニス ジョギング 読書 (マンガ含む) 映画鑑賞 家族 妻1人、娘1人の3人家族

QSPR・QSAR データベース X: 説明変数 y: 目的変数 構造記述子*など 物性・活性など *化学構造の情報を数値化したもの 例) 分子量、炭素原子の数、 ベンゼン環の数 モデリング モデル y = f( X ) 新しいデータ xnew yの推定値 予測 例) X: 2変数 データ数: 3 線形モデル x1 x2 1 2 3 y 5.1 3.9 9.2 回帰モデル データ1 データ2 y = x1 + 2x2 + 誤差 データ3

エクセルのファイルだとデータはこんな感じ X y http://datachemeng.wp.xdomain.jp/pythonassignment/ からダウンロード可能

回帰モデルの推定性能を上げたい! 構造記述子の選択 (変数選択) ノイズ・雑音のような変数を削除することでモデルの推定性能向上 単純に変数の数を減らしたい人もいる 外れサンプルの削除 オーバーフィッティング、アンダーフィッティングの解消

変数選択の方法 モデリング不要 ランダムに選択 似ている変数の組の1つを削除 変数選択の方法 モデリング不要 ランダムに選択 似ている変数の組の1つを削除 相関係数の高い (0.9, 0.99とか以上の) 変数の組の1つを 削除

変数選択の方法 モデリング必要 PLS-β PLS(Partial Least Squares)の標準回帰係数の絶対値の 小さい変数を削除 変数選択の方法 モデリング必要 PLS-β PLS(Partial Least Squares)の標準回帰係数の絶対値の 小さい変数を削除 PLS-VIP PLS後のVIP (Variable Importance in Projection) の値が 小さい変数を削除 LASSO (Least Absolute Shrinkage and Selection Operator) Yの誤差と一緒に回帰係数の値も小さくすることで、いくつかの 回帰係数が0になることを利用

変数選択の方法 たくさんモデリング必要 Stepwise 一つずつ変数を追加・削除を繰り返して、ある指標の値が大きく なるように変数選択 変数選択の方法 たくさんモデリング必要 Stepwise 一つずつ変数を追加・削除を繰り返して、ある指標の値が大きく なるように変数選択 GAPLS 遺伝的アルゴリズム(Genetic Algorithm, GA) とPLSとを 組み合わせた手法、ある指標の値が大きくなるように変数選択 ある指標・・・クロスバリデーション後の r2 (r2CV) とか

で、どれを使えばいいの? ランダムに選択は単純すぎる? PLS-β・PLS-VIPはどっちがいいの? 最近LASSOをよく見るけどどうなの? GAPLSは時間かかりそうだけどよさげ?指標次第?

調べてみました QSPR: 1290個の化合物に関するlogS[1] QSAR(toxicity): 1,093 化合物の T. Pyriformis に対する 50%阻害濃度 (pIGC50) [2] 構造記述子: RDKit[3]で計算した 206記述子 モデル構築用サンプル数: 30, 100, 500 ランダムにサンプルを選択 それ以外のサンプルがモデル検証用サンプル 50回繰り返して、モデル検証用サンプルの MEA を比較 MAE (Mean Absolute Error): 誤差の絶対値の平均 [1] T.J. Hou, K. Xia, W. Zhang, X.J. Xu, J. Chem. Inf. Comput. Sci., 44, 266, 2004. [2] http://www.cadaster.eu/node/65 [3] http://www.rdkit.org/

QSPR 100サンプル ランダム PLS-β 選択なし LASSO PLS-VIP GAPLS(r2) GAPLS(r2CV) GAPLS(r2RCV) GAPLS(r2DCV) Stepwise(r2CV) Stepwise(r2RCV) Stepwise(r2DCV)

QSPR 500サンプル ランダム PLS-β 選択なし LASSO PLS-VIP GAPLS(r2) GAPLS(r2CV) GAPLS(r2RCV) GAPLS(r2DCV) Stepwise(r2CV) Stepwise(r2RCV) Stepwise(r2DCV)

QSAR 100サンプル ランダム PLS-β 選択なし LASSO PLS-VIP GAPLS(r2) GAPLS(r2CV) GAPLS(r2RCV) GAPLS(r2DCV) Stepwise(r2CV) Stepwise(r2RCV) Stepwise(r2DCV)

QSAR 500サンプル ランダム PLS-β 選択なし LASSO PLS-VIP GAPLS(r2) GAPLS(r2CV) GAPLS(r2RCV) GAPLS(r2DCV) Stepwise(r2CV) Stepwise(r2RCV) Stepwise(r2DCV)

まとめ 説明変数を選択しないときと比べて、推定性能の大きな向上は 見られなかった 説明変数を選択しないときと比べて、推定性能の大きな向上は 見られなかった 特にサンプル数が大きいときに、GAにおける指標の違いによって 結果に大きな差異はなかった オーバーフィットしそうな r2 でもサンプルが多いと他の指標と あまり変わらなかった PLS-VIP と LASSO が良さそう

補足資料 設定 ランダム: ランダムに半分選択 PLS-β, PLS-VIP: 中央値以上を選択 LASSO: λ…0.1, 0.2, …, 4.9, 5 の中で r2CV が最大のものを選択 Stepwise: 変数増減法 GA: 世代数300、個体数300

補足資料 クロスバリデーション (CV) 例) 3-fold クロスバリデーション (Cross-Validation, CV) 変数 比較 X y X1 y1 ② y1p y1 データ X2 y2 ③ y2p y2 比較 X3 y3 ① y3p y3 ① ② ③ X1 y1 X2 y2 X3 y3 X2 y2 X3 y3 X1 y1 X3 モデル1 y3p X1 モデル2 y1p X2 モデル3 y2p

補足資料 クロスバリデーション (CV) 今回は 5-fold クロスバリデーション を使用

補足資料 クロスバリデーション繰り返し(RCV) クロスバリデーション繰り返し (Repeated Cross-Validation, RCV) [1] クロスバリデーションを繰り返して、 r2CV の平均値に用いる (r2RCV) クロスバリデーションの結果を指標にすると(たとえば r2CV)、 分割の仕方でたまたま良い結果になったり、逆に悪い結果になったりする クロスバリデーションを繰り返し行い、それらを平均化することで、 “たまたま” を防ぐ 今回は 30 回 [1] P. Filzmoser, B. Liebmann, K. Varmuza, J. Chemometr., 23, 160-171, 2009.

補足資料 ダブルクロスバリデーション(DCV) ダブルクロスバリデーション (Double Cross-Validation, DCV) [1] クロスバリデーションを入れ子にして、二重に行うこと クロスバリデーションの結果を指標にすると(たとえば r2CV)、 オーバーフィッティングを起こす可能性がある PLSでクロスバリデーションの結果がよくなるように成分数を選ぶため 内側のクロスバリデーションで成分数を最適化し、 外側のクロスバリデーションの結果を指標にする (r2DCV) [1] P. Filzmoser, B. Liebmann, K. Varmuza, J. Chemometr., 23, 160-171, 2009.

補足資料 QSPR 30サンプル ランダム PLS-β 選択なし LASSO PLS-VIP GAPLS(r2) GAPLS(r2CV) GAPLS(r2RCV) GAPLS(r2DCV) Stepwise(r2CV) Stepwise(r2RCV) Stepwise(r2DCV)

補足資料 QSAR 30サンプル ランダム PLS-β 選択なし LASSO PLS-VIP GAPLS(r2) GAPLS(r2CV) GAPLS(r2RCV) GAPLS(r2DCV) Stepwise(r2CV) Stepwise(r2RCV) Stepwise(r2DCV)