Boruta 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Slides:

Advertisements

Similar presentations

計量的手法入門人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日奥西好夫

Advertisements

第４回関連2群と一標本t検定問題例１ 6人の高血圧の患者に降圧剤（A薬）を投与し、前後の収縮期血圧を測定した結果である。

様々な仮説検定の場面 ① １標本の検定 ② ２標本の検定 ③ ３標本以上の検定 ④ ２変数間の関連の強さに関する検定

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

男性の育児が肥満に与える影響富山大学　経済学部　経済学科孫田　篤専門ゼミ－報告会.

統計的仮説検定基本的な考え方母集団における母数（母平均、母比率）に関する仮説の真偽を、得られた標本統計量を用いて判定すること。

得点と打率・長打率・出塁率らの関係政治経済学部経済学科 ●年●組 ●●　●●.

土木計画学第５回（１１月２日）調査データの統計処理と分析３担当：榊原　弘之.

統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える

ベイズ的ロジスティックモデルに関する研究

臨床統計入門（３）箕面市立病院小児科　　山本威久平成２３年１２月１３日.

統計学 12/13（木）.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

土木計画学第６回（１１月９日）調査データの統計処理と分析４担当：榊原　弘之.

変数選択手法っていろいろあるけど何を使えばいいの？

Generative Topographic Mapping (GTM) でデータの可視化・回帰分析・モデルの逆解析を一緒にやってみた

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 Model validation

離婚が出生数に与える影響－都道府県データを用いた計量分析

プロセスデータ解析学２ -単回帰分析- 担当：長谷部伸治　　　　金　尚弘.

スペクトル・時系列データの前処理方法～平滑化 (スムージング) と微分～

ガウス過程による回帰 Gaussian Process Regression GPR

京大岡山 3.8m 望遠鏡分割鏡制御に用いるアクチュエータの特性評価

4章までのまとめｰ計量経済学ｰ.

コードクローンに含まれるメソッド呼び出しの変更度合の分析

コードクローンに含まれるメソッド呼び出しの変更度合の調査

決定木とランダムフォレスト和田　俊和.

モデルの適用範囲モデルの適用領域 Applicability Domain (AD)

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

確率論の基礎「ロジスティクス工学」第3章鞭効果第4章確率的在庫モデル補助資料

Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University)

T2統計量・Q統計量明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

統計学西　山.

Anja von Heydebreck et al. 発表：上嶋裕樹

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

主成分分析 Principal Component Analysis PCA

二硫化ジフェニル(Cas No ) 高用量群の雌RBC(-11%)になぜ有意差が付かないか/前回勉強会

確率と統計年1月12日（木）講義資料B Version 4.

決定木 Decision Tree DT 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

部分的最小二乗回帰 Partial Least Squares Regression PLS

Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

線形判別分析 Linear Discriminant Analysis LDA

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

ベイズ最適化 Bayesian Optimization BO

Stepwise (ステップワイズ) 法による説明変数 (入力変数・記述子・特徴量) の選択

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

サポートベクターマシン Support Vector Machine SVM

自己組織化マップ Self-Organizing Map SOM

クロスバリデーションを用いたベイズ基準によるHMM音声合成

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

遺伝的アルゴリズム (GA) を活用したスペクトルの波長選択および時系列データにおけるプロセス変数かつその時間遅れ (ダイナミクス) の選択明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

ベイズ音声合成における事前分布とモデル構造の話者間共有

最小二乗法による線形重回帰分析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

誤差逆伝播法によるニューラルネットワーク (BackPropagation Neural Network, BPNN)

制約付き非負行列因子分解を用いた音声特徴抽出の検討

実験計画法 Design of Experiments (DoE)

Locally-Weighted Partial Least Squares LWPLS 局所PLS

モデルの微分による非線形モデルの解釈明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

自己縮小画像と混合ガウス分布モデルを用いた超解像

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

確率と統計年1月7日（木） Version 3.

転移学習 Transfer learning

混合ガウスモデル Gaussian Mixture Model GMM

外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection

Presentation transcript:

Boruta 明治大学理工学部応用化学科データ化学工学研究室金子弘昌

Boruta とは？ランダムフォレスト (Random Forest, RF) の変数重要度に基づく変数選択手法

Boruta に着目した理由 Stepwise や GAPLS などの多くの変数選択手法は、クロスバリデーション後の r2 などの何らかの統計量を最適化するように変数を選択する Stepwise: https://datachemeng.com/stepwise/ GAPLS: https://datachemeng.com/gaplsgasvr/ 変数選択前と比べて統計量は改善されるが、外部データに対する推定性能は考慮されてなく、オーバーフィットする危険がある Boruta では統計量の最適化をしていないため、オーバーフィッティングの影響を軽減できるかも！？

Boruta のアルゴリズム 1/3 説明変数のデータセットである m × n の行列 (m はサンプル数、 n は説明変数の数) をコピーする 1. でコピーした行列において、変数ごとにサンプルの値をランダムに並び替えるここで準備した変数をランダム説明変数と呼ぶことにします。変数ごとに値をランダムに並び替えているため、目的変数と関係はありませんランダム説明変数のデータセットは m × n の行列ですオリジナルの説明変数のデータセットと、ランダム説明変数のデータセットとを一緒にして、目的変数との間で RF を実行し、変数重要度を計算する

Boruta のアルゴリズム 2/3 ランダム説明変数における変数重要度 (n 個) の、 p パーセンタイルを基準値とするランダム説明変数は目的変数と関係ありませんが、何らかの値が変数重要度として割り当てられます。重要でない説明変数によって変数重要度の基準値を設けますオリジナルの Boruta では p = 100、つまり最大値ですオリジナルの説明変数において、変数重要度が 4. の基準値を越えた変数を hit とする目的変数と関係のないランダム説明変数の変数重要度の基準値は越えていてね、ということです

Boruta のアルゴリズム 3/3 3.-5. を繰り返す中で、両側検定でオリジナルの説明変数がランダム説明変数と比較して重要かどうか検討する hit したか否かなので、二項分布ですオリジナルでは有意水準 α = 0.05 です 3.-5. の繰り返しの中でも、ランダム説明変数と比較して重要でないと判断されたオリジナルの説明変数は削除されます

Python で Boruta を実行するには？ boruta_py https://github.com/scikit-learn-contrib/boruta_py https://pypi.org/project/Boruta/

Boruta のパラメータ RF の設定として、用いる説明変数の割合を、0.1, 0.2, …, 0.9 と振って、Out-Of-Bag で最適化 p = 100 とすると、説明変数が削除されすぎて、モデルの推定性能が低下することがある特にサンプルが少ないときなど、ランダムに並び替えたといってもたまたま目的変数と関係性が出てきてしまう変数もあることを想定して、変数をランダムに並び替えて目的変数と相関係数を計算することを 10000 回くらい行い、その相関係数の絶対値の最大値を rccmax としたとき、 p = 100 × (1 – rccmax) とするとよさそう

解析してみました比較手法 Boruta を用いた変数選択前後で、以下の回帰分析手法によりモデル構築した結果を比較 Partial Least Squares (PLS) Ridge Regression (RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) Support Vector Regression (SVR) [ガウシアンカーネル] Decision Tree (DT) Random Forest (RF) Gaussian Process regression (GP) Light GBM (LGB) XGBoost (XGB) Gradient Boosting Decision Tree (GBDT) 各手法の詳細はこちら: https://datachemeng.com/summarydataanalysis/

解析してみました記述子記述子は RDKit で計算 https://www.rdkit.org/docs/api-docs.html トレーニングデータとテストデータとに分割したあとに標準偏差が 0 の記述子は事前に削除

解析してみました沸点のデータセット沸点のデータセット Lowell H. Hall, C. T. Story, J. Chem. Inf. Comput. Sci. 1996, 36, 1004 - 1014 沸点が測定された 294 個の化合物トレーニングデータ: 220 化合物テストデータ: 74 化合物記述子の数: 144 Boruta によって選択された記述子の数: 81 (56 %)

解析してみました沸点のデータセット推定結果テストデータの r2, RMSE 変数選択前 Borutaで選択後 r2 RMSE PLS 0.817 34.5 0.824 33.9 RR 0.781 37.8 0.841 32.2 LASSO 0.770 38.8 0.832 33.1 EN 0.775 38.3 SVR 0.846 31.8 0.886 27.3 DT 0.807 35.5 0.813 35 RF 0.838 32.5 0.843 32 GP 0.851 31.2 0.927 21.8 LGB 34.9 XGB 0.848 31.5 GBDT 0.861 30.1 0.863 29.9

解析してみました環境毒性のデータセット環境毒性のデータセット http://www.cadaster.eu/node/65.html 環境毒性が測定された 1213 個の化合物目的変数である pIGC50 とは、ある時間に Tetrahymena pyriformis の増殖の 50 % を阻害する化合物の濃度を IGC50 [μM]としたときの log(−IGC50) トレーニングデータ: 910 化合物テストデータ: 303 化合物記述子の数: 164 Boruta によって選択された記述子の数: 78 (48 %)

解析してみました環境毒性のデータセット推定結果テストデータの r2, RMSE 変数選択前 Borutaで選択後 r2 RMSE PLS 0.768 0.509 0.734 0.545 RR 0.777 0.499 0.762 0.515 LASSO 0.783 0.492 0.744 0.535 EN 0.782 0.494 0.757 0.521 SVR 0.814 0.456 0.820 0.449 DT 0.652 0.624 0.641 0.633 RF 0.799 0.474 0.784 0.491 GP 0.807 0.465 LGB 0.825 0.442 0.800 0.473 XGB 0.818 0.451 0.792 0.483 GBDT 0.464 0.786 0.489

解析してみました薬理活性のデータセット薬理活性のデータセット Jeffrey J. Sutherland, Lee A. O'Brien, Donald F. Weaver, J. Med. Chem., 2004, 47(22), 5541-5554 アンジオテンシン変換酵素阻害薬 (高血圧 (血圧上昇) およびうっ血性心不全の治療に使用される医薬品) として薬理活性が測定された 114 個の化合物目的変数である pIC50 とは、標的のものの 50 % を阻害する化合物の濃度を IC50 [μM]としたときの log(−IC50) トレーニングデータ: 86 化合物テストデータ: 28 化合物記述子の数: 146 Boruta によって選択された記述子の数: 70 (48 %)

解析してみました薬理活性のデータセット推定結果テストデータの r2, RMSE 変数選択前 Borutaで選択後 r2 RMSE PLS 0.689 1.323 0.840 0.949 RR 0.872 0.850 0.845 0.935 LASSO 0.793 1.081 0.933 EN 0.841 0.947 0.844 0.937 SVR 0.777 1.122 0.794 1.076 DT 0.748 1.193 RF 0.863 0.879 0.862 0.881 GP 0.826 0.858 0.893 LGB 0.861 0.885 0.882 XGB 0.854 0.906 0.847 0.928 GBDT 0.919 0.838 0.956

解析してみました融点のデータセット融点のデータセット融点が測定された 4333 個の化合物トレーニングデータ: 1,000 化合物 Karthikeyan, M., Glen, R. C., Bender, A., J. Chem. Inf. Model., 45(3), 581–590. 2005 融点が測定された 4333 個の化合物トレーニングデータ: 1,000 化合物テストデータ: 3,333 化合物記述子の数: 187 Boruta によって選択された記述子の数: 70 (37 %)

解析してみました融点のデータセット推定結果テストデータの r2, RMSE 変数選択前 Borutaで選択後 r2 RMSE PLS 0.394 49.3 0.338 51.5 RR 0.414 48.5 0.35 51.0 LASSO 0.387 49.6 0.349 51.1 EN 0.390 49.4 SVR 0.514 44.1 0.490 45.2 DT 0.221 55.9 0.225 55.7 RF 0.457 46.6 0.453 46.8 GP 0.510 44.3 0.501 44.7 LGB 0.471 46.0 0.460 46.5 XGB 0.459 GBDT 0.461 0.452 46.9

解析してみました水溶解度のデータセット水溶解度のデータセット水溶解度が測定された 1290 個の化合物 Hou, T. J.; Xia, K.; Zhang, W.; Xu, X. J., J. Chem. Inf. Comput. Sci. 2004, 44, 266–275. 水溶解度が測定された 1290 個の化合物目的変数である logS とは、水への溶解度を S [mol/L] としたときの log(S) トレーニングデータ: 968 化合物テストデータ: 322 化合物記述子の数: 186 Boruta によって選択された記述子の数: 93 (50 %)

解析してみました水溶解度のデータセット推定結果テストデータの r2, RMSE 変数選択前 Borutaで選択後 r2 RMSE PLS 0.896 0.694 0.880 0.745 RR 0.901 0.679 0.890 0.713 LASSO 0.899 0.685 0.888 0.719 EN 0.677 0.715 SVR 0.923 0.599 0.916 0.623 DT 0.876 0.757 0.883 0.736 RF 0.925 0.588 0.924 0.592 GP 0.595 0.919 0.613 LGB 0.928 0.579 XGB 0.591 GBDT 0.926 0.587

参考文献 Kursa M., Rudnicki W., "Feature Selection with the Boruta Package“, Journal of Statistical Software, Vol. 36, Issue 11, Sep 2010 http://danielhomola.com/2015/05/08/borutapy-an-all-relevant-feature-selection-method/