モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)

Slides:



Advertisements
Similar presentations
果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
Advertisements

知能情報工学 年4月26日 吉川雅博 第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別辞書 (プロトタイプ) 音声や画像 (アナログ信号) 識別 結果 識別が容易な 特徴を抽出 プロトタイプと比較.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
データ分析入門(12) 第12章 単回帰分析 廣野元久.
Building text features for object image classification
「わかりやすいパターン認識」 第1章:パターン認識とは
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
Pattern Recognition and Machine Learning 1.5 決定理論
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
3章 Analysing averages and frequencies (前半 p )
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
変数選択手法っていろいろあるけど 何を使えばいいの?
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
情報処理3 第5回目講義         担当 鶴貝 達政 11/8/2018.
銀河物理学特論 I: 講義1-1:近傍宇宙の銀河の 統計的性質 Kauffmann et al
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
決定木とランダムフォレスト 和田 俊和.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
訓練データとテストデータが 異なる分布に従う場合の学習
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
部分的最小二乗回帰 Partial Least Squares Regression PLS
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Number of random matrices
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ベイズ音声合成における 事前分布とモデル構造の話者間共有
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

モデルの適用範囲 モデルの適用領域 Applicability Domain (AD) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

モデルの適用範囲 (AD) とは? モデルが十分な性能を発揮できるデータ領域 AD の設定方法 トレーニングデータの範囲 トレーニングデータの中心からの距離 データ密度 アンサンブル学習ベイズの定理を利用 モデルとの距離 (Distance to Model, DM) によって AD の広さを 定量的にすることで、推定誤差を見積もることができる クラス分類でアンサンブル学習により AD を設定するときは注意する

どんな X の値でもモデルに入力してよいのか? 出力 説明変数 (記述子) X 回帰モデル・クラス分類モデル y = f( X ) 目的変数 y 入力してはいけない説明変数 X の値がある! モデルの適用範囲・適用領域 (Applicability Domain, AD) [1-3] [1] I. V. Tetko, et al., J. Chem. Inf. Model. 2008, 48, 1733. [2] D. Horvath, G. Marcou, A. Varnek, J. Chem. Inf. Model. 2009, 49, 1762. [3] H. Kaneko, M. Arakawa, K. Funatsu, AIChE J. 2011, 57, 1506.

モデルの適用範囲・適用領域のイメージ 夏は暑い 夏であっても涼しい日はある クーラーの効いた部屋にいれば暑くない 北極や南極などでは夏でも寒い 炭化水素のデータで構築した水溶解度を推定するモデル アルコールの水溶解度を正しく推定できるか?

モデルの適用範囲・適用領域のイメージ x と y の真の関係 : トレーニングデータ : 回帰モデル : 推定したいデータ 誤差大 誤差大 適用範囲内 適用範囲内 x

モデルの適用範囲・適用領域 予測したいデータによって、モデルの信頼性は異なる 『モデルが十分な性能を発揮できるデータ領域』 を定めよう! モデルの適用範囲・適用領域 (Applicability Domain, AD) QSAR [1-3] QSPR [4-6] 適切にモデルの適用範囲を設定し、 推定するときは適用範囲内かどうか判断する必要がある [1] R.P. Sheridan, et al., J. Chem. Inf. Comput. Sci., 44, 1912-1928 (2004) [2] I.V. Tetko, et al., Drug Discov. Today, 11, 700-707 (2006) [3] D. Horvath, et al., J. Chem. Inf. Model, 49, 1762-1776 (2009) [4] P. Bruneau, N.R. McElroy, J. Chem. Inf. Model, 46, 1379-1387(2006) [5] A. Schwaighofer, et al., J. Chem. Inf. Model, 47, 407-424 (2007) [6] Alexandre V., Igor B., J. Chem. Inf. Model, 52, 1413-1437 (2012)

AD の設定 トレーニングデータの範囲 [1] トレーニングデータの中心からの距離 [2,3] データ密度 [4,5] アンサンブル学習 [6] [1] H. Kaneko, et al., Comput. Chem. Eng. 35 (2011) 1135–1142. [2] S. Dimitrov, et al., J. Chem. Inf. Model. 45 (2005) 839–849. [3] I. Sushko, et al., J. Chem. Inf. Model. 50 (2010) 2094–2111. [4] I.I. Baskin, et al., Mol. Inf. 29 (2010) 581–587. [5] H. Kaneko, et al., Chemometr. Intell. Lab. Syst. 58 (2001) 109–130. [6] H. Kaneko, et al., J. Chem. Inf. Model. 54 (2014) 2469-2482.

トレーニングデータの範囲 モデル構築用データにおける各説明変数 X の範囲 変数間の相関が大きい場合は、凸包や主成分分析後のスコアを利用 : トレーニングデータ : 予測データ

トレーニングデータの中心からの距離 モデル構築用データの平均までの距離 変数間の相関が大きい場合は、マハラノビス距離を用いる x2 : トレーニングデータ : トレーニングデータの平均 : 予測データ x1

データ密度 モデル構築用データが密に存在する領域が適用範囲内 x2 : トレーニングデータ : 予測データ x1

データ密度 k最近傍法 (k-Nearest Neighbor method, k-NN) 詳細は https://datachemeng.com/knn/ One-Class Support Vector Machine (OCSVM) 詳細は https://datachemeng.com/ocsvm/ データ密度が高い        AD 内 K最近傍法knnとone-class SVMが有名

アンサンブル学習 複数個のモデルを構築し、それらによる予測値の分散(ばらつき)を用いて 適用範囲を評価 複数個のモデルを構築し、それらによる予測値の分散(ばらつき)を用いて 適用範囲を評価 詳細は https://datachemeng.com/ensemblelearning/ 例えば、 トレーニングデータのサンプル 記述子 をランダムに選択して複数モデルを構築 例) モデルを3つ構築した場合 予測データ x サブデータセット1 モデル1 ypred1 ばらつき 大 なら 適用範囲外 データセット サブデータセット2 モデル2 ypred2 サブデータセット3 モデル3 ypred3

モデルとの距離 (Distance to Model) モデルの適用範囲(AD) : モデルが十分な性能を発揮できるデータ領域 ある狭いデータ範囲 ・・・ モデルは高い性能を発揮 広いデータ範囲 ・・・ モデルはある程度の性能を発揮 モデルとの距離 (Distance to Model, DM) [1,2] の導入 モデルとの距離が大きくなるにつれてモデルの性能(信頼性)は小さくなる [1] Baskin II, Kireeva N, Varnek A.. Mol. Inf., 29, 581-587 (2010) [2] Iurii S., et al., J. Chem. Inf. Model, 50, 2094-2111 (2010)

回帰モデルとの距離 (DM) と予測誤差との関係を定量化 [1] 回帰モデルの予測誤差(信頼性)の推定 回帰モデルとの距離 (DM) と予測誤差との関係を定量化 [1] 新しいデータ 回帰モデル y の推定値 DM:トレーニングデータの平均との距離 x2 DM : 小さい 予測誤差: 小さい x1 DM : 大きい 予測誤差: 大きい : トレーニングデータ : データの平均

?? ?? 注意! クラス分類のとき、アンサンブル学習だけでモデルの適用範囲を 設定すると、広くなりすぎてしまいます! クラス分類のとき、アンサンブル学習だけでモデルの適用範囲を 設定すると、広くなりすぎてしまいます! ?? ?? [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014

数値シミュレーションデータで確認 2クラス分類 各クラス 60データ 記述子: 2つ クラス分類手法 k-NN (k最近傍法) RF (Random Forest) SVM (Support Vector Machine) アンサンブル学習 サンプルバギング (sample bagging, SB) 重複を許してモデル構築用データを選択 モデルの数: 101 [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014

すべてのサブモデルで分類結果が一致した領域 k-NN RF k-NN & RF & SVM SVM

データ密度も使いましょう! 適用範囲内 クラス 分類結果 新しい データ データ密度 推定モデル アンサンブル クラス分類モデル 適用範囲外 SVM x2 x1 [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014