転移学習 Transfer learning

Slides:



Advertisements
Similar presentations
5 弾力性とその応用.
Advertisements

Building text features for object image classification
「わかりやすいパターン認識」 第1章:パターン認識とは
パネル分析について 中村さやか.
重回帰分析入門 経済データ解析 2009年度.
実証分析の手順 経済データ解析 2011年度.
Pattern Recognition and Machine Learning 1.5 決定理論
重回帰分析入門 経済データ解析 2011年度.
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
ベイズ的ロジスティックモデル に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
第6章 数量化I類.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第4回 カルノー図による組合せ回路の簡単化 瀬戸 目標 ・AND-OR二段回路の実現コスト(面積、遅延)が出せる
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
高校数学の知識から、 人工知能・機械学習・データ解析へ つなげる、 必要最低限の教科書
変数選択手法っていろいろあるけど 何を使えばいいの?
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音高による音色変化に着目した音源同定に関する研究
付属書Ⅰ.5 ハザード分析と 重要管理点 (HACCP).
新入生の事前知識の違いによる コンピュータリテラシ学習効果の分析
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
雑音環境下における 非負値行列因子分解を用いた声質変換
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
訓練データとテストデータが 異なる分布に従う場合の学習
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
AIを用いたドローンの 新たな姿勢制御方法に関する研究
DNSクエリーパターンを用いたOSの推定
部分的最小二乗回帰 Partial Least Squares Regression PLS
情報処理Ⅱ 第2回:2003年10月14日(火).
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
重回帰分析入門 経済データ解析 2008年度.
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
AAMと回帰分析による視線、顔方向同時推定
高校数学の知識から、 人工知能・機械学習・データ解析へ つなげる、 必要最低限の教科書
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

転移学習 Transfer learning 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

どんなときに転移学習が有効か? あるデータセットを用いて、回帰モデル・クラス分類モデル y=f(x) を 構築し、x の値から y の値を推定したい しかし、そのデータセットのサンプル数が小さく、適切なモデルが 得られるか心配 そのデータセットのサンプルと、全く同じ環境で得られたというわけでは ないが、似た環境で得られたある程度サンプル数のあるデータセットが あり、2 つのデータセットで y の種類や x の変数が同じ 例) y や x を測定した装置が異なるデータセット 例) 実スケールのデータセットとパイロットスケールのデータセット

何を “転移” させるか? ある程度の数があるサンプルを転移させる ある程度の数があるサンプルで学習したモデルを転移させる サンプルを転移させる方法に着目 http://www.kamishima.net/archive/2009-tr-jsai_dmsm1-PR.pdf

2 種類のデータセットを有効に活用しよう! ターゲットのデータセット (サンプル数 小) 変数 サンプル y x サポート用のデータセット (サンプル数 大) 変数 y x サンプル

一般的な解析 2 つのデータセットをサンプル方向につなげて、 回帰分析手法・クラス分類手法でモデル y = f(x) 構築 モデルに、x の値を入力して、y の値を推定

転移学習 2 つのデータセットを すべて 0 の行列 すべて 0 の行列 y x x y x x すべて 0 の行列 上のようにつなげて、回帰分析手法・クラス分類手法でモデル y = f(x) 構築 モデルに、 x x の形式にした x の値を 入力して、y の値を推定

転移学習で期待すること 2 つのデータセットで共通する x と y との間の関係を学習 2 つのデータセットで異なる y x x 2 つのデータセットで共通する x と y との間の関係を学習 2 つのデータセットで異なる x と y との間の関係を学習 サポート用のデータセットも活用することで、共通する x と y との 関係を学習することで、異なる関係だけならターゲットのデータセットの 少ないサンプルでも学習できるか!?

数値シミュレーションデータで確認! ターゲットのデータセット 3 サンプル サポート用のデータセット 100 サンプル の状況において、新たなターゲットの 100 サンプルを 正確に推定できるか?? ケース1: x と y の間の傾きが、ターゲット・サポート用のデータセットで変化 ターゲット: y = 2x1 + 4x2 + 1 サポート用: y = 2x1 + 3x2 + 1 ケース2: 定数項 (y切片) が、ターゲット・サポート用のデータセットで変化 [x と y は非線形] ターゲット: y = 2(x1−2)3 + 3x22 + 3 サポート用: y = 2(x1−2)3 + 3x22 + 1

比較した手法 TL: Transfer Learning, 転移学習 OT: Only Target dataset, ターゲットのデータセット (3 サンプル) のみ 使用 BD: Both target and supporting Dataset, ターゲットのデータセット (3 サンプル) とサポート用のデータセット (100 サンプル) 使用 [p. 4 の方法] 回帰分析手法は、 Partial Least Squares (PLS) Gaussian Process Regression (GPR) 詳しくはこちら https://datachemeng.com/summarydataanalysis/

ケース1 TL-PLS OT-PLS BD-PLS r2: 0.998 r2: 0.090 r2: 0.839 TL-GPR OT-GPR BD-GPR r2: 0.998 r2: 0.088 r2: 0.829

ケース2 TL-PLS OT-PLS BD-PLS r2: 0.935 r2: 0.111 r2: 0.751 TL-GPR OT-GPR BD-GPR r2: 0.959 r2: 0.098 r2: 0.773

実際のデータセットで検証 Shootout 2012 のデータセット y : 医薬品中のAPIの重量パーセント濃度 [wt %] x : NIRスペクトル (ABB Bomem FT-NIR model MB-160) 952.42, 953.12, ..., 1309.33 nm (372変数) 228 個の錠剤 ラボスケール装置で製造 : 89 サンプル (shootout_2012_laboratory_scale.csv) パイロットスケール装置で製造 : 72 サンプル (shootout_2012_pilot_scale.csv) 実スケール装置で製造 : 67 サンプル (shootout_2012_full_scale.csv) http://www.idrc-chambersburg.org/shootout-2012.html

想定したシチュエーション1 実スケール装置で製造されたターゲットのデータセット 3 サンプル パイロットスケールで製造されたサポート用のデータセット 72 サンプル の状況において、新たなターゲットの 64 サンプルを 正確に推定できるか??

結果1 TL-PLS OT-PLS BD-PLS r2: 0.512 r2: -0.1 r2: 0.819 TL-GPR OT-GPR BD-GPR r2: 0.005 r2: 0 r2: -0.1

想定したシチュエーション2 実スケール装置で製造されたターゲットのデータセット 3 サンプル パイロットスケールで製造されたサポート用1のデータセット 72 サンプル、 ラボスケールで製造されたサポート用2のデータセット 89 サンプル の状況において、新たなターゲットの 64 サンプルを 正確に推定できるか?? y x x y x x y x x

結果2 TL-PLS OT-PLS BD-PLS r2: 0.533 r2: -0.1 r2: 0.760 TL-GPR OT-GPR BD-GPR r2: 0.762 r2: 0 r2: 0.816

考えごと 転移学習のときのハイパーパラメータの決定をどうするか いつも通りクロスバリデーションでよい? ターゲットのデータセットをよく推定できるように決める? オーバーフィットしそう? サポート用のサンプルがあるから問題ない? スペクトル解析においては波長選択をしたほうがよさそう 評価関数をどうするか? クロスバリデーション後の r2 ? ターゲットのデータセットにおける r2?