ガウス過程による回帰 Gaussian Process Regression GPR

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
Bias2 - Variance - Noise 分解
回帰分析.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
第12章 連続潜在変数 修士 1年 村下 昇平.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
第6章 カーネル法 修士2年 藤井 敬士.
サポートベクターマシン によるパターン認識
相関分析.
VII. 空間モデル.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
経営学研究科 M1年 学籍番号 speedster
サポートベクターマシン Support Vector Machine SVM
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
ベイズ音声合成における 事前分布とモデル構造の話者間共有
データ解析 静岡大学工学部 安藤和敏
物理フラクチュオマティクス論 応用確率過程論 (2006年4月11日)
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

ガウス過程による回帰 Gaussian Process Regression GPR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

ガウス過程による回帰 (GPR) とは? 線形の回帰分析手法 カーネルトリックにより非線形の回帰モデルに 目的変数の推定値だけでなく、その分散も計算できる クロスバリデーションがいらない

GPRを理解するための大まかな流れ 前提:モデル構築用のサンプルの数を n とし、n+1 個目のサンプルの 目的変数 y の値を推定したいとする n 個のサンプルについては、y の値と説明変数 X の値があり、 n+1 個目のサンプルについては、X の値のみがある ① 線形のモデルを仮定する y = X b (b:回帰係数) ② サンプル間の y の関係は、サンプル間の X の関係によって決まることを 示す ③ カーネルトリックにより非線形モデルに拡張する ④ y にはノイズ (測定誤差) が含まれていることから、そのノイズの大きさを 仮定して、再び ② の関係を求める ⑤ ④から n 個のサンプルの X と、n+1個目のサンプルの X との間の 関係を求め、さらに n 個の y の値を用いて、n+1 個目の y の 推定値を限定していく

説明に入る前に:GPRがとっつきにくい理由 y と b については、1つの値 ではなく 分布 を考えなければならない 具体的には、正規分布 (ガウス分布) → “ガウス”過程の名前の由来 x については、値で OK ・・・ p. 6, 7, 8 で説明 分布からのサンプリングを理解しなければならない ・・・ p. 13, 14, 15 で説明 そういう意味では、②が最難関であり、そこを理解して抜けると そのあとは霧が晴れたように GPR を理解できると思います

① 線形モデルの仮定 y = Xb n:サンプル数 y X b m:説明変数の数

① 簡単にするため、まずは X を1変数とする y = xb y x b

② 回帰係数が正規分布に従うと仮定 b の分布を正規分布 (ガウス分布) と仮定する 平均:0、分散:σb b の確率分布 (probability distribution) は 正規分布 (Normal distribution) であり、 平均:0、分散:σb2 である、という意味

② b の例 σb = 1 のときの、b の分布

② サンプル間の y の関係を考える 念頭にあること:x の値が似ている (近い) サンプル同士は、 y の値も似ている (近い) だろう → サンプル間における y の値の関係は、 x の値の関係から計算できるだろう b は1つの値ではなく、正規分布として与えられた → あるサンプルの y の値 ( y(i) ) も同じように、1つの値ではなく、 正規分布で与えられる! n 個のサンプルがあるので、n 個の正規分布 n 個の正規分布それぞれの、平均と分散を求めればOK?→ No!! 念頭にあった、 “サンプル間における y の値の関係”、つまり、 正規分布同士の関係も求める必要がある → 共分散

② y の平均ベクトルと分散共分散行列 n 個のサンプルの y における正規分布について、 y(i) の正規分布の平均を mi とする y(i) の正規分布の分散を σyi2 とする y(i) の正規分布と y(j) の正規分布との共分散を σyi,j2 とする σyi は σyi,i と同じ 平均ベクトル m 分散共分散行列 Σ

② 平均ベクトルと分散共分散行列の計算 y = xb から、i 番目のサンプルについては y(i) = x(i)b b の平均は0、分散は σb2 = b の分散 E[*]:* の平均 cov[*,・]:* と ・ との間の共分散

② y の平均ベクトルと分散共分散行列 まとめ

② 何を意味するか? y のサンプル間の分布の関係が、x のサンプル間の関係で表せた y の同時分布 さらに、b の値が (分布の中から) 1つに決まると、yの値が1つに決まる y の同時分布

② サンプルを生成してみる x を、-1, -0.95, -9, …, 0.9, 0.95, 1 とする σb = 1 とする

② サンプリング 実際は、b は分布であり、” b の値が1つに決まる” ことに意味はない → サンプリング そして、すべてにおいて x と y との間の関係をプロットし、 様子を確認する

② サンプリングの結果 x を、-1, -0.95, -9, …, 0.9, 0.95, 1 とする σb = 1 とする (先ほどは 点 で表示ましたが、今回は見やすいように線で繋いでいます) 100回 サンプリング した結果 (100本の線がある) p.13 の 2 つのプロットもこの中にある 実際、p.8で念頭にあったように、 x が似ているサンプル同士は y も似ていることを確認 xの値が1つ与えられたとき、yの値にばらつきがある → y は分布ということ

② 説明変数の数を複数に 説明変数の数:1 → m b の数:1 → m b の分布の数:1 → m b の分布の平均はすべて 0 b の分布の分散はすべて σb2 b の分布の間の共分散はすべて 0 → 回帰係数同士は独立しているということ

② yの平均ベクトルと分散共分散行列の計算 y = xb から、i 番目のサンプルについては y(i) = x(i)b b の平均はすべて0、分散はすべて σb2、共分散はすべて0 y の平均0より、 共分散は 内積の平均 (期待値) = b の分散 E[*]:* の平均 cov[*,・]:* と ・ との間の共分散

② yの平均ベクトルと分散共分散行列 まとめ

③ 非線形モデルへの拡張 yの平均ベクトルと分散共分散行列で大事なのは、Xのサンプル間の 内積に b の分散をかけたもの だけ カーネルトリック   詳しくはこちら

③ カーネルトリック 線形モデル (元の空間) : 高次元空間への写像 (非線形写像): 非線形モデル関数 (高次元空間): K:カーネル関数

③ カーネル関数の例 線形カーネル ガウシアンカーネル 多項式カーネル

③ GPRで有名なカーネル関数

③ 非線形モデルのサンプリングの結果 x を1変数とし、-1, -0.95, -9, …, 0.9, 0.95, 1 とする ガウシアンカーネルで γ = 1 とする 10回 サンプリング した結果 (10本の線がある) p.8で念頭にあったように、x が似ているサンプル同士は y も似ていることを確認 xの値が1つ与えられたとき、yの値にばらつきがある → y は分布ということ

④ y に測定誤差を仮定 y に測定誤差があり、その測定誤差は平均:0、分散:σe2 の サンプルごとに独立な正規分布に従うと仮定 yobs(i):測定誤差を含む i 番目のサンプルの 目的変数の値 e(i):i 番目のサンプルの 測定誤差 e(i) の確率分布 (probability distribution) は 正規分布 (Normal distribution) であり、 平均:0、分散:σe2 である、という意味

④ yobsの平均ベクトル p. 18 より、 y(i) の平均は 0 e(i) の平均は 0 よって、 より、yobs(i) の平均 mobs,i も 0

④ yobsの分散共分散行列 p. 18 より、 y(i) と y(j) との間の共分散 (分散) は e(i) と e(j) との間の共分散(分散)は、サンプルごとに独立なので、δijσe2 δij は、i = j のとき 1、それ以外は 0 となる変数 つまり、分散が σe で共分散が 0 ということ よって、 より、 y(i) と e(i) とが互いに独立であることから、 yobs(i) と yobs(j) との間の共分散 (分散) σyobs i,j2 は、

④ yobsの分散共分散行列 まとめ サンプル数 n として、分散共分散行列を Σn とすると、

⑤ 問題設定 モデル構築用のサンプルの数を n とし、n+1 個目のサンプルにおける 目的変数 y の値を推定したいとする yobs(n+1) は?

⑤ 方針 yobs が与えられたときの yobs(n+1) の条件付き分布 p( yobs(n+1) | yobs ) を求める これも正規分布、つまり平均と分散を求める これが yobs(n+1) の予測分布、つまり平均が予測値、分散が不確実性 確率の乗法定理より、 p( yobs(n+1) | yobs ) を求めるために、まずは 同時分布 p( yobs , yobs(n+1) ) = p( yobs,n+1 ) を求める 同時分布とは、②でやったように y のサンプル間の分布の関係のこと (p.12参照) ②で求めたように、同時分布は X のサンプル間の関係で表される

⑤ 方針 まとめ p( yobs,n+1 ) で (n+1) 個のサンプル間の y のガウス分布を求める (n+1) 次元のガウス分布 n 個の条件 (制約) である yobs により、(n+1) – n = 1 次元の ガウス分布になる 平均:予測値 分散:予測値の不確実性

⑤ 用いる関係式 条件付き分布と同時分布とを結びつける式 条件付き分布 p( za | zb ) の平均ベクトルを μa|b、 分散共分散行列を Σa|b とする 同時分布 p( za, zb ) の平均ベクトルを 分散共分散行列を とすると、 詳しい導出は、 http://www.gaussianprocess.org/gpml/chapters/RWA.pdf のA.2 『パターン認識と機械学習 上』丸善出版 p.82-85 (第7刷) を参照のこと

⑤ 同時分布 p( yobs,n+1 ) p. 25より、同時分布 p( yobs,n+1 ) の平均は 0 (0ベクトル) p( yobs,n+1 ) の分散共分散行列を Σn+1 とすると、p.26,27より、 ただし、

⑤ 条件付き分布 p( yobs(n+1) | yobs ) 平均を m(x(n+1))、分散を σ2(x(n+1)) とすると、p.31, 32より、

GPRの使い方 目的変数の値を予測したいサンプルの x(n+1) が得られたとき、 予測値:m(x(n+1)) 予測値が正規分布に従うと仮定すれば、 x(n+1)の目的変数の実測値が m(x(n+1))-σ(x(n+1)) ~ m(x(n+1)) + σ(x(n+1)) の範囲に入る確率は、68.27 % m(x(n+1))-2×σ(x(n+1)) ~ m(x(n+1)) + 2×σ(x(n+1)) の範囲に入る確率は、95.45 % m(x(n+1))-3×σ(x(n+1)) ~ m(x(n+1)) + 3×σ(x(n+1)) の範囲に入る確率は、99.73 %

精度 β y の測定誤差の分散である σe2 の代わりに、 精度 β ( = 1 / σe2 ) が使われることが多い

GPRの数値例 モデル構築用サンプル数 n = 3 予測用サンプルの x:-2, -1.99, -1.98, …, 1.98, 1.99, 2 ガウシアンカーネル使用 x y -0.5 -1 -0.1 0.6 1

GPRの数値例の結果 ○:モデル構築用サンプル、ー:予測値、・・・:予測値±σ β=5, γ=1 β=100, γ=1 β を大きくする (σe2 を小さくする) と、予測値が モデル構築用 サンプルにフィット するようになる β=5, γ=10 β=100, γ=10 γ を大きくすると、 予測値や σ が 複雑な曲線に なる

ハイパーパラメータの決め方 1/2 ハイパーパラメータ β ( = 1 / σe2 ) カーネル関数のパラメータ ハイパーパラメータの決め方 3通り ① 事前知識から決定 y の測定誤差の分散が分かっているときは、それに基づいて β を設定する カーネル関数のパラメータを決めることは難しいが、 線形カーネルならこれでOK ② クロスバリデーションで最適化

ハイパーパラメータの決め方 2/2 ハイパーパラメータの決め方 3通り ③ 最尤推定・・・最も一般的な方法 下の対数尤度関数を最大化するパラメータベクトル θ にする 共役勾配法