混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR

Slides:



Advertisements
Similar presentations
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
Pattern Recognition and Machine Learning 1.5 決定理論
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
回帰分析.
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
アルゴリズムとデータ構造 補足資料7-3 「単純選択ソートselsort.c」
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第12章 連続潜在変数 修士 1年 村下 昇平.
京都大学 化学研究所 バイオインフォマティクスセンター
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
相関分析.
データ解析 静岡大学工学部 安藤和敏
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
部分的最小二乗回帰 Partial Least Squares Regression PLS
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識とニューラルネットワーク 栗田多喜夫 2019/4/26 早稲田大学大学院理工学研究科講義.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
経営学研究科 M1年 学籍番号 speedster
データ解析 静岡大学工学部 安藤和敏
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
データ解析 静岡大学工学部 安藤和敏
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

GMR とは? 説明変数 X と目的変数 Y の関係を、複数の正規分布の 重ね合わせで表現する手法 逆解析においても、モデルの適用範囲を考慮した解が得られる X と Y を合わせて混合ガウスモデルを構築 混合ガウスモデル(Gaussian Mixture Models, GMM) に ついてはこちら: https://datachemeng.com/gaussianmixturemodel/ GMM は X と Y の同時確率密度分布 p(X, Y) に対応 確率の乗法定理とベイズの定理から、p(Y|X) を求めれば回帰分析、 p(X|Y) を求めれば逆解析

GMR の概要 y 混合ガウスモデル (Gaussian Mixture Models, GMM) x 確率の乗法定理 ベイズの定理 p( x, y ) + 回帰分析 p( y | x ) p( x | y ) 逆解析

混合正規分布 (混合ガウス分布) 説明変数 X と目的変数 Y とをつなげたもの (X の右に Y を追加した もの) を Z とする X の変数の数を k, Y の変数の数を m, 正規分布の数を n とする GMM を構築することは、以下の混合正規分布を得ることに対応する (GMM の詳細はこちら: https://datachemeng.com/gaussianmixturemodel/ ) z : [ x1, x2, x3, …, xk, y1, y2, y3, …, ym ] μi : i 番目の正規分布における 1 × (k+m) の平均ベクトル Σi : i 番目の正規分布における (k+m) × (k+m) の分散共分散行列 πi : 混合係数 (各正規分布の重み)

X と Y を明示的に分けて書く 構築された混合正規分布は、X と Y の同時確率密度分布を意味する x : [ x1, x2, x3, …, xk ] y : [ y1, y2, y3, …, ym ] μx,i : i 番目の正規分布における、X に対応する 1 × k の平均ベクトル μy,i : i 番目の正規分布における、Y に対応する 1 × m の平均ベクトル Σxx,i : i 番目の正規分布における、X に対応する k × k の 分散共分散行列 Σyy,i : i 番目の正規分布における、Y に対応する m × m の 分散共分散行列 Σxy,i (Σyx,i): i 番目の正規分布における、X と Y の m × k (k × m) の 共分散行列

X から Y の推定 (回帰分析) X から Y を推定することは、X が与えられたときの Y の事後分布を 求めることに対応 確率の乗法定理とベイズの定理より、

Y の推定値の混合正規分布とその重み とすると、 p(y | x, μx,i, Σxx,i) : i 番目の正規分布における、Y の推定値の (多変量) 正規分布 wx,i : i 番目の正規分布における、Y の推定値の分布の重み

Y の推定値の(多変量)正規分布の平均 i 番目の正規分布における、Y の推定値の多変量正規分布 p(y | x, μx,i, Σxx,i) について、平均ベクトル mi(x) は、 となる 式変形はビショップの本 [C.M. Bishop, パターン認識と機械学習 上下, 丸善出版, 2006] を参照のこと x に、X のサンプルを入力することで、i 番目の正規分布における Y の値を推定できる

Y の推定値の正規分布の重み i 番目の正規分布における、Y の推定値の分布の重み wx,i について、 p(x | μx,i, Σxx,i) は、平均ベクトル μx,i, 分散共分散行列 Σxx,i の 多変量正規分布における x での確率密度を計算することに対応する

最終的な Y の推定値をどうするか? ある一つのサンプルについて、それぞれの Y の推定値は、 n 個の推定値とそれらの重みとして与えられる それらから最終的な推定値を計算するには、 mode (最頻値) : 重みが最も大きい推定値を選ぶ mean (平均値) : n 個の推定値の重み付け平均とする の二通りある X と Y との間の関係が非線形のとき、mean では上手くいかない場合が あることが確認されているが、どちらがよいかはまだ定かではない

Y から X の推定 (逆解析) p. 5-9 について、X と Y を入れ替えて同じことをすれば、

正規分布の数をどう決めるか? 正規分布の 1, 2, 3, … と振って GMM を行い、それぞれ ベイズ情報量規準 (Bayesian Information Criterion, BIC) を 計算する L : 尤度 (http://datachemeng.com/maximumlikelihoodestimation/ ) M : 推定するパラメータの数 今回は詳細を記載しないが、分散共分散行列 Σk に制限を 与えることで、M が変化する (制限しないときは考えなくてよい) N : サンプル数 BIC の値が最小となる正規分布の数とする 詳細は記載しなかったが、分散共分散行列の種類も一緒に決めることが できる

正規分布の数をどう決めるか? 補足 他の回帰分析手法と同じように、クロスバリデーションで正規分布の数や 分散共分散行列の種類を最適化することも可能 回帰分析の性能をできるだけ上げたいのならクロスバリデーションによる 最適化のほうがよく、逆解析の性能も考慮したいのなら BIC による 最適化のほうがよいかもしれない (確証なし)

その他 今回は、X と Y を分けて、GMR の説明をしたが、基本的にすべての 変数は同等に扱われる

どうやって実際に GMR を実行するか? GMR をするための Python のプログラムを作りました! GMR のデモと、BIC で正規分布の数や分散共分散行列を 最適化するデモも付いています! https://github.com/hkaneko1985/sgmm

参考文献 T. Miyao, H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 56, 286-299, 2016 C.M. Bishop, パターン認識と機械学習 上下, 丸善出版, 2006