混合ガウスモデル Gaussian Mixture Model GMM

Slides:



Advertisements
Similar presentations
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
論文紹介 “Data Spectroscopy: Learning mixture models using eigenspaces of convolution operators” (ICML 2008) ─ by Tao Shi, Mikhail Belkin, and Bin Yu IBM東京基礎研究所.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
ベイズ的ロジスティックモデル に関する研究
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
EMアルゴリズム クラスタリングへの応用と最近の発展
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第12章 連続潜在変数 修士 1年 村下 昇平.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
パターン認識と機械学習 第2章:確率分布(後半)
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識とニューラルネットワーク 栗田多喜夫 2019/4/26 早稲田大学大学院理工学研究科講義.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
経営学研究科 M1年 学籍番号 speedster
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
自己縮小画像と混合ガウス分布モデルを用いた超解像
転移学習 Transfer learning
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

混合ガウスモデル Gaussian Mixture Model GMM 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

GMM とは? クラスタリング手法の一つ 与えられたデータセットを、複数の正規分布の重ね合わせで表現する 確率密度関数が得られる (確率分布として表現できる) サンプルごとに、各クラスターに所属する確率が得られる クラスター数を自動的に決められる

どんなときに GMM を使うか? 理想 データセットが、複数の正規分布の重ね合わせで表現できることが 分かっているとき 現実 データセットが、複数の正規分布の重ね合わせで表現できることが 分かっているとき 現実 クラスターの数を自動的に決めながらクラスタリングしたいとき データセットの確率密度関数が欲しいとき 確率密度関数の応用例) 確率密度関数に基づいたサンプリング 説明変数 X の事前分布として利用

正規分布 (ガウス分布, Gaussian distribution) データが、平均値付近に一番固まっていて、ばらつきのある確率分布 平均:μ 分散:σ2

正規分布の例 μ = 0 σ = 1 ヒストグラム 確率密度関数

多変量正規分布 正規分布を複数の変数 (x1, x2, x3, … ) がある場合に拡張したもの 各変数の平均・分散だけでなく、変数間の共分散も必要 x1 と x2 の共分散が 2 とか 変数の数を m とすると、 x : [ x1, x2, x3, … xm ] μ : 1 × m の平均ベクトル Σ : m × m の分散共分散行列

多変量正規分布の例 2変数 x1 の平均 3, 分散 2 x2 の平均 4, 分散 0.2 x1 と x2 の共分散 0.5 散布図 多変量正規分布の例 2変数 x1 の平均 3, 分散 2 x2 の平均 4, 分散 0.2 x1 と x2 の共分散 0.5 散布図 ヒストグラム 確率密度関数

(多変量)正規分布の重ね合わせとは? 例 重ね合わせ(混合)

混合正規分布 (混合ガウス分布) 散布図 混合正規分布 (混合ガウス分布, mixtures of Gaussians) ヒストグラム 確率密度関数

混合正規分布 (混合ガウス分布) 式 変数の数を m , 正規分布の数を n とすると、 x : [ x1, x2, x3, … xm ] μk : k 番目の正規分布における 1 × m の平均ベクトル Σk : k 番目の正規分布における m × m の分散共分散行列 πk : 混合係数 (各正規分布の重み)

GMM の方針 データセットが与えられたとき、最尤推定法で μk : k 番目の正規分布における 1 × m の平均ベクトル Σk : k 番目の正規分布における m × m の分散共分散行列 πk : 混合係数 (各正規分布の重み) を求めよう! 最尤推定法については、 http://datachemeng.com/maximumlikelihoodestimation/ にあります 具体的な求め方については、p. 18 以降の [補足] にあります

実際に GMM をやってみる 散布図 右のデータセットを用いて n = 3 としてGMMを行うと、 p. 8 にある実際の確率密度関数と 同じような結果が得られた!

各サンプルがどのクラスターになるか考える 1/3 GMM では、各サンプルの割り当てられた正規分布が、 そのサンプルのクラスター n 個の正規分布があるとき、クラスター数も n 個ある クラスター変数 z を用いる ある k 番目の zk だけ値が 1 で、他は 0 zk = 1 のとき、k 番目のクラスターに属するということ サンプルに関する情報がないとき、 zk = 1 となる確率は πk (混合係数)

各サンプルがどのクラスターになるか考える 2/3 知りたいのは、あるサンプル x が与えられたときに、zk = 1 となる確率 ベイズの定理より、

各サンプルがどのクラスターになるか考える 3/3 とは、zk = 1 、つまり k 番目の正規分布、における x の確率 よって、 k について、1 から n まで計算し、最も大きい をもつ クラスターを、x が属するクラスターとする

実際にクラスターを割り振る 散布図 GMM 各サンプルにクラスターを割り振ると、

クラスター数をどう決めるか? クラスター数を 1, 2, 3, … と振って GMM を行い、それぞれ ベイズ情報量規準 (Bayesian Information Criterion, BIC) を 計算する L: 尤度 (http://datachemeng.com/maximumlikelihoodestimation/ ) M: 推定するパラメータの数 今回は詳細を記載しないが、分散共分散行列 Σk に制限を 与えることで、M が変化する (制限しないときは考えなくてよい) N: サンプル数 BIC の値が最小となるクラスター数とする データセットを確率密度関数として表せるため、最適クラスター数の 推定ができる

ベイズ情報量規準 (BIC) を計算してみた 散布図 少し見えにくいが、クラスター数が 3 で BIC の値が最小になっており、 適切なクラスター数を推定できた

[補足] EM アルゴリズム 対数尤度関数 GMM のパラメータ推定には、EM (Expectation-Maximization) アルゴリズムが用いられることが多い 対数尤度関数 (http://datachemeng.com/maximumlikelihoodestimation)

[補足] EM アルゴリズム 最大 → 極大 対数尤度関数が、μk, Σk, πk それぞれで最大になるために満たされるべき 条件を探す があるため、 Lagrange の未定乗数法を用いる

[補足] EM アルゴリズム μで微分 対数尤度関数を μk で微分して 0 とすると、 上の式中の は、p. 14 における、 xj が与えられたときの正規分布 k の事後確率に等しい これを、負担率 γ(zj,k) をする

[補足] EM アルゴリズム 負担率 とすると、 Σk-1 を左からかけると、

[補足] EM アルゴリズム μの計算 よって、 ここで、 は、k 番目のクラスターに 割り当てられたサンプル数

[補足] EM アルゴリズム Σ の計算 対数尤度関数を Σk で微分して 0 とする 整理すると、

[補足] EM アルゴリズム π の計算 πk について、Lagrange の未定乗数法より、 を最大化する G を πk で微分して 0 とすると、

[補足] EM アルゴリズム π 両辺に πk をかけて k について和を取ると、 より、

[補足] EM アルゴリズム まとめ μk, Σk, πk を初期化する E ステップ : 負担率 γ(zj,k) を計算する M ステップ : 負担率 γ(zj,k) を用いて、 μk, Σk, πk を再計算する ②③ を繰り返す

参考文献 C.M. ビショップ,パターン認識と機械学習 下, 丸善出版 (2012)