第12章 連続潜在変数 修士 1年 村下 昇平.

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
0章 数学基礎.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
「わかりやすいパターン認識」 第1章:パターン認識とは
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
回帰分析.
ベイズ的ロジスティックモデル に関する研究
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
主成分分析                     結城  隆   .
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
相関分析.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
独立成分分析 (ICA:Independent Component Analysis )
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
パターン認識と機械学習 第2章:確率分布(後半)
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Number of random matrices
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
データ解析 静岡大学工学部 安藤和敏
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

第12章 連続潜在変数 修士 1年 村下 昇平

* もくじ 主成分分析とは? 確率的主成分分析 ベイズ的主成分分析 その他の話題 一般的な主成分分析の目的と定式化 主成分分析の応用 通常の最尤推定とEMアルゴリズムによる最尤推定 ベイズ的主成分分析 その他の話題 因子分析やカーネル主成分分析 非線形潜在変数モデル

0. 主成分分析とは? この章では様々なアプローチによる主成分分析について扱います。 っていうか、主成分分析ってよく聞くけど、そもそもなんなんですか? …というところについてはあまり説明されていないので、とりあえず勝手に調べてみました。

0. 主成分分析とは?:そもそもの目的。 ひとことでいえば「データ分布を扱う空間の基底を、より最適な別の基底に変換してから変量を解析する手法」。この「最適な基底」とは分散が最大になる方向で、それは分散共分散行列の固有ベクトルとなる(詳しくはこの後やります)。 下図のばあい、基底変換後の l2 軸周りにはほとんど情報量がなく、l1 軸周りに情報が集中していることが分かる(というか、そうなるように基底を選ぶのが主成分分析だ!)。 l2 は無視してしまうことで、2次元で扱っていたデータを 1次元だけで比較することが可能になる。…こうした(情報量の損失を最小化するという条件のもとでの)低次元化の手法が主成分分析!

0. 主成分分析とは?:分散が最大って? じゃあなんで「分散が最大となる方向」で情報量の損失が最小化されるの? いま、上図における点A(x1,x2)に注目すると、第1主成分z1のみでデータを代表させる場合の情報量はOBで与えられる(ここで、点Oはz1軸の原点であり、データの重心である)。このときOAが元の情報量であるが、このような各点における情報量の損失(OAとOBの情報量の差の総和、すなわち AB2=OA2 – OB2 の総和)を最小化するには、OBの総和、すなわち軸まわりのばらつきを抑えたい、ってことになる。 したらば、たしかに「分散が最大となる方向」にとった軸まわりでこの総和が最小となるよね…

0. 主成分分析とは?:簡単な定式化 既に説明した通り、主成分分析とはD次元データを M<D であるようなM個の変数を用いて近似することである。すなわち xn を以下の近似式によって近似するということになる。 ここでuiはD次元の正規直交基底(互いに直角な単位ベクトル:第1~第D主成分)である。 また、{zni}はその特定のデータ点に依存している(失われていない情報)が、一方{bi}はすべてのデータ点に共通な定数と考える。 この近似式を用いると、情報損失は次の歪み尺度Jによって表される。 すなわち主成分分析の目的はこのJの最小化であると言える。 …で、肝心の最小化(第1, 第2節)に関しては省略しちゃいますが、結局共分散行列の(相対的に大きな)固有ベクトルとなるわけです。

1.3. 主成分分析の応用 次元削減をするということは… 特徴抽出、すなわち文字認識の際に位置や大きさのばらつきを正規化するのに用いられたり…(主成分を潜在変数とみなし、得られたデータがこれに従うと考えることで、「情報損失」を「ノイズ」として解釈することになる) 非可逆データ圧縮に利用したりできる。 データ圧縮の例。原画像は28pixcel×28pixcel、すなわちD=784次元のデータであるが、M=250で十分に表現されていることがわかる。

1.3. 主成分分析の応用 また、必ずしも次元削減だけでなく… 平均を0、共分散行列(各々の分散だけじゃない!)を単位行列にするような白色化(球状化)を行うことで異なる変数を無相関化できたりする。 様々な前処理の例。左が元データ。中央は個々の変数について平均を0、分散を1に標準化したもの(赤線は規格化されたデータ集合に対する主軸となっている)。そして右は主成分分析による白色化(平均が0、共分散行列が単位行列)。

2.確率的主成分分析 というわけで、本節では主成分分析が確率的潜在変数モデルの最尤解としても表現されることを示す。 このような形で定式化された主成分分析を確率的主成分分析と呼ぶ。 確率的主成分分析の利点は次の通りである。 モデルがデータ集合の主要な相関の構造を捉えることができることに加え、(制約付きのガウス分布に基づいているため)自由パラメータの数を制限できる。 主成分分析を行うためのEMアルゴリズムを導くことができる。これは上位の固有ベクトルのみが必要な(Mが小さい)状況では計算効率が良く、途中でデータ共分散行列を計算する必要もない。 確率モデルとEM法の組み合わせにより、データ集合内の欠損値を扱える。 確率的主成分分析の混合モデルをより見通しのよい方法で定式化でき、EMアルゴリズムを用いて訓練できる。 主成分分析のベイズ的取り扱いの基礎を与える。ベイズ的取り扱いでは、主成分空間の次元を自動的にデータから見いだすことができる。 尤度関数が得られるので、他の確率密度モデルとの直接の比較が出来る。これは、通常の主成分分析で計算できる「再現コスト」という量がしばしば誤解を招く結果を与えることと対照的である。 クラスで条件づけられた確率密度のモデル化に利用できる。 データサンプルを分布から得るための生成モデルとして利用できる。

2. 確率的主成分分析 確率的主成分分析は、すべての周辺分布と条件付き分布がガウス分布になっている線形ガウスモデルの枠組みの単純な例である。 確率的主成分分析を定式化するには… まず主部分空間に対応する潜在変数zを明示的に導入する。 次にガウス分布を仮定した潜在変数zについての事前分布 p(z)=N(z|0, I) および… 潜在変数の値で条件付けられた観測変数xについてのガウス分布である条件付き分布 p(x|z)= N(x|Wz+μ,σ2I) を定義する。(パラメータの詳細については後述する) この枠組みは伝統的な主成分分析の見方と対照的である。すなわち、潜在変数空間からデータ空間への写像に基づいているのである。

2. 確率的主成分分析 生成モデルの観点から確率的主成分分析を眺めることができる。 つまり、まず潜在変数の値をひとつ選び、その値で条件付けつつ観測変数をサンプリングすることで、観測変数のサンプル値が得られる。D次元の観測変数xは、M次元の潜在変数zの線形変換にガウス分布による「ノイズ」が加えられたもので定義される。 これは次式で表される。ここで z はM次元の潜在変数であり、ガウス分布に従う。また、εはD次元の、平均0で共分散が σ2I のガウス分布に従うノイズの変数である。

2. 確率的主成分分析 図でかくと… 最初に潜在変数 z の値を事前分布p(z)からひとつ抽出し、次に x の値を平均 wz+μ 、共分散σ2I の当方的なガウス分布(赤の円)から抽出することにより、観測データ点 x を生成する。

2. 確率的主成分分析 「お前は何を言っているんだ」と感じられたと思いますので、ここで自分なりの解釈を書いておきます。 つまり、従来の主成分分析では… データがまずあって、そこから特徴(=情報損失が最小になるような基底)を見つけ出す。 M+1~Dの主成分に頼る部分は「損失」 しかし確率的主成分分析の考え方では… まず特徴(=主成分:潜在変数)があって、与えられたデータはそれにノイズが乗ったものと考える。 M+1~Dの主成分に頼る部分は「ノイズ」 たぶん、ノイズが乗ったデータに対する、ベイズ的フィッティングと似たようなもんなんじゃないかな。 ミルコ・クロコップ

2.1. 確率的主成分分析:パラメータの最尤推定 というわけで、パラメータ W, μ, σ2 の値を最尤推定を使って決定する。 まず対数尤度関数は以下で表される。(先ほども述べたとおり、z(のパラメータ) から)X が生成される、と考えている) p(x)の平均がμであるのは先ほど見た通り。 分散 C はxの共分散cov[x] = cov[Wz+μ+ε] = E[(Wz+ε)(Wz+ε)T]。zとεは独立であるから単純に和をとればよく、結局 C=WWT+σ2I となる。 最終的に対数尤度関数は以下のように書き下せる。(対数をとったガウス分布の和を書き出しただけ!)

2.1. 確率的主成分分析:パラメータの最尤推定 平均については単純なガウス分布に対する尤度関数なので、これを最大化するような μ はデータ平均と一致する。これを代入すると、対数尤度関数は次のように書ける。 ここで S はデータに対する共分散行列であり、次式で与えられる。 また、Wとσ2 についてはもっと複雑であるが閉形式の厳密解が存在し、その求め方などについて最近では研究がすすんできているらしい。

2.2. EMアルゴリズムによる主成分分析 こうして厳密な閉形式の形で最尤パラメータの値を得られるんならそれを使えばいいじゃん、話はそれでおわりじゃん、って話もあるけれど、大規模な問題(高次元空間)においては、サンプルの共分散行列を直に扱うよりもEMアルゴリズムを用いた方が計算量的に有利になったりする。 というわけで、EMアルゴリズムによる主成分分析であるが、これは以下のステップを経て尤度関数を最大化する。 パラメータの初期化 Eステップ :潜在変数空間の事後分布の十分統計量を計算 Mステップ :パラメータ値の更新 …以下、1と2を繰り返していく。 どのように定式化するかについては省略。

2.3. ベイズ的主成分分析 これまでは主部分空間の次元Mが与えられたものとして考えてきたが、そもそもこのMをどのように選ぶか、という問題がある。 比較的大きな固有値と比較的小さな固有値の間にはっきりした境目があるなら、その境目までの固有値を用いるのが自然であるが…実際にはそんなに明らかに変わってきたりしない。 公差確認法によって確認用データ集合の尤度関数が最大になるように次元の値を選ぶこともできるが、計算量的に高くついてしまう。 ベイズ的な手法でモデル選択を行えば、これを解決することができる!(らしい) 詳細は略。エビデンス近似うんぬん。

2.4. その他の話題 因子分析 カーネル主成分分析 非線形潜在変数モデル 非線形多様体のモデル化 確率的主成分分析と深い関係がある カーネル置換を主成分分析に適用 非線形潜在変数モデル これまでの主成分分析は線形ガウス分布に基づいていたが、ここでは非線形・非ガウス的なモデルを考える。 独立成分分析 潜在変数と観測変数の関係が線形だが、潜在変数の分布が非ガウス分布であるモデル 自己連想ニューラルネットワーク NNの教師なし学習への応用で、次元削減などに用いられる。ここでは入力数と出力数を同じにしたネットワークを使い、この誤差に関する指標を比較する。 非線形多様体のモデル化 自然に得られるデータ源は(ある程度のノイズは別にして)高次元の観測データの空間のなかに埋め込まれた低次元非線形多様体に対応する場合が多い。ここでは明示的にこの性質を把握する手法についていくつか紹介している。