第8章　グラフィカルモデル修士２年浦田　淳司.

Slides:

Advertisements

Similar presentations

PRML読書会第11回 8.4 グラフィカルモデルによる推論 SUHARA YOSHIHIKO (id:sleepy_yoshi)

Advertisements

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

確率･統計Ⅰ 第11回 i.i.d.の和と大数の法則ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

Pattern Recognition and Machine Learning 1.5 決定理論

統計解析第9回第9章正規分布、第11章理論分布.

Bassモデルにおける最尤法を用いたパラメータ推定

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

ベイズ的ロジスティックモデルに関する研究

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

第12章　連続潜在変数修士 1年村下昇平.

最尤推定によるロジスティック回帰対数尤度関数の最大化.

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

【小暮研究会２】「ベイズのアルゴリズム」：序章【１，２：計量経済分析と統計分析】【３：ベイズ定理】

第13章　系列データ修士 1年村下昇平.

計測工学復習.

ガウス過程による回帰 Gaussian Process Regression GPR

第6章　カーネル法修士2年藤井　敬士.

第3回確率変数の平均確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

正規分布におけるベーテ近似の解析解と数値解東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

確率･統計Ⅰ 第3回確率変数の独立性／確率変数の平均ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

第9章　混合モデルとEM 修士２年北川直樹.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

確率論の基礎「ロジスティクス工学」第3章鞭効果第4章確率的在庫モデル補助資料

7.4 Two General Settings D3 杉原堅也.

確率伝搬法と量子系の平均場理論田中和之東北大学大学院情報科学研究科

第14章　モデルの結合修士２年山川佳洋.

独立成分分析５　アルゴリズムの安定性と効率２００７/１０/２４　　　名雪　勲.

標本分散の標本分布標本分散の統計量　　　の定義　　　の性質分布表の使い方　　　分布の信頼区間　

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

パターン認識と機械学習第2章：確率分布（後半）

予測に用いる数学 2004/05/07 ide.

量子系における確率推論の平均場理論田中和之東北大学大学院情報科学研究科

計測工学 -誤差、演習問題計測工学(第6回) 2009年5月26日　Ⅱ限目.

2009年12月4日 ○ 前田康成（北見工業大学）吉田秀樹（北見工業大学）鈴木正清（北見工業大学）松嶋敏泰（早稲田大学）

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

統計解析第1回条件付き独立性と確率的グラフィカルモデル本講義の全体像

様々な情報源（４章）.

部分的最小二乗回帰 Partial Least Squares Regression PLS

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

ベイズ･アプローチによるグラフィカル･テスト理論

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

第4章識別部の設計 4－5 識別部の最適化発表日：2003年5月16日発表者：時田陽一

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

第3章　線形回帰モデル修士1年山田　孝太郎.

経営学研究科 M1年学籍番号 speedster

データ解析静岡大学工学部安藤和敏

クロスバリデーションを用いたベイズ基準によるHMM音声合成

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

人工知能特論II　第8回二宮　崇.

データ解析静岡大学工学部安藤和敏

ポッツスピン型隠れ変数による画像領域分割

ガウス分布におけるベーテ近似の理論解析東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

物理フラクチュオマティクス論応用確率過程論 (2006年4月11日)

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

ベイジアンネットワーク概説第3章ベイジアンネットワークモデルの数学的基礎 3.１ベイジアンネットワークモデルの概要

コストのついたグラフの探索分枝限定法 A*アルゴリズム.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

第8章　グラフィカルモデル修士２年浦田　淳司

目次

グラフィカルモデルの特徴確率モデルの構造を視覚化する簡単な方法の提供 →新しいモデルの設計方針 →条件つき独立性などのモデルの性質に関する知見精巧なモデルにおける推論・学習には複雑な計算が必要 →数学的な表現をグラフ上の操作として表現リンク：link, edge, arc ノード：node, vertex リンクが特定の方向性ー有向グラフィカルモデル（ベイジアンネットワーク） →確率変数間の因果関係リンクが方向性なし　ー無向グラフィカルモデル（マルコフ確率場） →確率変数間の緩い束縛関係 ※有向閉回路なし（非循環）

8.1 ベイジアンネットワーク（aはbの親ノード⇔bはaの子ノード） K変数の同時分布p(x1,…,xK) は，確率の乗法定理より自分より小さい番号を振られた全てのノードからのリンクを持つ ‥全結合

8.1 ベイジアンネットワーク同時分布の一般系同時分布を，各ノードと対応する変数集合の形に分解 7変数全ての同時分布は pak：xkの親ノードの集合同時分布を，各ノードと対応する変数集合の形に分解

8.1.1 例）多項式フィッティング ●有向グラフの利用方法確率変数・多項式係数ベクトルｗ・観測データ t モデルのパラメータ w t1 tN 確率変数・多項式係数ベクトルｗ・観測データ t ↑プレート（N個のｔがある）モデルのパラメータ・入力データ x ・ノイズの分散 σ ・ｗ上のガウス事前分布の精度を表す超パラメータα 2 決定値パラメータ→ 明示的に扱うと観測変数↑

8.1.1 例）多項式フィッティング ^ wは観測されていない → 潜在変数 {tn}の値を観測すると係数ｗの事後分布を求められる (1.2.5より) ^ ^ 多項式フィッティングの最終目的：新しい入力値xに対するtの確率分布を求める･･･(8.8) wを積分消去すると ^ ｔの予測分布

8.1.2 生成モデル →生成モデル生成モデル→ 観測データと同じ確率分布に従う「架空」データを発生できるサンプリング法（11章）→伝承サンプリング分布観測データが生成される因果過程を表現 →生成モデル・分布 ※多項式回帰モデル：入力変数ｘは確率分布ではない →生成モデルではない・ ※自分より小さいノード番号の　ノードへはリンクがない生成モデル→ 観測データと同じ確率分布に従う「架空」データを発生できる

8.1.3 離散変数変数M個の時：KM-1個のパラメータ→指数的に増大グラフィカルモデル：構成要素の接続を表現　　→有向グラフの親子対が共役関係になる分布であると，とくによい性質　　　　→特に，離散変数，ガウス変数の場合は有効非循環グラフへ拡張可能 K個の状態をとりうる離散変数ｘの確率分布パラメータ　　　　　　　　により支配規格化制約　　　　により，パラメータはK-1個指定すればよい 2つのK状態離散変数ｘ1及びｘ2がある場合規格化制約 K２-1個のパラメータ変数M個の時：KM-1個のパラメータ→指数的に増大

8.1.3 離散変数 →リンク除去によりパラメータ数減線形増加 a) b) a) 乗法の定理全パラメータ数は K２-1 b) 変数x1とx2が独立　→各変数は別々の多項分布　　　全パラメータ数は　2(K-1)　‥線形に増加 →リンク除去によりパラメータ数減リンクの数によって，パラメータ数の増え方が変わる周辺分布条件つき分布 K-1個 K(K-1)個 ×(M-1) 線形増加パラメータにディリクレ事前分布を導入

２．２．1 ディリクレ分布ただし，0≦μ k≦1, ∑k μ k=1 条件より，この分布はK-1次元の単体上に制限される。多項分布もベイズ主義的に考える。事前分布⇒多項分布と共役なものただし，0≦μ k≦1, ∑k μ k=1 例）K=3のとき条件より，この分布はK-1次元の単体上に制限される。この共役分布を正規化すると，次のディリクレ分布を得るただし例） K=3のとき（縦軸を密度，横軸は単体上の座標）左から {αk}=0.1 , {αk}=1, {αk}=10

２．２．1 ディリクレ分布事後分布∝事前分布×尤度関数とすると。という，事後分布もディリクレ分布の形になる。結局，となり，αkはxk =1となる有効観測数と解釈できる。

8.1.4 線形ガウスモデルこれはxの成分に関する二次関数 →同時分布p(x)は多変量ガウス分布要素変数上の線形ガウスモデルに対応する有向グラフにより，多変量ガウス分布を表現する方法ノードi ーガウス分布に従う連続値確率変数xi より，同時分布の対数は，これはxの成分に関する二次関数　　→同時分布p(x)は多変量ガウス分布

8.1.4 線形ガウスモデル ●同時分布の平均有向非循環グラフなので，E(x)の全成分を再帰的に求められる ●同時分布の共分散行列 (8.11)に従うので ※εは平均0，分散1のガウス確率変数期待値は有向非循環グラフなので，E(x)の全成分を再帰的に求められる ●同時分布の共分散行列 ‥(8.16) 共分散についても，再帰的に値を求められる

8.1.4 線形ガウスモデル（2章より）ガウス変数xの平均μに関する共役事前分布がガウス分布である場合， μ上の分布の平均は事前分布を制御するパラメータなので，超パラメータとみなされる．ｘ超パラメータの値自体が未知なので，超パラメータにも事前分布を導入する．（超事前分布）これもガウス分布とすれば，ベイズ的取り扱いが可能 →階層ベイズモデルの一例

8.2 条件付き独立性条件付き独立性 3変数a,b,cを考えたとき，aの条件付き分布がbの値に依存しない．つまり cが与えられたとき（cのとりうる全ての可能な値に対して），　（8.20）が成り立つとき，次のように示す．条件付き独立：モデル構造の簡略化には重要 →グラフィカルモデルにより同時分布の条件付き独立を直接グラフから読み取れる →有向分離

8.2.1 3つのグラフの例① a,bが独立かを調べる（cの周辺化） p(a)p(b)の形に分解できない→ 変数cで条件づけ → ｃは経路に対して，tail-to-tailとなっている二つのtailでつながれており，経路が存在し，非独立ｃにより，a,b経路が遮断され（条件付き）独立となる

8.2.1 3つのグラフの例② cについて周辺化 → 変数cで条件づけ → ｃは経路に対して，head-to-tailとなっているベイズの定理と(8.26)式より → ｃは経路に対して，head-to-tailとなっている cが観測されないときは，経路よりa,bは従属関係となる cが観測されることでa→b経路を遮断し，条件付き独立

8.2.1 3つのグラフの例③ cについて周辺化 → どの変数も観測されてないとき，a,bは独立である変数cで条件づけ → ｃは経路に対して，head-to-headとなっている cが観測されない時，a,bの関係は遮断されている cが観測されると，遮断が解かれ，依存関係に（cの子孫が観測されても遮断は解かれる）．

8.2.2 有向分離（D分離）について考える．・aからbへの経路はfによって遮断されない →f：tail-to-tailで，観測されない・ aからbへの経路はeによって遮断されない　　→e：head-to-headで，子孫cが条件づけ（観測）は導けない・aからbへの経路はfによって遮断される　　→f：tail-to-tailで，観測されている・ aからbへの経路はeによって遮断される　　→e：head-to-headで，子孫も条件づけなしといえる

8.2.2 有向分離（D分離）パラメータノード：観測済みノード親ノードなしすべての経路はtail-to-tail 　親ノードなし　すべての経路はtail-to-tail 　　　→他ノードの有向分離性に影響なし 1変量ガウス分布の平均の事後分布についてが観測されたもとでのμの推論 μを条件付け変数とみなし，観測変数の同時分布を考える． ※観測値Dは互いに独立 μを消去した場合は，観測値は一般に独立ではない． ※μは観測されず，潜在変数

8.2.2 有向分離（D分離）ベイズ多項式回帰モデルについて多項式変数ｗが条件付けられれば，ｗはtail-to-tailなので ^ tの予測分布は訓練データtnに対して独立　→訓練データよりｗの事後分布を決定すれば，tnはいらないマルコフブランケット（マルコフ境界） xiに関係ない項は分母分子でキャンセル・xiの条件付き分布p(xi|pai) ・xiを条件付け変数集合に含む　　任意のxkの条件付き分布p(xk|pak) ー親ー子・共同親残る項は

8.3 マルコフ確率場有向グラフィカルモデル（ベイジアンネットワーク） →確率変数間の因果関係，リンクが特定の方向性同時分布を局所的な条件つき分布の積に因数分解因数分解される分布の条件つき独立性の集合無向グラフィカルモデル（マルコフ確率場） →確率変数間の緩い束縛関係，リンクは方向性なしノード集合とリンク集合

8.3.1 条件付き独立性有向グラフ：有向分離，head-to-headとtail-to-tailの混在無向グラフ：親ノードと子ノードの非対称性なしを判断するには‥ 集合Aと集合Bを結ぶ全ての経路 →集合Cのノードを少なくとも一つ含む →全ての経路が遮断され，条件付き独立（集合Cを除いた時，A-B経路の存在有無）無向グラフのマルコフブランケット →隣接ノード集合

8.3.2 分解特性同時分布を因数分解したときの各因子を，クリークが含む変数の集合の関数すれば良い直接接続されない2つのノードxi，xjは条件付き独立 xi，xjが因子に含まれないように，因数分解されるクリーク：　全てのノードの組にリンクが存在するグラフの部分集合 ←極大クリーク同時分布を因数分解したときの各因子を，クリークが含む変数の集合の関数すれば良い

8.3.2 分解特性定式化クリークC，クリーク内の変数の集合xcとする． Zは規格化定数（分配関数）であり，ポテンシャル関数は，　周辺分布や条件付き分布のように確率的解釈が可能なものに限定されない ※規格化定数が必要．積と和の計算により，モデルサイズに応じて計算量増定式化ポテンシャル関数ψC(xC)が狭義に正（因数分解と条件付き独立の関係から）指数関数で表現（E(xC)はエネルギー関数，この指数表現はボルツマン分布）ポテンシャル関数は確率的解釈はないので，ポテンシャル関数は自由に選べる →選び方は・・・局所的な変数がどのような形状を持てばいいのか

8.3.3 例：画像のノイズ除去観測画像2値ピクセル値yi∈{-1,1}の二次元配列 xiとyiとの間に強い相関が残っているはず．ノイズなし値yi(10%反転) 観測画像2値ピクセル値yi∈{-1,1}の二次元配列（ノイズのない2値画像xi∈{-1,1}からランダムに反転）ノイズレベルが低いために xiとyiとの間に強い相関が残っているはず．隣接ピクセルxiとxjとの間に強い相関があるはず． ICM法（96%一致）グラフカットアルゴリズム (99%一致) 同符号の時，低いエネルギー（高い確率）異符号の時，高いエネルギー（低い確率） h xiは特定の符号を持ちやすくするためのバイアス効果

8.3.3 例：画像のノイズ除去画像復元のために高い確率を持つ画像ｘを求めたい(イジングモデル) ●ICM法（反復条件付きモード） 1．変数{xi}を初期化（xi=yiなど) 2．あるノードxjを選ぶ 3．xj=+1とxj= -1における全エネルギーを計算 4．エネルギーが小さくなる方にxjを設定 5．2に戻り，違う場所で計算 6．ある規準になるまで繰り返し →全ての場所を少なくとも1回は通るシークエンスで，値が更新されず →極大点の発見

8.3.4 有向グラフとの関係 →対応付け無向グラフ有向グラフ ‥ クリークポテンシャル関数⇔条件付き分布無向グラフ　有向グラフクリークポテンシャル関数⇔条件付き分布変換の正確さ独立性の一部が捨てられつつ［有向］条件付き分布の変数集合全て→ ［無向］1つのクリーク集合に含まれる全ての変数が1つのクリークに属さなければならないモラルグラフ親同士の対に無向リンクを付加

8.4 グラフィカルモデルにおける推論変数ｙの値が観測される（図(b)）→p(y|x) 潜在変数xの周辺分布p(x)は事前分布確率の加法定理，乗法定理よりベイズの定理よりｘの事後分布p(x|y)が推論された．

8.4.1 連鎖における推論グラフィカルモデルの効率利用ノードxnの周辺分布は K状態変数ノードがN個分の計算→xのとりうる状態はKN個グラフの同時分布は次のようになるノードxnの周辺分布は K状態変数ノードがN個分の計算→xのとりうる状態はKN個 →周辺分布を求めるには指数オーダーの計算量グラフィカルモデルの効率利用に関係するのは　　　　　　　　　のみ， (8.49)を(8.50)に代入 xNについてはを計算．xN-1に関係するのは… ノードxnの周辺分布は (8.52)

8.4.1 連鎖における推論局所的なメッセージの伝搬 μα：ノード番号大へ前向きに伝わるメッセージ (8.52)より μα：ノード番号大へ前向きに伝わるメッセージ μβ：ノード番号小へ後向きに伝わるメッセージメッセージμαはなので，から再帰的に所望のノードに到達するまで繰り返す後向きも同様．マルコフ連鎖と呼ばれる．アルゴリズム的な話伝播中の全ての（中間的な）メッセージを保存途中にいくつかのノードが観測されている場合は，観測値固定

まとめ有向グラフィカルモデルと無向グラフィカルモデル条件付き確率分布の関係性を明示的に扱うグラフの関係性に従い，事前分布・観測変数から他の変数を求めることができる有向グラフィカルモデルでは，有向分離が必要因子グラフを用いての，推論．．

8.4.2 木連鎖⇔メッセージパッシング ←厳密推論木構造グラフ⇔積和アルゴリズム ←一般化，厳密推論無向木有向木有向多重木連鎖⇔メッセージパッシング　←厳密推論木構造グラフ⇔積和アルゴリズム　　　←一般化，厳密推論無向木有向木有向多重木ループを持たないループを持たないループを持たない親なしノード１つ他ノードは親１つ親はいくつでもいい無向変換時モラル化必要なしモラル化必要あり

8.4.3 因子グラフ ●有向グラフ・無向グラフ多くの変数に依存する大域的な関数が，局所的な変数の部分集合のみに依存する ●因子グラフ変数を表現するノードに因子（関数）そのものに対応するノードを付け加えるある変数上の同時分布を因子の積の形で表す有向グラフ (8.59)の特別な場合まとめていない

8.4.3 因子グラフ局所的なループの回避同じグラフでの違った因子グラフ表現 →より正確に因数分解を表現木構造を因子グラフでは保持

8.4.4 積和アルゴリズム (i) 周辺分布を求めるための効率の良い厳密推論アルゴリズムを得るノード（ノード部分集合）上の局所的な周辺分布の計算アルゴリズム木構造の因子グラフに適応（どのグラフからも変換可能） (i) 周辺分布を求めるための効率の良い厳密推論アルゴリズムを得る (ii) 複数の周辺分布を計算した場合に，　　　計算の重複をなくして効率化する

8.4.4 積和アルゴリズムある特定の変数x上の周辺分布p(x)を求める問題を考える（変数は離散的）周辺分布 x以外の変数の同時分布の和グラフは木構造なので，同時分布を因子の変数ノードxに隣接する各因子ノードごとにグループ分けできる．部分木内の同時分布の積が全体の同時分布 ne(x)：xに隣接する因子のノード集合 Xs：fsを通して変数ノードxに接続される部分木の変数集合 Fs(x,Xs)：fsに関連するグループすべての因子の積

8.4.4 積和アルゴリズム