一般ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動

Slides:

Advertisements

Similar presentations

1 小暮研究会２第１章ベイジアンアルゴリズム２値選択ベルヌーイ試行尤度原理同一性交換可能性尤度についてのまとめ環境情報学部３年渡邊洋一.

Advertisements

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

データ解析

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

近似アルゴリズム第１０章終了時刻最小化スケジューリング

確率･統計Ⅰ 第11回 i.i.d.の和と大数の法則ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

Pattern Recognition and Machine Learning 1.5 決定理論

統計解析第9回第9章正規分布、第11章理論分布.

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

電磁気学C Electromagnetics C 7/13講義分電磁波の電気双極子放射山田博仁.

最尤推定によるロジスティック回帰対数尤度関数の最大化.

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

ガウス過程による回帰 Gaussian Process Regression GPR

第6章　カーネル法修士2年藤井　敬士.

発表日：平成１５年４月２５日担当者：時田陽一担当箇所：第３章誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則

高次元データの解析－平均ベクトルに関する検定統計量の漸近分布に対する共分散構造の影響－

ニューラルネットは、いつ、なぜ、どのようにして役立つか？

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

１.標本平均の特性値２.母分散既知の標本平均の分布 3.大数法則と中心極限定理

Statistical Physics and Singularity Theory

第25章単一始点最短路 3節 Bellman-Fordのアルゴリズム

正規分布におけるベーテ近似の解析解と数値解東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

確率･統計Ⅰ 第3回確率変数の独立性／確率変数の平均ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

領域ベースの隠れ変数を用いた画像領域分割

第9章　混合モデルとEM 修士２年北川直樹.

教師なしデータ学習データ　X1, X2, …, Xn 　真の情報源テストデータ　X 　.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

情報理工学系研究科数理情報学専攻数理第四研究室博士三年指導教員：駒木文保准教授鈴木大慈 2008年8月14日

独立成分分析５　アルゴリズムの安定性と効率２００７/１０/２４　　　名雪　勲.

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

１.標本平均の特性値２.母分散既知の標本平均の分布 3.大数法則と中心極限定理

Introduction to Soft Computing （第11回目）

超幾何分布とポアソン分布超幾何分布ポアソン分布.

完全２部グラフ型ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動

ボルツマンマシンの定義ボルツマンマシン(Boltzmann machine)は、スピン・システムをヒントに作られたモデルである。

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

様々な情報源（４章）.

部分的最小二乗回帰 Partial Least Squares Regression PLS

ベイズ･アプローチによるグラフィカル･テスト理論

進化ゲームと微分方程式第１５章ｎ種の群集の安定性

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

第3章　線形回帰モデル修士1年山田　孝太郎.

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

経営学研究科 M1年学籍番号 speedster

クロスバリデーションを用いたベイズ基準によるHMM音声合成

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

川崎浩司：沿岸域工学，コロナ社第4章（pp.58-68）

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

ベイズ音声合成における事前分布とモデル構造の話者間共有

JNNS-DEX-SMI-玉川公開講座「交換モンテカルロ法とその応用」

ポッツスピン型隠れ変数による画像領域分割

原子核物理学第７講　殻模型.

ガウス分布におけるベーテ近似の理論解析東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

１．基本概念２．母集団比率の区間推定３．小標本の区間推定４．標本の大きさの決定

４．プッシュダウンオートマトンと文脈自由文法の等価性

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

目次はじめに収束性理論解析数値実験まとめ特異値計算のための dqds 法シフトによる収束の加速

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

一般ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　　　　西山　悠

背景混合分布パターン認識ベイジアンネット自然言語処理隠れマルコフモデル遺伝子解析応用・・学習方法特異モデルベイズ学習の優位性平均場近似まずはじめに背景についてですが，混合分布，ベイジアンネット，隠れマルコフモデルなどの学習モデルは，パターン認識，自然言語処理，遺伝子解析などと，実世界の情報システムにおいて，幅広い応用を持っています．一方で，これらの実用的な学習モデルというのは，数学的な側面から眺めれば，フィッシャー情報行列式が0となる特異モデルとして知られ，この特異モデルの学習においては，汎化性能の点で，ベイズ学習の，他の学習方に対する優位性が示されています．しかしながら，ベイズ学習の実際上の実現においては，高次元積分を含む計算を余儀なくされることから計算が困難です．そこで，効率的な計算量で計算するための学習方法として平均場近似を用いた学習方法があります．平均場近似の学習では，複雑となるベイズ事後分布を，計算が容易となるパラメータごとに互いに独立な分布に近似します．カルバック距離の意味で最もベイズ事後分布に近くなるような分布を選びます．その際に，自由エネルギーの値が小さければ小さいほどベイズ事後分布に対する近似精度が高くなり，その最小値を平均場近似自由エネルギーと呼びます．この平均場近似自由エネルギーの振る舞いを知ることで，その近似精度について知ることができます．自由エネルギーの値が小さいほど近似精度が高いパラメータごとに独立な分布ベイズ事後分布近似最小値平均場近似自由エネルギー

目的～平均場近似自由エネルギーの漸近形～一般のボルツマンマシンにおいて，平均場近似自由エネルギーの漸近形の上界を解析的に導出する．縮小ランク回帰モデル[Nakajima] 混合正規分布[K.Watanabe] 隠れマルコフモデル[Hosino, K.Watanabe] 確率文脈自由文法[Hosino, K.Watanabe] ニューラルネットワーク[Nakano] で求められている．目的一般のボルツマンマシンにおいて，平均場近似自由エネルギーの漸近形の上界を解析的に導出する．現在，この平均場近似自由エネルギーのサンプル数が十分大きいときの漸近形について，これらの学習モデルについて求められています．以上の背景を踏まえまして，目的として，特異モデルの１つとして知られるボルツマンマシンの学習モデルにおいて，平均場近似自由エネルギーの漸近形の上界を解析的に導出したいと思います．ここでいう一般のボルツマンマシンというのは後で述べます．

ベイズ学習予測データ真の分布確率的に設計者揺らぐ対象：学習モデル独立：事前分布（事前知識）：ベイズ事後分布　（事前知識）予測：ベイズ事後分布　　（事後知識）まずはじめに，特異モデルの学習において有効であるベイズ学習について説明します．確率的に揺らぐある対象から，独立にデータX１からXnが得られたとします．このとき，設計者が，パラメータシータを自由度とする学習モデルとパラメータに対する事前分布\phi(\theta)を用意したもとで，ベイズの定理から，ｎ個のデータを学習後のベイズ事後分布を構成します．次に，得られたベイズ事後分布を重みとして，学習モデルを平均化することで，ベイズ予測分布を構成します．このベイズ予測分布によって，もともとの確率的に揺らぐ対象，の背後に存在する真の分布ｑ（ｘ）を予測するというものです．：ベイズ予測分布

学習における平均場近似（１）ベイズ事後分布はボルツマン分布表現ここで，：経験カルバック情報量次に学習における平均場近似についてですが，ベイズ事後分布を，このようにボルツマン分布表現に書き直すことができます．ここでHｎtildeは，経験カルバック情報量と，事前分布によって書けるものです．今，特異モデルにおいて一般に複雑となるベイズ事後分布と，近似事後分布f(\theta)との間のカルバック距離をとり，このカルバック距離が小さくなるような近似事後分布f(\theta)を選び出します．この式は，試験分布\f(\theta)に依存しない項とf(\theta)に依存する項とに分けることで，このように式変形することができます．この両辺についてサンプル平均をとることで，

学習における平均場近似（2）近似事後分布に対してとして特にエントロピー項エネルギー項に制限したときを平均場近似と呼ぶ．式右辺を最小にするを平均場近似と呼ぶ．この式が成り立ちます．ここで，右辺の値は，第1項がエントロピー項であり，第2項がエネルギー項と言えることから，自由エネルギーとも言えます．今，近似事後分布f(\theta)として，特に，計算が容易となる，すべてのパラメータが互いに独立な分布族に制限したとき，(1)式右辺を最小にする\bar f(\theta)を，事後分布における平均場近似と呼びます．同時に，そのときの自由エネルギーの最小値の値を，平均場近似自由エネルギーと呼びます．以下ではこの平均場近似自由エネルギーのサンプル数nが十分大きいときの漸近形について，その上界を求めることが主題となります．を平均場近似自由エネルギーと呼ぶ．

学習モデル３体相互作用２体相互作用学習モデル：一般のボルツマンマシンすべてのノードの出力値は｛＋１，－１｝の２値をとる隠れ素子学習モデル：　一般のボルツマンマシン２体相互作用隠れ素子すべてのノードの出力値は｛＋１，－１｝の２値をとる入出力素子次に学習モデルについて説明します．入出力をあらわす素子をx1からxMのM個,それに，観測できない隠れ素子をy1からyKのK個とします．すべてのノードの出力値は｛＋１，－１｝のいずれかの2値をとることにします．ボルツマンマシンとして一般的なボルツマンマシンを考え，これらのノード間にはさまざまな相互作用が存在するものを考えます．二体相互作用であれば，たとえば，y4yKの結合荷重として４とKを上付きに表してw４Kと表し，ｘ1ｘ3の結合荷重として1と3を下つきに表してw13の結合荷重が，３番目のｙと2番目のｘでは，３を上付きに２を下付きに表してw32と表します．もう少し例を述べれば，三体相互作用の場合も，3,4,K番目の隠れ素子の結合荷重がｗ３４K，1番目,3番目の隠れ素子と，M番目の入出力素子の結合荷重をｗ１３Mと表します．同様に4体相互作用，5体相互作用，とさまざまな相互作用が存在する場合を考え，これらが同時に存在する状況を考えます．このとき，すべての相互作用を含ませた学習モデルというのはこのように表すことができます．

真の確率分布＊真の確率分布は学習モデルに含まれ，隠れ素子の個数を個とする．隠れ素子入出力素子真のパラメータとして次に，真の確率分布についてですが，真の確率分布は，学習モデルに含まれる状況を考え，隠れ素子の個数をK^{*}個とし，学習モデルのK個よりも小さい状況を考えています．このとき，相互作用として，例えばこの結合のように，K^{*}+1を含むような結合荷重では0となり，他の例でも，このような結合のときに0となります．したがって，真のパラメータとして，隠れ素子につながっている，この最後のi_{I}番目のものがK^{*}よりも大きいときには0となります．真のパラメータとして

結果・定理一般に体相互作用を持つボルツマンマシンにおいて平均場近似自由エネルギーの漸近形は以下の上界を持つ．ここでである．：入出力素子の個数これらの設定の下で，次の定理が得られます．一般に，入出力素子，隠れ素子の間に，l1体相互作用，l2体相互作用，lL体相互作用を同時に持つボルツマンマシンにおいて，平均場近似自由エネルギーの漸近形は以下の上界を持ちます．ここでCはｎにはよらない定数です．：学習モデルの隠れ素子の個数：隠れ素子の真の個数：定数である．

問題設定 (2) (2) 学習モデル由来平均場近似自由エネルギー一般ボルツマンマシン正規分布族＊式以降では，今の主定理の証明の概要について説明します．まずはじめに問題設定についてですが，平均場近似自由エネルギーについてこの右辺で与えられる上界が存在します．ここでボルツマンマシンに依存する部分はこの\tilde{H}（ｗ）の部分です．今，この式に対し，\tilde{f}(w)を正規分布の範囲に限定し，その範囲で最小化させます．ここで分散は，非対角成分が存在しない，パラメータが互いに独立となる場合を考えています．これらの設定の下で，(2)式右辺の漸近形が最小となるようにΣとｗを最適化させます．それによって前のスライドにあった定理が得られます．また, この\tilde{f}(w)を正規分布の範囲に限定して最小化するという方法は，\tildeH(w)を，ボルツマンマシンの場合に限定しなくとも，一般的に評価することができます．したがって，実際上の証明の手順では，\tilde{H}（w）を一般として,　式（２）の右辺の最小化について評価し，その後に，ボルツマンマシンの学習モデルの場合に適用する，という道筋を取ります．\tilde{H}(w)を一般的に保持したままの式（２）の最小化を考えると次が成り立ちます．＊式 (2) 右辺の漸近形が最小になるようにとを最適化

証明の概要 [補題] カルバック情報量においてとなるでフィッシャー情報行列の対角成分の非零の個数が以下となるとき平均場近似自由エネルギーの漸近形は，＜フィッシャー情報行列＞の上界を持つ．個カルバック情報量H( \theta )において，カルバック情報量が０となる\hat{\theta}で，フィッシャー情報行列I（\theta）の対角成分の非零の個数がｒ以下となるとき，平均場近似自由エネルギーの漸近形は，この式で表される上界を持ちます．冗長に説明すれば，フィッシャー情報行列において全パラメータ数のdの中で対角成分の値が０とはならない個数がr個以下とできるとき，そのdとrによって平均場近似自由エネルギーの漸近形がバウンドされます．この補題をボルツマンマシンのときに適用します．個＊フィッシャー情報行列の対角成分の計算のみで，上の上界が得られる．

[補題]に従って真のパラメータにおけるフィッシャー情報行列の対角成分の非零の個数を数える．実際計算すると，ボルツマンマシンの真のパラメータｗ*として，隠れ素子につながっているi_{I}番目の隠れ素子がK^{*}よりも大きいときには0となっていました．それにおけるフィッシャー情報行列の対角成分のゼロとはならない個数を数えます．そのときに，フィッシャー情報行列が０となることは，確率分布が非負であることから，２乗の中身が０になることと同値です．実際，この量について，p(x|w)をボルツマンマシンの確率分布として計算しますと，iI>K*ときで，すべてのｘについて，０となります．したがって，このときにフィッシャー情報行列の対角成分も０となり，実際計算すると，

補題に代入して（証明の概要終了）＜フィッシャー情報行列＞個個この式が従います．このことから図で表せば，全パラメータ数である，この式のなかで，フィッシャー情報行列の対角成分の非零の個数がこの個数以下となるので，補題に代入して，結果が得られます．（証明の概要終了）

直観的には・・・結果は・・・学習するパラメータの冗長な部分をはじめ，結合パラメータが0となる分だけ，自由エネルギーが小さくなる．学習アルゴリズムの解の最小解と局所解の判定基準以上で証明したことを，直観的に述べれば，学習するパラメータの冗長な部分をはじめとして，結合パラメータが0となる分だけ，自由エネルギーが小さくなることを言っています．また，得られた自由エネルギーの漸近的挙動の結果は，学習アルゴリズムの解の収束先について最小解と局所解を判定する基準の基礎や，特異モデルにおいて提案されているモデル選択規準SingICは自由エネルギーの漸近形の情報を利用していますが，そのための基礎につながります．モデル選択規準SingIC[Yamazaki et al]は，自由エネルギーの漸近形の情報を利用している．

結論今後の課題一般のボルツマンマシンにおいて，平均場近似自由エネルギーの漸近形の上界を与えた．平均場近似自由エネルギーの下界の導出導出した自由エネルギーと実験との比較最後に，本発表では，一般のボルツマンマシンにおいて，平均場近似自由エネルギーの漸近形の上界を与えました．今後の課題としては，平均場近似自由エネルギーの下界の導出や導出した自由エネルギーと実験との比較があります．

Sing IC [Yamazaki. et al] 平均場近似アルゴリズム真の隠れ素子の個数＋ベイズ学習学習サンプル数観測可能量横軸を学習サンプル数，学習させるデータ数とし，縦軸を自由エネルギー，平均場近似自由エネルギーであったり，ベイズ自由エネルギーとします．このとき，学習モデルや，学習アルゴリズムに依存しますが，漸近論適用可能領域が存在し，その上で漸近的にこのような振る舞いを持つことが知られています．このとき，λ１m1λ2m2のどちらでもいいのですが，総称して，λ，mを考えると，λ、ｍは一般的に，学習モデルの隠れ素子の個数Kと，観測できない，背後にある真の隠れ素子の個数K＾＊の関数であることが知られています．他方で，このラムダとｍに依存する何らかの観測可能量ｙが得られたとき，ラムダとｍを代入して，ｙがわかっていることから，方程式を解くことでき，観測できない真のK＾＊を推測することができます．この方程式を解くためには，関数ｈラムダｈｍが既知であることが必要であることから，関数ｈラムダ，ｈｍを理論的に導出することは，漸近論を数理的に解明することは，SingICの立場からも重要であることがわかります．非漸近　領域漸近論適用可能領域＊観測できないを推測学習モデル学習アルゴリズムに依存関数を導出するのは重要

学習における平均場近似（２）本発表で考察平均場近似自由エネルギーについてただし，以上から平均場近似自由エネルギーまたこの平均場近似自由エネルギーF bar (n)について以下の上界を持ちます．ここでこれが平均場近似自由エネルギーであったわけですが，サンプルの平均化と最小化の演算子の順番を考慮し，Jensenの不等式を用いることで，平均操作はここまで入るができます．Hntildeの平均を計算すると，Htildeとなり，ただしここで，Htildeはカルバック情報量と，事前分布によって書けるものです．以上から今までのことをまとめますと，ベイズ自由エネルギーと平均場近似自由エネルギーと，今回導出したF(n)tilde 本発表では，このF(ｎ)tildeについて考察し，平均場近似自由エネルギーの上界を導出します．以上から平均場近似自由エネルギーベイズ自由エネルギー本発表で考察

理論的な研究の意義平均場近似アルゴリズムと（ベイズ学習，統計的正則モデル）との漸近論の比較．平均場近似アルゴリズムにおいて，局所解　or最小解の判定基準．特異モデルにおけるモデル選択，　　SingICへの基礎近年，この平均場近似アルゴリズムについて，漸近論の理論的な研究がされています．漸近論の理論的な研究によって，平均場近似アルゴリズムとベイズ学習，統計的正則モデルそれぞれとの漸近論の比較を可能にし，平均場近似の近似精度について言及することができます．次に，実際に，平均場近似アルゴリズムを走らせたときの，局所解に陥ったのか，または，最小解に到達したのか、の判定基準を与えることができます．このことについて後に数学的な説明を与えます．さらに，漸近論の理論的な研究によって，特異モデルにおけるモデル選択である，Sing ICへの基礎につながります．先にSing ICについて，説明したいと思います．

学習における平均場近似（１）試験分布に対してエントロピー項エネルギー項として特にに制限したときを平均場近似と呼ぶ式右辺を最小にするを平均場近似と呼ぶパラメータ上の任意の試験分布f(\theta)を用いることで，ベイズ自由エネルギーF(n)についてこの式に従う不等式が成立します．ここで統計物理学との対応では，第一項はエントロピー項であり，第二項はエネルギー項と言えます．f(\theta)は，近似させる事後分布に対応し，f(\theta)が先ほどのボルツマン分布，等しくベイズ事後分布のとき，等号が成立します．今f(\theta)として，特に，パラメータごとにすべて独立な関数に制限するとき，（これは，計算が容易となる分布族に限定していることに対応しています）このとき(1)式右辺を最小にする（これは，もともとのベイズ事後分布と最も近くなるように試験分布を選ぶことに対応します）このとき，近似事後分布f(\theta)を平均場近似と呼びます．これに対応して，そのときの自由エネルギーの値を平均場近似自由エネルギーと呼びます．つまり，f bar (\theta)を(1)式右辺に代入し，任意の分布f bar ( \theta )を動く中で， f bar (\theta)に関して最小となる値を平均場近似自由エネルギーと呼びます．この平均場近似のf bar (\theta)を実現するのに，実際の平均場近似アルゴリズムでは，この自由エネルギーの部分を最小にさせる関数f(\theta)を選ぶのに，f bar (\theta)を変関数とする汎関数の変分をとって=０となるようにf(\theta)を選んでいます．したがって実現されるのは常に，停留解どまりです．そこで，停留解ではなく，最小値について，この平均場近似自由エネルギーの値を導出することによって，そのアルゴリズムが局所解に陥ったのかまたは最小解であるのかの判定基準を与えます．平均場近似アルゴリズムを平均場近似自由エネルギーと呼ぶ。＊局所解　or　最小解　の判定基準

ベイズ汎化誤差：ベイズ汎化誤差真の分布代数幾何学的手法 [Watanabe] への近さベイズ予測分布と、真の分布とのカルバック距離つまり，真の分布q(x)への近さを下向きとし，横軸を学習データ数nとしたとき，学習データ数nが大きければ大きいほど，予測分布は真の分布に近づくことが期待されます．実際，ベイズ予測分布と真の分布との関数の距離として，カルバック距離を採用した時，この中身の式で定義されますが，ここでベイズ予測分布が，学習する学習データに直に依存することから，学習データによるサンプル平均を取って普遍的な量にしています．この量は，代数幾何学手法を用いることにより，ｎが大きい時漸近的にこのオーダーで真の分布に近づくことが示されています．このG（ｎ）はベイズ汎化誤差と呼ばれ，重要な量であると言えると思います．：ベイズ汎化誤差