完全２部グラフ型ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動

Slides:

Advertisements

Similar presentations

Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University

Advertisements

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

2016 年度計量経済学講義内容担当者：河田正樹

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

０章　数学基礎.

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

コンピュータビジョン特論第８回対象追跡２００６年１１月２２日加藤丈和.

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

近似アルゴリズム第１０章終了時刻最小化スケジューリング

確率･統計Ⅰ 第11回 i.i.d.の和と大数の法則ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

Extremal Combinatorics 14.1 ~ 14.2

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

論理式の表現を数学的に取り扱いやすくするために代数学の助けを借りる.

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--

Probabilistic Method 6-3,4

電磁気学C Electromagnetics C 7/13講義分電磁波の電気双極子放射山田博仁.

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

電気回路学Ⅱ エネルギーインテリジェンスコース 5セメ山田博仁.

(ラプラス変換の復習) 教科書には相当する章はない

電気回路Ⅱ 演習特別編（数学）三角関数オイラーの公式微分積分微分方程式付録三角関数関連の公式

第6章　カーネル法修士2年藤井　敬士.

高次元データの解析－平均ベクトルに関する検定統計量の漸近分布に対する共分散構造の影響－

ニューラルネットは、いつ、なぜ、どのようにして役立つか？

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

Statistical Physics and Singularity Theory

正規分布におけるベーテ近似の解析解と数値解東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

確率･統計Ⅰ 第3回確率変数の独立性／確率変数の平均ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

第9章　混合モデルとEM 修士２年北川直樹.

教師なしデータ学習データ　X1, X2, …, Xn 　真の情報源テストデータ　X 　.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

7.4 Two General Settings D3 杉原堅也.

情報理工学系研究科数理情報学専攻数理第四研究室博士三年指導教員：駒木文保准教授鈴木大慈 2008年8月14日

独立成分分析５　アルゴリズムの安定性と効率２００７/１０/２４　　　名雪　勲.

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

Basic Tools B4 　八田　直樹.

6. ラプラス変換.

第7章　疎な解を持つカーネルマシン修士２年山川佳洋.

超幾何分布とポアソン分布超幾何分布ポアソン分布.

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

予測に用いる数学 2004/05/07 ide.

様々な情報源（４章）.

母分散の信頼区間 F分布母分散の比の信頼区間

進化ゲームと微分方程式第１５章ｎ種の群集の安定性

4.　システムの安定性.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

ナップサック問題クマさん人形をめぐる熱いドラマの結末.

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

第3章　線形回帰モデル修士1年山田　孝太郎.

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

経営学研究科 M1年学籍番号 speedster

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

JNNS-DEX-SMI-玉川公開講座「交換モンテカルロ法とその応用」

ポッツスピン型隠れ変数による画像領域分割

ガウス分布におけるベーテ近似の理論解析東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- ２００３年８月１４日前半

４．プッシュダウンオートマトンと文脈自由文法の等価性

電気回路学Ⅱ 通信工学コース 5セメ山田博仁.

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

目次はじめに収束性理論解析数値実験まとめ特異値計算のための dqds 法シフトによる収束の加速

一般ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

完全２部グラフ型ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　　　　西山　悠

背景確率を利用した学習モデル現実的なシステム混合正規分布制御神経回路網パターン認識隠れマルコフモデル時系列予測応用ベイジアンネット（フィッシャー情報行列が正則な）混合正規分布，神経回路網，隠れマルコフモデル，ベイジアンネットは，確率を利用した学習モデルとして知られ，現在，制御，パターン認識，時系列予測などの現実的なシステムの分野に応用されています．しかしながら，これら実用的な学習モデルというのは，数学的見地から見ると，学習モデルを記述するモデルのパラメータと，それらパラメータが表現する確率分布が一対一対応ではない特異モデルとして知られています．つまり，同じ確率分布を表すパラメータ点が複数存在します．このとき，それらパラメータ点上で，フィッシャー情報行列式が０となることから，フィッシャー情報行列が正則と仮定したもとでの，統計的正則モデルの漸近論を適用することはできません．一対一対応統計的正則モデルの漸近論パラメータ確率分布特異モデル

問題点：ベイズ事後分布を含む計算は実現困難ベイズ自由エネルギー，ベイズ汎化誤差が正則モデルよりも優れているベイズ学習が有効 With 代数幾何学的手法問題点：ベイズ事後分布を含む計算は実現困難平均場近似近似相互作用のない系パラメータごとに独立に計算ハミルトニアンそのような特異モデルにたいして，ベイズ学習の枠組みで，自由エネルギー，汎化誤差の漸近論が，代数幾何学的手法を用いることによって，理論的に研究され，その漸近的振る舞いが統計的正則モデルよりも優れていることがわかってきました．それによって，ベイズ学習の有効性が示されています．しかしながらベイズ学習における問題点として，ベイズ学習の際に現れるベイズ事後分布を伴った計算は，高次元積分を含むという理由からその計算は一般に困難です．そこで，この計算が困難なベイズ事後分布を回避するための一方法として，平均場近似が用いられています．平均場近似はもともと，統計物理学の世界に端を発する近似手法で，ボルツマン分布におけるハミルトニアンにおいて，あるパラメータを平均量に置き換えるといった操作により，一見して相互作用のない系に近似する手法です．その結果，数学的にパラメータごとの独立な計算を可能にさせるものです．この近似手法を学習に援用して，一般に複雑なベイズ事後分布を，パラメータごとに独立な分布に近似し，計算を容易にさせます．このとき近似させる方法としては，もともとのベイズ事後分布と近似させる独立な試験分布において，カルバック距離として最も関数が近くなるような，数学的に等価に，自由エネルギーを最小にさせるような，試験分布を選びます．そのような試験分布を選ぶことで，ベイズ事後分布の性質を比較的保持しつつ，計算が容易となる近似事後分布を得ることができます．この近似事後分布を基にした学習は，平均場近似アルゴリズム，あるいは，変分ベイズアルゴリズムとして知られ，その効率的な計算量から，実問題への有効性が示されています．パラメータごとに独立な分布ベイズ事後分布近似カルバック距離として最も近く（自由エネルギーを最小にする）平均場近似アルゴリズム実問題への有効性（変分ベイズ）

目的～平均場近似自由エネルギーの漸近形～縮小ランク回帰モデル[Nakajima] 混合正規分布[K.Watanabe] 隠れマルコフモデル[Hosino, K.Watanabe] 確率文脈自由文法[Hosino, K.Watanabe] ニューラルネットワーク[Nakano] で求められている．目的現在この平均場近似について自由エネルギーの漸近形について，以下の学習モデルにおいて，数理的に求められています．そこで本発表は，歴史的にも古くからある，ボルツマンマシンにおいて，特に完全二分グラフ型のボルツマンマシンについて考え，平均場近似自由エネルギーの漸近形の上界を解析的に導出することを目的とします．完全２部グラフ型ボルツマンマシンにおいて，平均場近似自由エネルギーの漸近形の上界を解析的に導出する．

ベイズ学習予測データ真の分布確率的に設計者揺らぐ対象：学習モデル独立：事前分布（事前知識）：ベイズ事後分布　（事前知識）予測：ベイズ事後分布　　（事後知識）まずはじめに，特異モデルの学習に有効なベイズ学習について説明します．確率的に揺らぐある対象から，独立にデータX１X２Xnが得られたとします．この状況はしばしば遭遇すると言えると思います．このとき，パラメータシータを自由度とする学習モデルを用意し、そのパラメータに対する，事前知識といえる事前分布を用意したもとで，ベイズの定理から，データX１，Xnを学習後のパラメータに対する事後知識と言えるベイズ事後分布を得ます．この得られたベイズ事後分布をつかって，それをパラメータの重みとして，学習モデルを平均したものを，ベイズ予測分布と呼びます．この学習後のベイズ予測分布が，背後にある真の分布ｑ（ｘ）に近づき，予測を与えてくれるであろうと期待するわけです．：ベイズ予測分布

学習における自由エネルギー：ベイズ自由エネルギーベイズ事後分布はボルツマン分布表現ここで，汎化誤差との関係：経験カルバック情報量：ベイズ自由エネルギー一方，ベイズ学習に現れる先ほどのベイズ事後分布は，このような式で表されましたが，ボルツマン分布表現に書き直すことができます．ここでHｎtildeは，ボルツマン分布表現にするために，しわ寄せにされた，経験カルバック情報量と，事前分布によって書けるものです．このとき，この正規化定数をつかった，ーlogの値を考えます．この正規化定数も学習データに直に依存することから，サンプル平均を取っています．このとき，汎化誤差との関係として，F（ｎ）の差分がG（ｎ）に等しくなる関係が知られています．したがって，汎化誤差G（ｎ）の挙動を求めることは，F（ｎ）の挙動を求めることと同義であるといえます．F(n)はベイズ自由エネルギーと呼ばれ，ベイズ自由エネルギーと呼ばれ，汎化誤差の導出に重要な量であることがわかり，モデル選択においても重要な量であることが知られています．汎化誤差との関係＊ベイズ自由エネルギーは，汎化誤差の導出，モデル選択等に重要

学習における平均場近似（１）試験分布に対してエントロピー項エネルギー項として特にに制限したときを平均場近似と呼ぶ．式右辺を最小にするを平均場近似と呼ぶ．パラメータ上の任意の試験分布f(\theta)を用いることで，ベイズ自由エネルギーF(n)についてこの式に従う不等式が成立します．ここで統計物理学との対応では，第一項はエントロピー項であり，第二項はエネルギー項と言えます．f(\theta)は，近似させる事後分布に対応し，f(\theta)が先ほどのボルツマン分布，等しくベイズ事後分布のとき，等号が成立します．今f(\theta)として，特に，パラメータごとにすべて独立な関数に制限するとき，（これは，計算が容易となる分布族に限定していることに対応しています）このとき(1)式右辺を最小にする（これは，もともとのベイズ事後分布と最も近くなるように試験分布を選ぶことに対応します）このとき，近似事後分布f(\theta)を平均場近似と呼びます．これに対応して，そのときの自由エネルギーの値を平均場近似自由エネルギーと呼びます．つまり，f bar (\theta)を(1)式右辺に代入し，任意の分布f bar ( \theta )を動く中で， f bar (\theta)に関して最小となる値を平均場近似自由エネルギーと呼びます．この平均場近似のf bar (\theta)を実現するのに，実際の平均場近似アルゴリズムでは，この自由エネルギーの部分を最小にさせる関数f(\theta)を選ぶのに，f bar (\theta)を変関数とする汎関数の変分をとって=０となるようにf(\theta)を選んでいます．したがって実現されるのは常に，停留解どまりです．そこで，停留解ではなく，最小値について，この平均場近似自由エネルギーの値を導出することによって，そのアルゴリズムが局所解に陥ったのかまたは最小解であるのかの判定基準を与えます．を平均場近似自由エネルギーと呼ぶ．

学習における平均場近似（２）本発表で考察平均場近似自由エネルギーについてただし，以上から平均場近似自由エネルギーまたこの平均場近似自由エネルギーF bar (n)について以下の上界を持ちます．ここでこれが平均場近似自由エネルギーであったわけですが，サンプルの平均化と最小化の演算子の順番を考慮し，Jensenの不等式を用いることで，平均操作はここまで入るができます．Hntildeの平均を計算すると，Htildeとなり，ただしここで，Htildeはカルバック情報量と，事前分布によって書けるものです．以上から今までのことをまとめますと，ベイズ自由エネルギーと平均場近似自由エネルギーと，今回導出したF(n)tilde 本発表では，このF(ｎ)tildeについて考察し，平均場近似自由エネルギーの上界を導出します．ただし，以上から平均場近似自由エネルギーベイズ自由エネルギー本発表で考察

学習モデル学習モデル：完全二部グラフ型ボルツマンマシン学習モデル個隠れ素子入出力素子個はそれぞれ，の２値をとるとする．学習モデル：　完全二部グラフ型ボルツマンマシン隠れ素子入出力素子学習モデル次に本発表で扱う学習モデルについて説明します．学習モデルは図のようなボルツマンマシンで表される，グラフ理論の言葉で完全2部グラフ型のボルツマンマシンです．ここで入出力素子をx1x2x MのM個とし，隠れ素子をy1y2y3ykのK個とします．i番目の隠れ素子と，ｊ番目の入出力素子は，ｗijの重みによって双線形結合しているとします．また入出力素子，隠れ素子はすべて，{1,-1}の2値を与えるものとします．このとき，この完全2部グラフ型のボルツマンマシンを与える確率分布は，観測できない隠れ素子について周辺化することによって，このように書くことができます．分母は正規化定数のため，ｘについてすべての和を考えています．この式はシグマを外に出して積の形に直して，積の和を和の積と変形でき，yiは{1-1}の和を取ることから，それぞれｙiに代入すると，ハイパボリックコサインの形で表現することができます．ここで全パラメータ数は，jが1からMまで走り，iが１からKまで走る結果，KMであることに留意しておきます．これは，この図からK×Mであることからもわかります．個はそれぞれ，の２値をとるとする．全パラメータ数：個

真の確率分布複数存在特異モデルこのとき真の確率分布は＊真の分布が学習モデルに含まれる場合個個必要十分次に学習させる目標である真の確率分布ですが，図のように，先ほどの学習モデルにおいて，隠れ素子がy1からyK*では非ゼロ，yK*+1からyKまではゼロとなるパラメータｗ*とします．このとき，真の確率分布は，このように表すことができます．つまり真の分布が学習モデルに含まれる場合について考えています．また真の分布と等しくなるパラメータ集合は，カルバック情報量を0にさせるパラメータ集合と必要十分に等しく，このようなパラメータは複数存在し，実数濃度で存在します．このことは，特異モデルであることを意味します．＊真の分布が学習モデルに含まれる場合個必要十分複数存在特異モデル

問題設定 (2) (2) 平均場近似自由エネルギー学習モデル由来完全2部グラフ型ボルツマンマシン正規分布族＊を　　ボルツマンマシン正規分布族ここでは，以下で主定理を与えるための，問題設定について述べたいと思います．平均場近似自由エネルギー\var{F}(n)についてF(n)tildeの上界が存在し，F(n)tildeはこの式によって与えられた訳です．ここで先ほど，説明した学習モデルに依存するのはこの部分です．この値を計算するのに，実際には，任意の分布\var f(w)の範囲を動き，その範囲で最小化しなければなりませんが，\var f(w)を任意の範囲ではなく，正規分布族に限定した範囲で，最小化します．それによって，その正規分布族の計算容易さを理由として，解析的な計算を可能にさせます．またパラメータの事前分布が，学習モデル由来のtildeH(w)内に存在しますが，パラメータの事前分布も正規分布とします．これらの状況設定の下で，パラメータLij,wijを(2)式右辺が最小となるように，パラメータを最適化します．その結果，＊を (2) 式右辺が最小になるように最適化

結果・定理完全２部グラフ型ボルツマンマシンにおいて平均場近似自由エネルギーは以下の上界を持つ．ここでである．：入出力素子の個数完全2部グラフ型ボルツマンマシンにおいて，平均場近似自由エネルギー\barF(n)は以下の上界を持ちます．改めて述べますと，ここでMは入出力素子の個数，Kは学習モデルの隠れ素子の個数，K*は隠れ素子の真の個数，Cはnによらない定数です．：学習モデルの隠れ素子の個数：隠れ素子の真の個数：定数である．

証明の概要 [補題] とし，一般のカルバック情報量においてを満たすに対してが個以下のとき平均場近似自由エネルギーは，次にこの定理の証明の概要を説明します．補題として一般に，以下が成立します．パラメータをｄ次元とし，一般のカルバック情報量H( \theta )，（すなわち任意の学習モデルを対象とします．）そのとき，H(\theta)=0を満たす\theta vector hat に対して，カルバック情報量のパラメータによる二階微分を計算し，パラメータ\theta vector hat の下での値が，0ではないパラメータの個数が，r個以下とできるとき，平均場近似自由エネルギーF bar (n)は，そのrと全パラメータ数であったdを用いて，この式に従う上界を持ちます．このことは，図を使った説明をすれば，カルバック情報量H( \theta )=0を満たす\theta vector hat の集合をこのように表したとき，これらのすべての点は真の確率分布を表すパラメータですが，パラメータ\theta vector(1) を選んだ時，そのもとでの二階微分係数を計算して，0とならないパラメータの個数がr(1)こ，同様に\theta(2)に対応してr(2)が得られたとし，\theta*に対して，r*が得られたとすれば，そのそれぞれのrに対応する上界を持つことになります．この補題は，カルバック情報量の二階微分（フィッシャー情報行列と数学的に等しいですが）その計算のみで上の上界が得られることを意味しています．また2階微分係数が0となるiが存在しないとき，つまりr=dのとき，この右辺に代入しますと，d/2となり，正則モデルの場合に対応していると言えます．以下では，この補題を特に，完全2部グラフ型ボルツマンマシンの学習モデルに適用します．の上界を持つ．真のパラメータ集合＊カルバック情報量の二階微分の計算のみで，上の上界が得られる．

[補題]を利用完全二部グラフ型ボルツマンマシンのとき，カルバック情報量はにおける二階微分係数は，分散ここで学習モデル完全2部グラフ型ボルツマンマシンのとき，カルバック情報量H(w)は，真の確率分布，学習モデルを表す確率分布を使って，このように表すことができます．このカルバック情報量に対して，先ほどの補題にしたがって，カルバック情報量が0となる（つまり真のパラメータ集合上の）w vector hat における二階微分係数を計算すると，この式によって与えられた分散の形となります．ここでt\alpha, \betaは，tanhxを用いたこの式で与えられ，平均は，学習モデルを重みとする平均です．ここで分散学習モデル

特にのときを考えるとであることから（定理の証明終了）が成立して，[補題]において、であることから，ここで，特に，たくさん候補のある真のパラメータ集合の中からw vector star の場合を考えると，そのはじめの設定から，隠れ素子が1からK*ではパラメータwは0ではない，隠れ素子がK*+1からKのときでは，パラメータwは0であったことから，隠れ素子がK*+1からKのときでは，tanhxの奇関数により，t\alpha \betaは0となり，分散は0となります．したがって，補題においてr=K*Mであり，全パラメータ数がKMであったことから，補題に代入して，もともとの主定理が成立します．が成立して，[補題]において、であることから，（定理の証明終了）

考察① 上界上界統計的正則モデル導出した自由エネルギー代数幾何学的手法 [Yamazaki] 平均場近似ベイズ学習次に主定理によって得られた結果に対する考察について少し述べますと，導出した自由エネルギーの漸近的挙動は統計的正則モデルと仮定した場合の2分のパラメータ数よりも，小さい振る舞いを持つことがわかります．また，一方で他の研究との対比ですが，この完全2部グラフ型ボルツマンマシンにおいては，平均場近似ではなくベイズ学習における上界が代数幾何学的手法を用いてその挙動が求められています．その結果は，本発表で導出した自由エネルギーと一致しています．このことは，平均場近似として平易な正規分布に限定した場合であっても，ベイズ自由エネルギーの上界に到達可能であることを意味しています．：学習サンプル数非漸近　　領域漸近論適用可能領域

考察② 事前分布試験分布を正規分布，のときの下界正規分布試験分布を正規分布，　　　　　のときの下界正規分布近年，この平均場近似アルゴリズムについて，漸近論の理論的な研究がされています．漸近論の理論的な研究によって，平均場近似アルゴリズムとベイズ学習，統計的正則モデルそれぞれとの漸近論の比較を可能にし，平均場近似の近似精度について言及することができます．次に，実際に，平均場近似アルゴリズムを走らせたときの，局所解に陥ったのか，または，最小解に到達したのか、の判定基準を与えることができます．このことについて後に数学的な説明を与えます．さらに，漸近論の理論的な研究によって，特異モデルにおけるモデル選択である，Sing ICへの基礎につながります．先にSing ICについて，説明したいと思います．

結論今後の課題完全二部グラフ型ボルツマンマシンにおいて，平均場近似自由エネルギーの上界を与えた．平均場近似自由エネルギーの下界の導出一般のボルツマンマシンへの拡張導出した自由エネルギーと実験との比較

Sing IC [Yamazaki. et al] 平均場近似アルゴリズム真の隠れ素子の個数＋ベイズ学習学習サンプル数観測可能量横軸を学習サンプル数，学習させるデータ数とし，縦軸を自由エネルギー，平均場近似自由エネルギーであったり，ベイズ自由エネルギーとします．このとき，学習モデルや，学習アルゴリズムに依存しますが，漸近論適用可能領域が存在し，その上で漸近的にこのような振る舞いを持つことが知られています．このとき，λ１m1λ2m2のどちらでもいいのですが，総称して，λ，mを考えると，λ、ｍは一般的に，学習モデルの隠れ素子の個数Kと，観測できない，背後にある真の隠れ素子の個数K＾＊の関数であることが知られています．他方で，このラムダとｍに依存する何らかの観測可能量ｙが得られたとき，ラムダとｍを代入して，ｙがわかっていることから，方程式を解くことでき，観測できない真のK＾＊を推測することができます．この方程式を解くためには，関数ｈラムダｈｍが既知であることが必要であることから，関数ｈラムダ，ｈｍを理論的に導出することは，漸近論を数理的に解明することは，SingICの立場からも重要であることがわかります．非漸近　領域漸近論適用可能領域＊観測できないを推測学習モデル学習アルゴリズムに依存関数を導出するのは重要

理論的な研究の意義平均場近似アルゴリズムと（ベイズ学習，統計的正則モデル）との漸近論の比較．平均場近似アルゴリズムにおいて，局所解　or最小解の判定基準．特異モデルにおけるモデル選択，　　SingICへの基礎近年，この平均場近似アルゴリズムについて，漸近論の理論的な研究がされています．漸近論の理論的な研究によって，平均場近似アルゴリズムとベイズ学習，統計的正則モデルそれぞれとの漸近論の比較を可能にし，平均場近似の近似精度について言及することができます．次に，実際に，平均場近似アルゴリズムを走らせたときの，局所解に陥ったのか，または，最小解に到達したのか、の判定基準を与えることができます．このことについて後に数学的な説明を与えます．さらに，漸近論の理論的な研究によって，特異モデルにおけるモデル選択である，Sing ICへの基礎につながります．先にSing ICについて，説明したいと思います．

学習における平均場近似（１）試験分布に対してエントロピー項エネルギー項として特にに制限したときを平均場近似と呼ぶ式右辺を最小にするを平均場近似と呼ぶパラメータ上の任意の試験分布f(\theta)を用いることで，ベイズ自由エネルギーF(n)についてこの式に従う不等式が成立します．ここで統計物理学との対応では，第一項はエントロピー項であり，第二項はエネルギー項と言えます．f(\theta)は，近似させる事後分布に対応し，f(\theta)が先ほどのボルツマン分布，等しくベイズ事後分布のとき，等号が成立します．今f(\theta)として，特に，パラメータごとにすべて独立な関数に制限するとき，（これは，計算が容易となる分布族に限定していることに対応しています）このとき(1)式右辺を最小にする（これは，もともとのベイズ事後分布と最も近くなるように試験分布を選ぶことに対応します）このとき，近似事後分布f(\theta)を平均場近似と呼びます．これに対応して，そのときの自由エネルギーの値を平均場近似自由エネルギーと呼びます．つまり，f bar (\theta)を(1)式右辺に代入し，任意の分布f bar ( \theta )を動く中で， f bar (\theta)に関して最小となる値を平均場近似自由エネルギーと呼びます．この平均場近似のf bar (\theta)を実現するのに，実際の平均場近似アルゴリズムでは，この自由エネルギーの部分を最小にさせる関数f(\theta)を選ぶのに，f bar (\theta)を変関数とする汎関数の変分をとって=０となるようにf(\theta)を選んでいます．したがって実現されるのは常に，停留解どまりです．そこで，停留解ではなく，最小値について，この平均場近似自由エネルギーの値を導出することによって，そのアルゴリズムが局所解に陥ったのかまたは最小解であるのかの判定基準を与えます．平均場近似アルゴリズムを平均場近似自由エネルギーと呼ぶ。＊局所解　or　最小解　の判定基準

ベイズ汎化誤差：ベイズ汎化誤差真の分布代数幾何学的手法 [Watanabe] への近さベイズ予測分布と、真の分布とのカルバック距離つまり，真の分布q(x)への近さを下向きとし，横軸を学習データ数nとしたとき，学習データ数nが大きければ大きいほど，予測分布は真の分布に近づくことが期待されます．実際，ベイズ予測分布と真の分布との関数の距離として，カルバック距離を採用した時，この中身の式で定義されますが，ここでベイズ予測分布が，学習する学習データに直に依存することから，学習データによるサンプル平均を取って普遍的な量にしています．この量は，代数幾何学手法を用いることにより，ｎが大きい時漸近的にこのオーダーで真の分布に近づくことが示されています．このG（ｎ）はベイズ汎化誤差と呼ばれ，重要な量であると言えると思います．ベイズ予測分布と、真の分布とのカルバック距離：ベイズ汎化誤差

本学習モデルの性質仮定通り全事象学習モデルは，入出力素子がをとることから離散分布であり，全事象は通り．隠れ素子数は，を満たす範囲で十分（i）次にこの学習モデルの性質ですが，入出力素子が{1,-1}の2値をとることから，離散分布であり，起こりうる全通り数，全事象は2^{M}通りです．したがって，横軸を状態ｘ縦軸を確率としたとき，このような模式図を書くことができ，この確率分布を表現するパラメータは，確率であることからすべて足して１であることを考慮すれば，2^M-1です．したがって隠れ素子数Kは学習モデルの全パラメータ数KMに対して，２^{M}-1よりも小さい範囲で十分と言えます．またMが1のときを考えると，ハイパボリックコサインが偶関数であることを考慮すれば，このように書くことができ，入出力の状態に依存しません．よって，となり，モデルパラメータwに依存しないことから，意味のない状況と言えます．したがって以降ではこの二つを仮定した範囲で考察を行います．（ii）のときパラメータに依存せず意味をなさない．の場合を考える