Download presentation
Presentation is loading. Please wait.
1
完全2部グラフ型ボルツマンマシンにおける平均場近似自由エネルギーの 漸近的挙動
東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室 西山 悠
2
背景 確率を利用した学習モデル 現実的なシステム 混合正規分布 制御 神経回路網 パターン認識 隠れマルコフモデル 時系列予測 応用
ベイジアンネット (フィッシャー情報行列が正則な) 混合正規分布,神経回路網,隠れマルコフモデル,ベイジアンネットは,確率を利用した学習モデルとして知られ,現在,制御,パターン認識,時系列予測などの現実的なシステムの分野に応用されています.しかしながら,これら実用的な学習モデルというのは,数学的見地から見ると,学習モデルを記述するモデルのパラメータと,それらパラメータが表現する確率分布が一対一対応ではない特異モデルとして知られています.つまり,同じ確率分布を表すパラメータ点が複数存在します.このとき,それらパラメータ点上で,フィッシャー情報行列式が0となることから,フィッシャー情報行列が正則と仮定したもとでの,統計的正則モデルの漸近論を適用することはできません. 一対一対応 統計的正則モデル の漸近論 パラメータ 確率分布 特異モデル
3
問題点:ベイズ事後分布を含む計算は実現困難
ベイズ自由エネルギー,ベイズ汎化誤差 が正則モデルよりも優れている ベイズ学習が有効 With 代数幾何学的手法 問題点:ベイズ事後分布を含む計算は実現困難 平均場近似 近似 相互作用 のない系 パラメータごとに 独立に計算 ハミルトニアン そのような特異モデルにたいして,ベイズ学習の枠組みで,自由エネルギー,汎化誤差の漸近論が,代数幾何学的手法を用いることによって,理論的に研究され,その漸近的振る舞いが統計的正則モデルよりも優れていることがわかってきました.それによって,ベイズ学習の有効性が示されています.しかしながらベイズ学習における問題点として,ベイズ学習の際に現れるベイズ事後分布を伴った計算は,高次元積分を含むという理由からその計算は一般に困難です.そこで,この計算が困難なベイズ事後分布を回避するための一方法として,平均場近似が用いられています.平均場近似はもともと,統計物理学の世界に端を発する近似手法で,ボルツマン分布におけるハミルトニアンにおいて,あるパラメータを平均量に置き換えるといった操作により,一見して相互作用のない系に近似する手法です.その結果,数学的にパラメータごとの独立な計算を可能にさせるものです.この近似手法を学習に援用して,一般に複雑なベイズ事後分布を,パラメータごとに独立な分布に近似し,計算を容易にさせます.このとき近似させる方法としては,もともとのベイズ事後分布と近似させる独立な試験分布において,カルバック距離として最も関数が近くなるような,数学的に等価に,自由エネルギーを最小にさせるような,試験分布を選びます.そのような試験分布を選ぶことで,ベイズ事後分布の性質を比較的保持しつつ,計算が容易となる近似事後分布を得ることができます.この近似事後分布を基にした学習は,平均場近似アルゴリズム,あるいは,変分ベイズアルゴリズムとして知られ,その効率的な計算量から,実問題への有効性が示されています. パラメータごとに 独立な分布 ベイズ事後分布 近似 カルバック距離として最も近く (自由エネルギーを最小にする) 平均場近似アルゴリズム 実問題への有効性 (変分ベイズ)
4
目的 ~平均場近似自由エネルギーの漸近形~
縮小ランク回帰モデル[Nakajima] 混合正規分布[K.Watanabe] 隠れマルコフモデル[Hosino, K.Watanabe] 確率文脈自由文法[Hosino, K.Watanabe] ニューラルネットワーク[Nakano] で求められている. 目的 現在この平均場近似について自由エネルギーの漸近形について,以下の学習モデルにおいて,数理的に求められています.そこで本発表は,歴史的にも古くからある,ボルツマンマシンにおいて,特に完全二分グラフ型のボルツマンマシンについて考え,平均場近似自由エネルギーの漸近形の上界を解析的に導出することを目的とします. 完全2部グラフ型ボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を解析的に導出する.
5
ベイズ学習 予測 データ 真の分布 確率的に 設計者 揺らぐ対象 :学習モデル 独立 :事前分布 (事前知識) :ベイズ事後分布
(事前知識) 予測 :ベイズ事後分布 (事後知識) まずはじめに,特異モデルの学習に有効なベイズ学習について説明します.確率的に揺らぐある対象から,独立にデータX1X2Xnが得られたとします.この状況はしばしば遭遇すると言えると思います.このとき,パラメータシータを自由度とする学習モデルを用意し、そのパラメータに対する,事前知識といえる事前分布を用意したもとで,ベイズの定理から,データX1,Xnを学習後のパラメータに対する事後知識と言えるベイズ事後分布を得ます.この得られたベイズ事後分布をつかって,それをパラメータの重みとして,学習モデルを平均したものを,ベイズ予測分布と呼びます.この学習後のベイズ予測分布が,背後にある真の分布q(x)に近づき,予測を与えてくれるであろうと期待するわけです. :ベイズ予測分布
6
学習における自由エネルギー :ベイズ自由エネルギー ベイズ事後分布は ボルツマン分布 表現 ここで, 汎化誤差との関係
:経験カルバック情報量 :ベイズ自由エネルギー 一方,ベイズ学習に現れる先ほどのベイズ事後分布は,このような式で表されましたが,ボルツマン分布表現に書き直すことができます.ここでHntildeは,ボルツマン分布表現にするために,しわ寄せにされた,経験カルバック情報量と,事前分布によって書けるものです.このとき,この正規化定数をつかった,ーlogの値を考えます.この正規化定数も学習データに直に依存することから,サンプル平均を取っています.このとき,汎化誤差との関係として,F(n)の差分がG(n)に等しくなる関係が知られています.したがって,汎化誤差G(n)の挙動を求めることは,F(n)の挙動を求めることと同義であるといえます.F(n)はベイズ自由エネルギーと呼ばれ,ベイズ自由エネルギーと呼ばれ,汎化誤差の導出に重要な量であることがわかり,モデル選択においても重要な量であることが知られています. 汎化誤差との関係 *ベイズ自由エネルギーは,汎化誤差の導出,モデル選択等に重要
7
学習における平均場近似(1) 試験分布 に対して エントロピー項 エネルギー項 として特に に制限したとき を平均場近似と呼ぶ.
式右辺を最小にする を平均場近似と呼ぶ. パラメータ上の任意の試験分布f(\theta)を用いることで,ベイズ自由エネルギーF(n)についてこの式に従う不等式が成立します.ここで統計物理学との対応では,第一項はエントロピー項であり,第二項はエネルギー項と言えます.f(\theta)は,近似させる事後分布に対応し,f(\theta)が先ほどのボルツマン分布,等しくベイズ事後分布のとき,等号が成立します.今f(\theta)として,特に,パラメータごとにすべて独立な関数に制限するとき,(これは,計算が容易となる分布族に限定していることに対応しています)このとき(1)式右辺を最小にする(これは,もともとのベイズ事後分布と最も近くなるように試験分布を選ぶことに対応します)このとき,近似事後分布f(\theta)を平均場近似と呼びます.これに対応して,そのときの自由エネルギーの値を平均場近似自由エネルギーと呼びます.つまり,f bar (\theta)を(1)式右辺に代入し,任意の分布f bar ( \theta )を動く中で, f bar (\theta)に関して最小となる値を平均場近似自由エネルギーと呼びます.この平均場近似のf bar (\theta)を実現するのに,実際の平均場近似アルゴリズムでは,この自由エネルギーの部分を最小にさせる関数f(\theta)を選ぶのに,f bar (\theta)を変関数とする汎関数の変分をとって=0となるようにf(\theta)を選んでいます.したがって実現されるのは常に,停留解どまりです.そこで,停留解ではなく,最小値について,この平均場近似自由エネルギーの値を導出することによって,そのアルゴリズムが局所解に陥ったのかまたは最小解であるのかの判定基準を与えます. を平均場近似自由エネルギーと呼ぶ.
8
学習における平均場近似(2) 本発表で考察 平均場近似自由エネルギー について ただし, 以上から 平均場近似 自由エネルギー
またこの平均場近似自由エネルギーF bar (n)について以下の上界を持ちます.ここでこれが平均場近似自由エネルギーであったわけですが,サンプルの平均化と最小化の演算子の順番を考慮し,Jensenの不等式を用いることで,平均操作はここまで入るができます.Hntildeの平均を計算すると,Htildeとなり,ただしここで,Htildeはカルバック情報量と,事前分布によって書けるものです.以上から今までのことをまとめますと,ベイズ自由エネルギーと平均場近似自由エネルギーと,今回導出したF(n)tilde 本発表では,このF(n)tildeについて考察し,平均場近似自由エネルギーの上界を導出します. ただし, 以上から 平均場近似 自由エネルギー ベイズ自由エネルギー 本発表で考察
9
学習モデル 学習モデル: 完全二部グラフ型ボルツマンマシン 学習モデル 個 隠れ素子 入出力素子 個 はそれぞれ, の2値をとるとする.
学習モデル: 完全二部グラフ型ボルツマンマシン 隠れ素子 入出力素子 学習モデル 次に本発表で扱う学習モデルについて説明します.学習モデルは図のようなボルツマンマシンで表される,グラフ理論の言葉で完全2部グラフ型のボルツマンマシンです.ここで入出力素子をx1x2x MのM個とし,隠れ素子をy1y2y3ykのK個とします.i番目の隠れ素子と,j番目の入出力素子は,wijの重みによって双線形結合しているとします.また入出力素子,隠れ素子はすべて,{1,-1}の2値を与えるものとします.このとき,この完全2部グラフ型のボルツマンマシンを与える確率分布は,観測できない隠れ素子について周辺化することによって,このように書くことができます.分母は正規化定数のため,xについてすべての和を考えています.この式はシグマを外に出して積の形に直して,積の和を和の積と変形でき,yiは{1-1}の和を取ることから,それぞれyiに代入すると,ハイパボリックコサインの形で表現することができます.ここで全パラメータ数は,jが1からMまで走り,iが1からKまで走る結果,KMであることに留意しておきます.これは,この図からK×Mであることからもわかります. 個 はそれぞれ, の2値をとるとする. 全パラメータ数: 個
10
真の確率分布 複数存在 特異モデル このとき真の確率分布は *真の分布が学習モデルに含まれる場合 個 個 必要十分
次に学習させる目標である真の確率分布ですが,図のように,先ほどの学習モデルにおいて,隠れ素子がy1からyK*では非ゼロ,yK*+1からyKまではゼロとなるパラメータw*とします.このとき,真の確率分布は,このように表すことができます.つまり真の分布が学習モデルに含まれる場合について考えています.また真の分布と等しくなるパラメータ集合は,カルバック情報量を0にさせるパラメータ集合と必要十分に等しく,このようなパラメータは複数存在し,実数濃度で存在します.このことは,特異モデルであることを意味します. *真の分布が学習モデルに含まれる場合 個 必要十分 複数存在 特異モデル
11
問題設定 (2) (2) 平均場近似 自由エネルギー 学習モデル由来 完全2部グラフ型 ボルツマンマシン 正規分布族 * を
ボルツマンマシン 正規分布族 ここでは,以下で主定理を与えるための,問題設定について述べたいと思います.平均場近似自由エネルギー\var{F}(n)についてF(n)tildeの上界が存在し,F(n)tildeはこの式によって与えられた訳です.ここで先ほど,説明した学習モデルに依存するのはこの部分です.この値を計算するのに,実際には,任意の分布\var f(w)の範囲を動き,その範囲で最小化しなければなりませんが,\var f(w)を任意の範囲ではなく,正規分布族に限定した範囲で,最小化します.それによって,その正規分布族の計算容易さを理由として,解析的な計算を可能にさせます.またパラメータの事前分布が,学習モデル由来のtildeH(w)内に存在しますが,パラメータの事前分布も正規分布とします.これらの状況設定の下で,パラメータLij,wijを(2)式右辺が最小となるように,パラメータを最適化します.その結果, * を (2) 式右辺が最小になるように最適化
12
結果・定理 完全2部グラフ型ボルツマンマシンにおいて 平均場近似自由エネルギー は以下の上界を持つ. ここで である. :入出力素子の個数
完全2部グラフ型ボルツマンマシンにおいて,平均場近似自由エネルギー\barF(n)は以下の上界を持ちます.改めて述べますと,ここでMは入出力素子の個数,Kは学習モデルの隠れ素子の個数,K*は隠れ素子の真の個数,Cはnによらない定数です. :学習モデルの隠れ素子の個数 :隠れ素子の真の個数 :定数 である.
13
証明の概要 [補題] とし,一般のカルバック情報量 において を満たす に対して が 個以下のとき 平均場近似自由エネルギー は,
次にこの定理の証明の概要を説明します.補題として一般に,以下が成立します.パラメータをd次元とし,一般のカルバック情報量H( \theta ),(すなわち任意の学習モデルを対象とします.)そのとき,H(\theta)=0を満たす\theta vector hat に対して,カルバック情報量のパラメータによる二階微分を計算し,パラメータ\theta vector hat の下での値が,0ではないパラメータの個数が,r個以下とできるとき,平均場近似自由エネルギーF bar (n)は,そのrと全パラメータ数であったdを用いて,この式に従う上界を持ちます. このことは,図を使った説明をすれば,カルバック情報量H( \theta )=0を満たす\theta vector hat の集合をこのように表したとき,これらのすべての点は真の確率分布を表すパラメータですが,パラメータ\theta vector(1) を選んだ時,そのもとでの二階微分係数を計算して,0とならないパラメータの個数がr(1)こ,同様に\theta(2)に対応してr(2)が得られたとし,\theta*に対して,r*が得られたとすれば,そのそれぞれのrに対応する上界を持つことになります.この補題は,カルバック情報量の二階微分(フィッシャー情報行列と数学的に等しいですが)その計算のみで上の上界が得られることを意味しています.また2階微分係数が0となるiが存在しないとき,つまりr=dのとき,この右辺に代入しますと,d/2となり,正則モデルの場合に対応していると言えます.以下では,この補題を特に,完全2部グラフ型ボルツマンマシンの学習モデルに適用します. の上界を持つ. 真のパラメータ集合 *カルバック情報量の二階微分の計算のみで,上の上界が得られる.
14
[補題]を利用 完全二部グラフ型ボルツマンマシンのとき,カルバック情報量 は における二階微分係数は, 分散 ここで 学習モデル
完全2部グラフ型ボルツマンマシンのとき,カルバック情報量H(w)は,真の確率分布,学習モデルを表す確率分布を使って,このように表すことができます.このカルバック情報量に対して,先ほどの補題にしたがって,カルバック情報量が0となる(つまり真のパラメータ集合上の)w vector hat における二階微分係数を計算すると,この式によって与えられた分散の形となります.ここでt\alpha, \betaは,tanhxを用いたこの式で与えられ,平均は,学習モデルを重みとする平均です. ここで 分散 学習モデル
15
特に のときを考えると であることから (定理の証明終了) が成立して,[補題]において 、 であることから,
ここで,特に,たくさん候補のある真のパラメータ集合の中からw vector star の場合を考えると,そのはじめの設定から,隠れ素子が1からK*ではパラメータwは0ではない,隠れ素子がK*+1からKのときでは,パラメータwは0であったことから,隠れ素子がK*+1からKのときでは,tanhxの奇関数により,t\alpha \betaは0となり,分散は0となります.したがって,補題においてr=K*Mであり,全パラメータ数がKMであったことから,補題に代入して,もともとの主定理が成立します. が成立して,[補題]において 、 であることから, (定理の証明終了)
16
考察① 上界 上界 統計的正則モデル 導出した自由エネルギー 代数幾何学的手法 [Yamazaki] 平均場近似 ベイズ学習
次に主定理によって得られた結果に対する考察について少し述べますと,導出した自由エネルギーの漸近的挙動は統計的正則モデルと仮定した場合の2分のパラメータ数よりも,小さい振る舞いを持つことがわかります.また,一方で他の研究との対比ですが,この完全2部グラフ型ボルツマンマシンにおいては,平均場近似ではなくベイズ学習における上界が代数幾何学的手法を用いてその挙動が求められています.その結果は,本発表で導出した自由エネルギーと一致しています.このことは,平均場近似として平易な正規分布に限定した場合であっても,ベイズ自由エネルギーの上界に到達可能であることを意味しています. :学習サンプル数 非漸近 領域 漸近論 適用可能領域
17
考察② 事前分布 試験分布を正規分布, のときの下界 正規分布
試験分布を正規分布, のときの下界 正規分布 近年,この平均場近似アルゴリズムについて,漸近論の理論的な研究がされています.漸近論の理論的な研究によって,平均場近似アルゴリズムとベイズ学習,統計的正則モデルそれぞれとの漸近論の比較を可能にし,平均場近似の近似精度について言及することができます.次に,実際に,平均場近似アルゴリズムを走らせたときの,局所解に陥ったのか,または,最小解に到達したのか、の判定基準を与えることができます.このことについて後に数学的な説明を与えます.さらに,漸近論の理論的な研究によって,特異モデルにおけるモデル選択である,Sing ICへの基礎につながります.先にSing ICについて,説明したいと思います.
18
結論 今後の課題 完全二部グラフ型ボルツマンマシンにおいて,平均場近似自由エネルギーの上界を与えた. 平均場近似自由エネルギーの下界の導出
一般のボルツマンマシンへの拡張 導出した自由エネルギーと実験との比較
19
Sing IC [Yamazaki. et al]
平均場近似アルゴリズム 真の 隠れ素子 の個数 + ベイズ学習 学習サンプル数 観測可能量 横軸を学習サンプル数,学習させるデータ数とし,縦軸を自由エネルギー,平均場近似自由エネルギーであったり,ベイズ自由エネルギーとします.このとき,学習モデルや,学習アルゴリズムに依存しますが,漸近論適用可能領域が存在し,その上で漸近的にこのような振る舞いを持つことが知られています.このとき,λ1m1λ2m2のどちらでもいいのですが,総称して,λ,mを考えると,λ、mは一般的に,学習モデルの隠れ素子の個数Kと,観測できない,背後にある真の隠れ素子の個数K^*の関数であることが知られています.他方で,このラムダとmに依存する何らかの観測可能量yが得られたとき,ラムダとmを代入して,yがわかっていることから,方程式を解くことでき,観測できない真のK^*を推測することができます.この方程式を解くためには,関数hラムダhmが既知であることが必要であることから,関数hラムダ,hmを理論的に導出することは,漸近論を数理的に解明することは,SingICの立場からも重要であることがわかります. 非漸近 領域 漸近論 適用可能領域 *観測できない を推測 学習モデル 学習アルゴリズム に依存 関数 を導出するのは重要
20
理論的な研究の意義 平均場近似アルゴリズムと(ベイズ学習,統計的正則モデル)との漸近論の比較.
平均場近似アルゴリズムにおいて,局所解 or最小解の判定基準. 特異モデルにおけるモデル選択, SingICへの基礎 近年,この平均場近似アルゴリズムについて,漸近論の理論的な研究がされています.漸近論の理論的な研究によって,平均場近似アルゴリズムとベイズ学習,統計的正則モデルそれぞれとの漸近論の比較を可能にし,平均場近似の近似精度について言及することができます.次に,実際に,平均場近似アルゴリズムを走らせたときの,局所解に陥ったのか,または,最小解に到達したのか、の判定基準を与えることができます.このことについて後に数学的な説明を与えます.さらに,漸近論の理論的な研究によって,特異モデルにおけるモデル選択である,Sing ICへの基礎につながります.先にSing ICについて,説明したいと思います.
21
学習における平均場近似(1) 試験分布 に対して エントロピー項 エネルギー項 として特に に制限したとき を平均場近似と呼ぶ
式右辺を最小にする を平均場近似と呼ぶ パラメータ上の任意の試験分布f(\theta)を用いることで,ベイズ自由エネルギーF(n)についてこの式に従う不等式が成立します.ここで統計物理学との対応では,第一項はエントロピー項であり,第二項はエネルギー項と言えます.f(\theta)は,近似させる事後分布に対応し,f(\theta)が先ほどのボルツマン分布,等しくベイズ事後分布のとき,等号が成立します.今f(\theta)として,特に,パラメータごとにすべて独立な関数に制限するとき,(これは,計算が容易となる分布族に限定していることに対応しています)このとき(1)式右辺を最小にする(これは,もともとのベイズ事後分布と最も近くなるように試験分布を選ぶことに対応します)このとき,近似事後分布f(\theta)を平均場近似と呼びます.これに対応して,そのときの自由エネルギーの値を平均場近似自由エネルギーと呼びます.つまり,f bar (\theta)を(1)式右辺に代入し,任意の分布f bar ( \theta )を動く中で, f bar (\theta)に関して最小となる値を平均場近似自由エネルギーと呼びます.この平均場近似のf bar (\theta)を実現するのに,実際の平均場近似アルゴリズムでは,この自由エネルギーの部分を最小にさせる関数f(\theta)を選ぶのに,f bar (\theta)を変関数とする汎関数の変分をとって=0となるようにf(\theta)を選んでいます.したがって実現されるのは常に,停留解どまりです.そこで,停留解ではなく,最小値について,この平均場近似自由エネルギーの値を導出することによって,そのアルゴリズムが局所解に陥ったのかまたは最小解であるのかの判定基準を与えます. 平均場近似アルゴリズム を平均場近似自由エネルギーと呼ぶ。 *局所解 or 最小解 の判定基準
22
ベイズ汎化誤差 :ベイズ汎化誤差 真の分布 代数幾何学的手法 [Watanabe] への近さ ベイズ予測分布と、真の分布とのカルバック距離
つまり,真の分布q(x)への近さを下向きとし,横軸を学習データ数nとしたとき,学習データ数nが大きければ大きいほど,予測分布は真の分布に近づくことが期待されます.実際,ベイズ予測分布と真の分布との関数の距離として,カルバック距離を採用した時,この中身の式で定義されますが,ここでベイズ予測分布が,学習する学習データに直に依存することから,学習データによるサンプル平均を取って普遍的な量にしています.この量は,代数幾何学手法を用いることにより,nが大きい時漸近的にこのオーダーで真の分布に近づくことが示されています.このG(n)はベイズ汎化誤差と呼ばれ,重要な量であると言えると思います. ベイズ予測分布と、真の分布とのカルバック距離 :ベイズ汎化誤差
23
本学習モデルの性質 仮定 通り 全事象 学習モデル は,入出力素子 が をとることから 離散分布であり,全事象は 通り. 隠れ素子数 は,
を満たす範囲で十分 (i) 次にこの学習モデルの性質ですが,入出力素子が{1,-1}の2値をとることから,離散分布であり,起こりうる全通り数,全事象は2^{M}通りです.したがって,横軸を状態x縦軸を確率としたとき,このような模式図を書くことができ,この確率分布を表現するパラメータは,確率であることからすべて足して1であることを考慮すれば,2^M-1です.したがって隠れ素子数Kは学習モデルの全パラメータ数KMに対して,2^{M}-1よりも小さい範囲で十分と言えます.またMが1のときを考えると,ハイパボリックコサインが偶関数であることを考慮すれば,このように書くことができ,入出力の状態に依存しません.よって,となり,モデルパラメータwに依存しないことから,意味のない状況と言えます.したがって以降ではこの二つを仮定した範囲で考察を行います. (ii) のとき パラメータ に依存せず意味をなさない. の場合を考える
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.