一般ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室 西山 悠
背景 混合分布 パターン認識 ベイジアンネット 自然言語処理 隠れマルコフモデル 遺伝子解析 応用 ・ ・ 学習方法 特異モデル ベイズ学習の優位性 平均場近似 まずはじめに背景についてですが,混合分布,ベイジアンネット,隠れマルコフモデルなどの学習モデルは,パターン認識,自然言語処理,遺伝子解析などと,実世界の情報システムにおいて,幅広い応用を持っています.一方で,これらの実用的な学習モデルというのは,数学的な側面から眺めれば,フィッシャー情報行列式が0となる特異モデルとして知られ,この特異モデルの学習においては,汎化性能の点で,ベイズ学習の,他の学習方に対する優位性が示されています.しかしながら,ベイズ学習の実際上の実現においては,高次元積分を含む計算を余儀なくされることから計算が困難です.そこで,効率的な計算量で計算するための学習方法として平均場近似を用いた学習方法があります.平均場近似の学習では,複雑となるベイズ事後分布を,計算が容易となるパラメータごとに互いに独立な分布に近似します.カルバック距離の意味で最もベイズ事後分布に近くなるような分布を選びます.その際に,自由エネルギーの値が小さければ小さいほどベイズ事後分布に対する近似精度が高くなり,その最小値を平均場近似自由エネルギーと呼びます.この平均場近似自由エネルギーの振る舞いを知ることで,その近似精度について知ることができます. 自由エネルギーの値が小さい ほど近似精度が高い パラメータごとに 独立な分布 ベイズ事後分布 近似 最小値 平均場近似自由エネルギー
目的 ~平均場近似自由エネルギーの漸近形~ 一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を解析的に導出する. 縮小ランク回帰モデル[Nakajima] 混合正規分布[K.Watanabe] 隠れマルコフモデル[Hosino, K.Watanabe] 確率文脈自由文法[Hosino, K.Watanabe] ニューラルネットワーク[Nakano] で求められている. 目的 一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を解析的に導出する. 現在,この平均場近似自由エネルギーのサンプル数が十分大きいときの漸近形について,これらの学習モデルについて求められています.以上の背景を踏まえまして,目的として,特異モデルの1つとして知られるボルツマンマシンの学習モデルにおいて,平均場近似自由エネルギーの漸近形の上界を解析的に導出したいと思います.ここでいう一般のボルツマンマシンというのは後で述べます.
ベイズ学習 予測 データ 真の分布 確率的に 設計者 揺らぐ対象 :学習モデル 独立 :事前分布 (事前知識) :ベイズ事後分布 (事前知識) 予測 :ベイズ事後分布 (事後知識) まずはじめに,特異モデルの学習において有効であるベイズ学習について説明します.確率的に揺らぐある対象から,独立にデータX1からXnが得られたとします.このとき,設計者が,パラメータシータを自由度とする学習モデルとパラメータに対する事前分布\phi(\theta)を用意したもとで,ベイズの定理から,n個のデータを学習後のベイズ事後分布を構成します.次に,得られたベイズ事後分布を重みとして,学習モデルを平均化することで,ベイズ予測分布を構成します.このベイズ予測分布によって,もともとの確率的に揺らぐ対象,の背後に存在する真の分布q(x)を予測するというものです. :ベイズ予測分布
学習における平均場近似(1) ベイズ事後分布は ボルツマン分布 表現 ここで, :経験カルバック情報量 次に学習における平均場近似についてですが,ベイズ事後分布を,このようにボルツマン分布表現に書き直すことができます.ここでHntildeは,経験カルバック情報量と,事前分布によって書けるものです.今,特異モデルにおいて一般に複雑となるベイズ事後分布と,近似事後分布f(\theta)との間のカルバック距離をとり,このカルバック距離が小さくなるような近似事後分布f(\theta)を選び出します.この式は,試験分布\f(\theta)に依存しない項とf(\theta)に依存する項とに分けることで,このように式変形することができます.この両辺についてサンプル平均をとることで,
学習における平均場近似(2) 近似事後分布 に対して として特に エントロピー項 エネルギー項 に制限したとき を平均場近似と呼ぶ. 式右辺を最小にする を平均場近似と呼ぶ. この式が成り立ちます.ここで,右辺の値は,第1項がエントロピー項であり,第2項がエネルギー項と言えることから,自由エネルギーとも言えます.今,近似事後分布f(\theta)として,特に,計算が容易となる,すべてのパラメータが互いに独立な分布族に制限したとき,(1)式右辺を最小にする\bar f(\theta)を,事後分布における平均場近似と呼びます.同時に,そのときの自由エネルギーの最小値の値を,平均場近似自由エネルギーと呼びます.以下ではこの平均場近似自由エネルギーのサンプル数nが十分大きいときの漸近形について,その上界を求めることが主題となります. を平均場近似自由エネルギーと呼ぶ.
学習モデル 3体相互作用 2体相互作用 学習モデル: 一般のボルツマンマシン すべてのノードの出力値は {+1,-1}の2値をとる 隠れ素子 学習モデル: 一般のボルツマンマシン 2体相互作用 隠れ素子 すべてのノードの出力値は {+1,-1}の2値をとる 入出力素子 次に学習モデルについて説明します.入出力をあらわす素子をx1からxMのM個,それに,観測できない隠れ素子をy1からyKのK個とします.すべてのノードの出力値は{+1,-1}のいずれかの2値をとることにします.ボルツマンマシンとして一般的なボルツマンマシンを考え,これらのノード間にはさまざまな相互作用が存在するものを考えます.二体相互作用であれば,たとえば,y4yKの結合荷重として4とKを上付きに表してw4Kと表し,x1x3の結合荷重として1と3を下つきに表してw13の結合荷重が,3番目のyと2番目のxでは,3を上付きに2を下付きに表してw32と表します.もう少し例を述べれば,三体相互作用の場合も,3,4,K番目の隠れ素子の結合荷重がw34K,1番目,3番目の隠れ素子と,M番目の入出力素子の結合荷重をw13Mと表します.同様に4体相互作用,5体相互作用,とさまざまな相互作用が存在する場合を考え,これらが同時に存在する状況を考えます.このとき,すべての相互作用を含ませた学習モデルというのはこのように表すことができます.
真の確率分布 *真の確率分布は学習モデルに含まれ,隠れ素子の個数を 個とする. 隠れ素子 入出力素子 真のパラメータとして 次に,真の確率分布についてですが,真の確率分布は,学習モデルに含まれる状況を考え,隠れ素子の個数をK^{*}個とし,学習モデルのK個よりも小さい状況を考えています.このとき,相互作用として,例えばこの結合のように,K^{*}+1を含むような結合荷重では0となり,他の例でも,このような結合のときに0となります.したがって,真のパラメータとして,隠れ素子につながっている,この最後のi_{I}番目のものがK^{*}よりも大きいときには0となります. 真のパラメータとして
結果・定理 一般に 体相互作用を持つボルツマンマシンにおいて 平均場近似自由エネルギー の漸近形は以下の上界を持つ. ここで である. :入出力素子の個数 これらの設定の下で,次の定理が得られます.一般に,入出力素子,隠れ素子の間に,l1体相互作用,l2体相互作用,lL体相互作用を同時に持つボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形は以下の上界を持ちます.ここでCはnにはよらない定数です. :学習モデルの隠れ素子の個数 :隠れ素子の真の個数 :定数 である.
問題設定 (2) (2) 学習モデル由来 平均場近似 自由エネルギー 一般ボルツマンマシン 正規分布族 * 式 以降では,今の主定理の証明の概要について説明します.まずはじめに問題設定についてですが,平均場近似自由エネルギーについてこの右辺で与えられる上界が存在します.ここでボルツマンマシンに依存する部分はこの\tilde{H}(w)の部分です. 今,この式に対し,\tilde{f}(w)を正規分布の範囲に限定し,その範囲で最小化させます.ここで分散は,非対角成分が存在しない,パラメータが互いに独立となる場合を考えています.これらの設定の下で,(2)式右辺の漸近形が最小となるようにΣとwを最適化させます.それによって前のスライドにあった定理が得られます.また, この\tilde{f}(w)を正規分布の範囲に限定して最小化するという方法は,\tildeH(w)を,ボルツマンマシンの場合に限定しなくとも,一般的に評価することができます.したがって,実際上の証明の手順では,\tilde{H}(w)を一般として, 式(2)の右辺の最小化について評価し,その後に,ボルツマンマシンの学習モデルの場合に適用する,という道筋を取ります.\tilde{H}(w)を一般的に保持したままの式(2)の最小化を考えると次が成り立ちます. * 式 (2) 右辺の漸近形が最小になるように と を最適化
証明の概要 [補題] カルバック情報量 において となる で フィッシャー情報行列 の対角成分の非零の個数が 以下となるとき 平均場近似自由エネルギー の漸近形は, <フィッシャー情報行列> の上界を持つ. 個 カルバック情報量H( \theta )において,カルバック情報量が0となる\hat{\theta}で,フィッシャー情報行列I(\theta)の対角成分の非零の個数がr以下となるとき,平均場近似自由エネルギーの漸近形は,この式で表される上界を持ちます.冗長に説明すれば,フィッシャー情報行列において全パラメータ数のdの中で対角成分の値が0とはならない個数がr個以下とできるとき,そのdとrによって平均場近似自由エネルギーの漸近形がバウンドされます.この補題をボルツマンマシンのときに適用します. 個 *フィッシャー情報行列の対角成分の計算のみで,上の上界が得られる.
[補題]に従って真のパラメータ におけるフィッシャー情報行列の対角成分 の非零の個数を数える. 実際計算すると, ボルツマンマシンの真のパラメータw*として,隠れ素子につながっているi_{I}番目の隠れ素子がK^{*}よりも大きいときには0となっていました.それにおけるフィッシャー情報行列の対角成分のゼロとはならない個数を数えます.そのときに,フィッシャー情報行列が0となることは,確率分布が非負であることから,2乗の中身が0になることと同値です.実際,この量について,p(x|w)をボルツマンマシンの確率分布として計算しますと,iI>K*ときで,すべてのxについて,0となります.したがって,このときにフィッシャー情報行列の対角成分も0となり, 実際計算すると,
補題に代入して (証明の概要終了) <フィッシャー情報行列> 個 個 この式が従います.このことから図で表せば,全パラメータ数である,この式のなかで,フィッシャー情報行列の対角成分の非零の個数がこの個数以下となるので,補題に代入して,結果が得られます. (証明の概要終了)
直観的には・・・ 結果は・・・ 学習するパラメータの冗長な部分をはじめ,結合パラメータが0となる分だけ,自由エネルギーが小さくなる. 学習アルゴリズムの解の最小解と局所解の判定基準 以上で証明したことを,直観的に述べれば,学習するパラメータの冗長な部分をはじめとして,結合パラメータが0となる分だけ,自由エネルギーが小さくなることを言っています.また,得られた自由エネルギーの漸近的挙動の結果は,学習アルゴリズムの解の収束先について最小解と局所解を判定する基準の基礎や,特異モデルにおいて提案されているモデル選択規準SingICは自由エネルギーの漸近形の情報を利用していますが,そのための基礎につながります. モデル選択規準SingIC[Yamazaki et al]は,自由エネルギーの漸近形の情報を利用している.
結論 今後の課題 一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を与えた. 平均場近似自由エネルギーの下界の導出 導出した自由エネルギーと実験との比較 最後に,本発表では,一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を与えました. 今後の課題としては,平均場近似自由エネルギーの下界の導出や導出した自由エネルギーと実験との比較があります.
Sing IC [Yamazaki. et al] 平均場近似アルゴリズム 真の 隠れ素子 の個数 + ベイズ学習 学習サンプル数 観測可能量 横軸を学習サンプル数,学習させるデータ数とし,縦軸を自由エネルギー,平均場近似自由エネルギーであったり,ベイズ自由エネルギーとします.このとき,学習モデルや,学習アルゴリズムに依存しますが,漸近論適用可能領域が存在し,その上で漸近的にこのような振る舞いを持つことが知られています.このとき,λ1m1λ2m2のどちらでもいいのですが,総称して,λ,mを考えると,λ、mは一般的に,学習モデルの隠れ素子の個数Kと,観測できない,背後にある真の隠れ素子の個数K^*の関数であることが知られています.他方で,このラムダとmに依存する何らかの観測可能量yが得られたとき,ラムダとmを代入して,yがわかっていることから,方程式を解くことでき,観測できない真のK^*を推測することができます.この方程式を解くためには,関数hラムダhmが既知であることが必要であることから,関数hラムダ,hmを理論的に導出することは,漸近論を数理的に解明することは,SingICの立場からも重要であることがわかります. 非漸近 領域 漸近論 適用可能領域 *観測できない を推測 学習モデル 学習アルゴリズム に依存 関数 を導出するのは重要
学習における平均場近似(2) 本発表で考察 平均場近似自由エネルギー について ただし, 以上から 平均場近似 自由エネルギー またこの平均場近似自由エネルギーF bar (n)について以下の上界を持ちます.ここでこれが平均場近似自由エネルギーであったわけですが,サンプルの平均化と最小化の演算子の順番を考慮し,Jensenの不等式を用いることで,平均操作はここまで入るができます.Hntildeの平均を計算すると,Htildeとなり,ただしここで,Htildeはカルバック情報量と,事前分布によって書けるものです.以上から今までのことをまとめますと,ベイズ自由エネルギーと平均場近似自由エネルギーと,今回導出したF(n)tilde 本発表では,このF(n)tildeについて考察し,平均場近似自由エネルギーの上界を導出します. 以上から 平均場近似 自由エネルギー ベイズ自由エネルギー 本発表で考察
理論的な研究の意義 平均場近似アルゴリズムと(ベイズ学習,統計的正則モデル)との漸近論の比較. 平均場近似アルゴリズムにおいて,局所解 or最小解の判定基準. 特異モデルにおけるモデル選択, SingICへの基礎 近年,この平均場近似アルゴリズムについて,漸近論の理論的な研究がされています.漸近論の理論的な研究によって,平均場近似アルゴリズムとベイズ学習,統計的正則モデルそれぞれとの漸近論の比較を可能にし,平均場近似の近似精度について言及することができます.次に,実際に,平均場近似アルゴリズムを走らせたときの,局所解に陥ったのか,または,最小解に到達したのか、の判定基準を与えることができます.このことについて後に数学的な説明を与えます.さらに,漸近論の理論的な研究によって,特異モデルにおけるモデル選択である,Sing ICへの基礎につながります.先にSing ICについて,説明したいと思います.
学習における平均場近似(1) 試験分布 に対して エントロピー項 エネルギー項 として特に に制限したとき を平均場近似と呼ぶ 式右辺を最小にする を平均場近似と呼ぶ パラメータ上の任意の試験分布f(\theta)を用いることで,ベイズ自由エネルギーF(n)についてこの式に従う不等式が成立します.ここで統計物理学との対応では,第一項はエントロピー項であり,第二項はエネルギー項と言えます.f(\theta)は,近似させる事後分布に対応し,f(\theta)が先ほどのボルツマン分布,等しくベイズ事後分布のとき,等号が成立します.今f(\theta)として,特に,パラメータごとにすべて独立な関数に制限するとき,(これは,計算が容易となる分布族に限定していることに対応しています)このとき(1)式右辺を最小にする(これは,もともとのベイズ事後分布と最も近くなるように試験分布を選ぶことに対応します)このとき,近似事後分布f(\theta)を平均場近似と呼びます.これに対応して,そのときの自由エネルギーの値を平均場近似自由エネルギーと呼びます.つまり,f bar (\theta)を(1)式右辺に代入し,任意の分布f bar ( \theta )を動く中で, f bar (\theta)に関して最小となる値を平均場近似自由エネルギーと呼びます.この平均場近似のf bar (\theta)を実現するのに,実際の平均場近似アルゴリズムでは,この自由エネルギーの部分を最小にさせる関数f(\theta)を選ぶのに,f bar (\theta)を変関数とする汎関数の変分をとって=0となるようにf(\theta)を選んでいます.したがって実現されるのは常に,停留解どまりです.そこで,停留解ではなく,最小値について,この平均場近似自由エネルギーの値を導出することによって,そのアルゴリズムが局所解に陥ったのかまたは最小解であるのかの判定基準を与えます. 平均場近似アルゴリズム を平均場近似自由エネルギーと呼ぶ。 *局所解 or 最小解 の判定基準
ベイズ汎化誤差 :ベイズ汎化誤差 真の分布 代数幾何学的手法 [Watanabe] への近さ ベイズ予測分布と、真の分布とのカルバック距離 つまり,真の分布q(x)への近さを下向きとし,横軸を学習データ数nとしたとき,学習データ数nが大きければ大きいほど,予測分布は真の分布に近づくことが期待されます.実際,ベイズ予測分布と真の分布との関数の距離として,カルバック距離を採用した時,この中身の式で定義されますが,ここでベイズ予測分布が,学習する学習データに直に依存することから,学習データによるサンプル平均を取って普遍的な量にしています.この量は,代数幾何学手法を用いることにより,nが大きい時漸近的にこのオーダーで真の分布に近づくことが示されています.このG(n)はベイズ汎化誤差と呼ばれ,重要な量であると言えると思います. :ベイズ汎化誤差