一般ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
データ解析
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
統計解析 第9回 第9章 正規分布、第11章 理論分布.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
電磁気学C Electromagnetics C 7/13講義分 電磁波の電気双極子放射 山田 博仁.
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
ニューラルネットは、いつ、なぜ、どのようにして役立つか?
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
Statistical Physics and Singularity Theory
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
領域ベースの隠れ変数を用いた画像領域分割
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
Introduction to Soft Computing (第11回目)
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
完全2部グラフ型ボルツマンマシンにおける平均場近似自由エネルギーの 漸近的挙動
ボルツマンマシンの定義 ボルツマンマシン(Boltzmann machine)は、スピン・システムをヒントに作られたモデルである。
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
様々な情報源(4章).
部分的最小二乗回帰 Partial Least Squares Regression PLS
ベイズ・アプローチによる グラフィカル・テスト理論
進化ゲームと微分方程式 第15章 n種の群集の安定性
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ベイズ音声合成における 事前分布とモデル構造の話者間共有
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
ポッツスピン型隠れ変数による画像領域分割
原子核物理学 第7講 殻模型.
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
4.プッシュダウンオートマトンと 文脈自由文法の等価性
パターン認識特論 カーネル主成分分析 和田俊和.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

一般ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室       西山 悠

背景 混合分布 パターン認識 ベイジアンネット 自然言語処理 隠れマルコフモデル 遺伝子解析 応用 ・ ・ 学習方法 特異モデル ベイズ学習の優位性 平均場近似 まずはじめに背景についてですが,混合分布,ベイジアンネット,隠れマルコフモデルなどの学習モデルは,パターン認識,自然言語処理,遺伝子解析などと,実世界の情報システムにおいて,幅広い応用を持っています.一方で,これらの実用的な学習モデルというのは,数学的な側面から眺めれば,フィッシャー情報行列式が0となる特異モデルとして知られ,この特異モデルの学習においては,汎化性能の点で,ベイズ学習の,他の学習方に対する優位性が示されています.しかしながら,ベイズ学習の実際上の実現においては,高次元積分を含む計算を余儀なくされることから計算が困難です.そこで,効率的な計算量で計算するための学習方法として平均場近似を用いた学習方法があります.平均場近似の学習では,複雑となるベイズ事後分布を,計算が容易となるパラメータごとに互いに独立な分布に近似します.カルバック距離の意味で最もベイズ事後分布に近くなるような分布を選びます.その際に,自由エネルギーの値が小さければ小さいほどベイズ事後分布に対する近似精度が高くなり,その最小値を平均場近似自由エネルギーと呼びます.この平均場近似自由エネルギーの振る舞いを知ることで,その近似精度について知ることができます. 自由エネルギーの値が小さい ほど近似精度が高い パラメータごとに 独立な分布 ベイズ事後分布 近似 最小値 平均場近似自由エネルギー

目的 ~平均場近似自由エネルギーの漸近形~ 一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を解析的に導出する. 縮小ランク回帰モデル[Nakajima] 混合正規分布[K.Watanabe] 隠れマルコフモデル[Hosino, K.Watanabe] 確率文脈自由文法[Hosino, K.Watanabe] ニューラルネットワーク[Nakano] で求められている. 目的 一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を解析的に導出する. 現在,この平均場近似自由エネルギーのサンプル数が十分大きいときの漸近形について,これらの学習モデルについて求められています.以上の背景を踏まえまして,目的として,特異モデルの1つとして知られるボルツマンマシンの学習モデルにおいて,平均場近似自由エネルギーの漸近形の上界を解析的に導出したいと思います.ここでいう一般のボルツマンマシンというのは後で述べます.

ベイズ学習 予測 データ 真の分布 確率的に 設計者 揺らぐ対象 :学習モデル 独立 :事前分布 (事前知識) :ベイズ事後分布  (事前知識) 予測 :ベイズ事後分布   (事後知識) まずはじめに,特異モデルの学習において有効であるベイズ学習について説明します.確率的に揺らぐある対象から,独立にデータX1からXnが得られたとします.このとき,設計者が,パラメータシータを自由度とする学習モデルとパラメータに対する事前分布\phi(\theta)を用意したもとで,ベイズの定理から,n個のデータを学習後のベイズ事後分布を構成します.次に,得られたベイズ事後分布を重みとして,学習モデルを平均化することで,ベイズ予測分布を構成します.このベイズ予測分布によって,もともとの確率的に揺らぐ対象,の背後に存在する真の分布q(x)を予測するというものです. :ベイズ予測分布

学習における平均場近似(1) ベイズ事後分布は ボルツマン分布 表現 ここで, :経験カルバック情報量 次に学習における平均場近似についてですが,ベイズ事後分布を,このようにボルツマン分布表現に書き直すことができます.ここでHntildeは,経験カルバック情報量と,事前分布によって書けるものです.今,特異モデルにおいて一般に複雑となるベイズ事後分布と,近似事後分布f(\theta)との間のカルバック距離をとり,このカルバック距離が小さくなるような近似事後分布f(\theta)を選び出します.この式は,試験分布\f(\theta)に依存しない項とf(\theta)に依存する項とに分けることで,このように式変形することができます.この両辺についてサンプル平均をとることで,

学習における平均場近似(2) 近似事後分布 に対して として特に エントロピー項 エネルギー項 に制限したとき を平均場近似と呼ぶ. 式右辺を最小にする を平均場近似と呼ぶ. この式が成り立ちます.ここで,右辺の値は,第1項がエントロピー項であり,第2項がエネルギー項と言えることから,自由エネルギーとも言えます.今,近似事後分布f(\theta)として,特に,計算が容易となる,すべてのパラメータが互いに独立な分布族に制限したとき,(1)式右辺を最小にする\bar f(\theta)を,事後分布における平均場近似と呼びます.同時に,そのときの自由エネルギーの最小値の値を,平均場近似自由エネルギーと呼びます.以下ではこの平均場近似自由エネルギーのサンプル数nが十分大きいときの漸近形について,その上界を求めることが主題となります. を平均場近似自由エネルギーと呼ぶ.

学習モデル 3体相互作用 2体相互作用 学習モデル: 一般のボルツマンマシン すべてのノードの出力値は {+1,-1}の2値をとる 隠れ素子 学習モデル: 一般のボルツマンマシン 2体相互作用 隠れ素子 すべてのノードの出力値は {+1,-1}の2値をとる 入出力素子 次に学習モデルについて説明します.入出力をあらわす素子をx1からxMのM個,それに,観測できない隠れ素子をy1からyKのK個とします.すべてのノードの出力値は{+1,-1}のいずれかの2値をとることにします.ボルツマンマシンとして一般的なボルツマンマシンを考え,これらのノード間にはさまざまな相互作用が存在するものを考えます.二体相互作用であれば,たとえば,y4yKの結合荷重として4とKを上付きに表してw4Kと表し,x1x3の結合荷重として1と3を下つきに表してw13の結合荷重が,3番目のyと2番目のxでは,3を上付きに2を下付きに表してw32と表します.もう少し例を述べれば,三体相互作用の場合も,3,4,K番目の隠れ素子の結合荷重がw34K,1番目,3番目の隠れ素子と,M番目の入出力素子の結合荷重をw13Mと表します.同様に4体相互作用,5体相互作用,とさまざまな相互作用が存在する場合を考え,これらが同時に存在する状況を考えます.このとき,すべての相互作用を含ませた学習モデルというのはこのように表すことができます.

真の確率分布 *真の確率分布は学習モデルに含まれ,隠れ素子の個数を 個とする. 隠れ素子 入出力素子 真のパラメータとして 次に,真の確率分布についてですが,真の確率分布は,学習モデルに含まれる状況を考え,隠れ素子の個数をK^{*}個とし,学習モデルのK個よりも小さい状況を考えています.このとき,相互作用として,例えばこの結合のように,K^{*}+1を含むような結合荷重では0となり,他の例でも,このような結合のときに0となります.したがって,真のパラメータとして,隠れ素子につながっている,この最後のi_{I}番目のものがK^{*}よりも大きいときには0となります. 真のパラメータとして

結果・定理 一般に 体相互作用を持つボルツマンマシンにおいて 平均場近似自由エネルギー の漸近形は以下の上界を持つ. ここで である. :入出力素子の個数 これらの設定の下で,次の定理が得られます.一般に,入出力素子,隠れ素子の間に,l1体相互作用,l2体相互作用,lL体相互作用を同時に持つボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形は以下の上界を持ちます.ここでCはnにはよらない定数です. :学習モデルの隠れ素子の個数 :隠れ素子の真の個数 :定数 である.

問題設定 (2) (2) 学習モデル由来 平均場近似 自由エネルギー 一般ボルツマンマシン 正規分布族 * 式 以降では,今の主定理の証明の概要について説明します.まずはじめに問題設定についてですが,平均場近似自由エネルギーについてこの右辺で与えられる上界が存在します.ここでボルツマンマシンに依存する部分はこの\tilde{H}(w)の部分です. 今,この式に対し,\tilde{f}(w)を正規分布の範囲に限定し,その範囲で最小化させます.ここで分散は,非対角成分が存在しない,パラメータが互いに独立となる場合を考えています.これらの設定の下で,(2)式右辺の漸近形が最小となるようにΣとwを最適化させます.それによって前のスライドにあった定理が得られます.また, この\tilde{f}(w)を正規分布の範囲に限定して最小化するという方法は,\tildeH(w)を,ボルツマンマシンの場合に限定しなくとも,一般的に評価することができます.したがって,実際上の証明の手順では,\tilde{H}(w)を一般として, 式(2)の右辺の最小化について評価し,その後に,ボルツマンマシンの学習モデルの場合に適用する,という道筋を取ります.\tilde{H}(w)を一般的に保持したままの式(2)の最小化を考えると次が成り立ちます. * 式 (2) 右辺の漸近形が最小になるように と を最適化

証明の概要 [補題] カルバック情報量 において となる で フィッシャー情報行列 の対角成分の非零の個数が 以下となるとき 平均場近似自由エネルギー の漸近形は, <フィッシャー情報行列> の上界を持つ. 個 カルバック情報量H( \theta )において,カルバック情報量が0となる\hat{\theta}で,フィッシャー情報行列I(\theta)の対角成分の非零の個数がr以下となるとき,平均場近似自由エネルギーの漸近形は,この式で表される上界を持ちます.冗長に説明すれば,フィッシャー情報行列において全パラメータ数のdの中で対角成分の値が0とはならない個数がr個以下とできるとき,そのdとrによって平均場近似自由エネルギーの漸近形がバウンドされます.この補題をボルツマンマシンのときに適用します. 個 *フィッシャー情報行列の対角成分の計算のみで,上の上界が得られる.

[補題]に従って真のパラメータ におけるフィッシャー情報行列の対角成分 の非零の個数を数える. 実際計算すると, ボルツマンマシンの真のパラメータw*として,隠れ素子につながっているi_{I}番目の隠れ素子がK^{*}よりも大きいときには0となっていました.それにおけるフィッシャー情報行列の対角成分のゼロとはならない個数を数えます.そのときに,フィッシャー情報行列が0となることは,確率分布が非負であることから,2乗の中身が0になることと同値です.実際,この量について,p(x|w)をボルツマンマシンの確率分布として計算しますと,iI>K*ときで,すべてのxについて,0となります.したがって,このときにフィッシャー情報行列の対角成分も0となり, 実際計算すると,

補題に代入して (証明の概要終了) <フィッシャー情報行列> 個 個 この式が従います.このことから図で表せば,全パラメータ数である,この式のなかで,フィッシャー情報行列の対角成分の非零の個数がこの個数以下となるので,補題に代入して,結果が得られます. (証明の概要終了)

直観的には・・・ 結果は・・・ 学習するパラメータの冗長な部分をはじめ,結合パラメータが0となる分だけ,自由エネルギーが小さくなる. 学習アルゴリズムの解の最小解と局所解の判定基準 以上で証明したことを,直観的に述べれば,学習するパラメータの冗長な部分をはじめとして,結合パラメータが0となる分だけ,自由エネルギーが小さくなることを言っています.また,得られた自由エネルギーの漸近的挙動の結果は,学習アルゴリズムの解の収束先について最小解と局所解を判定する基準の基礎や,特異モデルにおいて提案されているモデル選択規準SingICは自由エネルギーの漸近形の情報を利用していますが,そのための基礎につながります. モデル選択規準SingIC[Yamazaki et al]は,自由エネルギーの漸近形の情報を利用している.

結論 今後の課題 一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を与えた. 平均場近似自由エネルギーの下界の導出 導出した自由エネルギーと実験との比較 最後に,本発表では,一般のボルツマンマシンにおいて,平均場近似自由エネルギーの漸近形の上界を与えました. 今後の課題としては,平均場近似自由エネルギーの下界の導出や導出した自由エネルギーと実験との比較があります.

Sing IC [Yamazaki. et al] 平均場近似アルゴリズム 真の 隠れ素子 の個数 + ベイズ学習 学習サンプル数 観測可能量 横軸を学習サンプル数,学習させるデータ数とし,縦軸を自由エネルギー,平均場近似自由エネルギーであったり,ベイズ自由エネルギーとします.このとき,学習モデルや,学習アルゴリズムに依存しますが,漸近論適用可能領域が存在し,その上で漸近的にこのような振る舞いを持つことが知られています.このとき,λ1m1λ2m2のどちらでもいいのですが,総称して,λ,mを考えると,λ、mは一般的に,学習モデルの隠れ素子の個数Kと,観測できない,背後にある真の隠れ素子の個数K^*の関数であることが知られています.他方で,このラムダとmに依存する何らかの観測可能量yが得られたとき,ラムダとmを代入して,yがわかっていることから,方程式を解くことでき,観測できない真のK^*を推測することができます.この方程式を解くためには,関数hラムダhmが既知であることが必要であることから,関数hラムダ,hmを理論的に導出することは,漸近論を数理的に解明することは,SingICの立場からも重要であることがわかります. 非漸近  領域 漸近論 適用可能領域 *観測できない を推測 学習モデル 学習アルゴリズム に依存 関数 を導出するのは重要

学習における平均場近似(2) 本発表で考察 平均場近似自由エネルギー について ただし, 以上から 平均場近似 自由エネルギー またこの平均場近似自由エネルギーF bar (n)について以下の上界を持ちます.ここでこれが平均場近似自由エネルギーであったわけですが,サンプルの平均化と最小化の演算子の順番を考慮し,Jensenの不等式を用いることで,平均操作はここまで入るができます.Hntildeの平均を計算すると,Htildeとなり,ただしここで,Htildeはカルバック情報量と,事前分布によって書けるものです.以上から今までのことをまとめますと,ベイズ自由エネルギーと平均場近似自由エネルギーと,今回導出したF(n)tilde 本発表では,このF(n)tildeについて考察し,平均場近似自由エネルギーの上界を導出します. 以上から 平均場近似 自由エネルギー ベイズ自由エネルギー 本発表で考察

理論的な研究の意義 平均場近似アルゴリズムと(ベイズ学習,統計的正則モデル)との漸近論の比較. 平均場近似アルゴリズムにおいて,局所解 or最小解の判定基準. 特異モデルにおけるモデル選択,   SingICへの基礎 近年,この平均場近似アルゴリズムについて,漸近論の理論的な研究がされています.漸近論の理論的な研究によって,平均場近似アルゴリズムとベイズ学習,統計的正則モデルそれぞれとの漸近論の比較を可能にし,平均場近似の近似精度について言及することができます.次に,実際に,平均場近似アルゴリズムを走らせたときの,局所解に陥ったのか,または,最小解に到達したのか、の判定基準を与えることができます.このことについて後に数学的な説明を与えます.さらに,漸近論の理論的な研究によって,特異モデルにおけるモデル選択である,Sing ICへの基礎につながります.先にSing ICについて,説明したいと思います.

学習における平均場近似(1) 試験分布 に対して エントロピー項 エネルギー項 として特に に制限したとき を平均場近似と呼ぶ 式右辺を最小にする を平均場近似と呼ぶ パラメータ上の任意の試験分布f(\theta)を用いることで,ベイズ自由エネルギーF(n)についてこの式に従う不等式が成立します.ここで統計物理学との対応では,第一項はエントロピー項であり,第二項はエネルギー項と言えます.f(\theta)は,近似させる事後分布に対応し,f(\theta)が先ほどのボルツマン分布,等しくベイズ事後分布のとき,等号が成立します.今f(\theta)として,特に,パラメータごとにすべて独立な関数に制限するとき,(これは,計算が容易となる分布族に限定していることに対応しています)このとき(1)式右辺を最小にする(これは,もともとのベイズ事後分布と最も近くなるように試験分布を選ぶことに対応します)このとき,近似事後分布f(\theta)を平均場近似と呼びます.これに対応して,そのときの自由エネルギーの値を平均場近似自由エネルギーと呼びます.つまり,f bar (\theta)を(1)式右辺に代入し,任意の分布f bar ( \theta )を動く中で, f bar (\theta)に関して最小となる値を平均場近似自由エネルギーと呼びます.この平均場近似のf bar (\theta)を実現するのに,実際の平均場近似アルゴリズムでは,この自由エネルギーの部分を最小にさせる関数f(\theta)を選ぶのに,f bar (\theta)を変関数とする汎関数の変分をとって=0となるようにf(\theta)を選んでいます.したがって実現されるのは常に,停留解どまりです.そこで,停留解ではなく,最小値について,この平均場近似自由エネルギーの値を導出することによって,そのアルゴリズムが局所解に陥ったのかまたは最小解であるのかの判定基準を与えます. 平均場近似アルゴリズム を平均場近似自由エネルギーと呼ぶ。 *局所解 or 最小解 の判定基準

ベイズ汎化誤差 :ベイズ汎化誤差 真の分布 代数幾何学的手法 [Watanabe] への近さ ベイズ予測分布と、真の分布とのカルバック距離 つまり,真の分布q(x)への近さを下向きとし,横軸を学習データ数nとしたとき,学習データ数nが大きければ大きいほど,予測分布は真の分布に近づくことが期待されます.実際,ベイズ予測分布と真の分布との関数の距離として,カルバック距離を採用した時,この中身の式で定義されますが,ここでベイズ予測分布が,学習する学習データに直に依存することから,学習データによるサンプル平均を取って普遍的な量にしています.この量は,代数幾何学手法を用いることにより,nが大きい時漸近的にこのオーダーで真の分布に近づくことが示されています.このG(n)はベイズ汎化誤差と呼ばれ,重要な量であると言えると思います. :ベイズ汎化誤差