ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史
3.5.1 情報量基準 現象を説明する複数のモデルがあった場合、どのモデルがよいか/選択すべきか? → 情報量基準を基に選択 (1) 期待対数尤度からのアプローチ 例:AIC、TIC、CAIC (2) 予測分布からのベイズアプローチ 例:BIC、MDL、ABIC
最適なモデルとは → AICを最小にするモデル (尤度大、パラメータ数少) 3.5.1 情報量基準: 最大対数尤度利用 (1) ■ AIC (Akaike information criterion): データとの適合度 (モデルのあてはめ誤差) パラメータ数多のペナルティ (モデルの複雑さ) (3.8) ※2は対数尤度比検定との兼ね合いから 最適なモデルとは → AICを最小にするモデル (尤度大、パラメータ数少)
※ J=Rのとき tr{J-1R}=km となりAICに一致 3.5.1 情報量基準: 最大対数尤度利用 (2) ■ TIC (Takeuchi information criterion): パラメータ数多のペナルティをAICより精密に評価 (3.9) ※ J=Rのとき tr{J-1R}=km となりAICに一致
-問題点- AIC、TICは漸近的一致性(データ数N→∞で推定値 m/θ→真の値 m*/θ*)が欠如 3.5.1 情報量基準: 最大対数尤度利用 (3) -問題点- AIC、TICは漸近的一致性(データ数N→∞で推定値 m/θ→真の値 m*/θ*)が欠如 ■ CAIC (consistent Akaike information criterion): (3.10) パラメータ数多のペナルティはデータ数Nに依存
モデルの集合(ありうるモデルの集まり)を考える モデルmに対し、(モデルの集合上の)事前分布p(m)が与えられた場合の事後分布 3.5.1 情報量基準: ベイズ的アプローチ (1) ーベイズ的アプローチによる情報量基準ー 最大対数尤度を介さない モデルの集合(ありうるモデルの集まり)を考える モデルmに対し、(モデルの集合上の)事前分布p(m)が与えられた場合の事後分布 パラメータの重み(事前分布) 予測分布: → -E[log p(m|X)]最小のモデルを選択
3.5.1 情報量基準: ベイズ的アプローチ (2) ■ BIC (Bayesian information criterion): (3.11) 情報理論的アプローチからのMDL (minimum description length)基準に一致 [事前分布(条件付確率)の積極的解釈] 漸近的一致性をもつ
3.5.2 数値例 (1) 癌転移 1 血清中のカルシ ウム量の増加 2 3 脳腫瘍 4 5 昏睡状態 激しい頭痛 図3.1 ベイジアンネットワークの因果モデル例
図3.1+表3.1でN'ijk=1(事前分布に一様分布)を仮定 3.5.2 数値例 (2) 図3.1+表3.1でN'ijk=1(事前分布に一様分布)を仮定
3.5.3 ベイジアンネットワークの予測分布 (1) モデルの予測分布が解析的に求まれば、高精度のモデルを選択可能な情報量基準を作成することができる ■ 事前分布p(Θ|Bs)が一様分布であるとしたときの予測分布 (3.12) (3.13)
■ 事前分布p(Θ|Bs)がディレクレ分布であるとしたときの予測分布 3.5.3 ベイジアンネットワークの予測分布 (2) ■ 事前分布p(Θ|Bs)がディレクレ分布であるとしたときの予測分布 (3.14) → 式(3.14) = 式(3.13)
図3.1+表3.1でN'ijk=1(事前分布に一様分布)を仮定した場合の予測分布 3.5.4 数値例 図3.1+表3.1でN'ijk=1(事前分布に一様分布)を仮定した場合の予測分布 データ数が少ない場合、観測されない変数のパターンが出現(Nijk=0)し、計算が困難な場合がある