確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研 確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
背 景 確率的フィルタリング(Murata, 2005) アンサンブル学習 背 景 アンサンブル学習 精度の低いルールや学習機械を組み合わせて精度の高い予測や分類を行う 生徒集団の多様性を維持することが重要 確率的フィルタリング(Murata, 2005) Schapireのboostingのアルゴリズム(1990)をオンライン学習に適した形に修正 生徒集団の多様性を維持するためにわざと間違った例題(負例)も用いる点が特徴的
目 的 オンライン学習の枠組みで統計力学的手法を用いた解析を行い,確率的フィルタリングの効果を理論的に明らかにする
モデル(1/2) Teacher Students B J1 J2 J3 教師は非単調な出力特性 生徒集団の出力は3人の多数決で決定
モデル(2/2) 入力: 教師: 生徒の初期値: N→∞ (熱力学的極限) 3つの巨視的変数 生徒の長さ 方向余弦
確率的フィルタリング(Murata, 2005) ←負例
■確率的フィルタリング(J1の場合) J2とJ3 の出力が異なる場合 J2とJ3 の出力が同じ場合 正例 負例 (正例を使う確率)
統計的学習理論の目的のひとつは汎化誤差を理論的に計算することである まず誤差 を定義 汎化誤差 多重ガウス分布
3個の巨視的変数 l,R,q のダイナミクスを 記述する連立微分方程式 (解析を容易にするため導入した補助的巨視的変数)
ヘブ学習
汎化誤差の計算手順 微分方程式を数値的に解いてl,R,qのダイナミクスを計算.その際,サンプル平均<・>はメトロポリス法で算出.(ただし,b=1.0の場合については微分方程式が解析的に解ける) 得られたR,qを使って数値積分を実行することにより汎化誤差を計算.数値積分はメトロポリス法で実行
統計的学習理論の目的のひとつは汎化誤差を理論的に計算することである まず誤差 を定義 汎化誤差 多重ガウス分布
汎化誤差の計算手順 微分方程式を数値的に解いてl,R,qのダイナミクスを計算.その際,サンプル平均<・>はメトロポリス法で算出.(ただし,b=1.0の場合については微分方程式が解析的に解ける) 得られたR,qを使って数値積分を実行することにより汎化誤差を計算.数値積分はメトロポリス法で実行
汎化誤差のダイナミクス (教師のしきい値a=0.3) -0.3 0.3
Rとqの関係 t=0
J1 J2 J3 J2 J1 B J3 B b=1.0 b=0.52 一人のεg=0.239 一人のεg=0.231 三人のεg=0.184
b<0.5の計算機実験で 生徒の対称性が破れる理由 J1 J2 J3
まとめ Murataの確率的フィルタリングの効果をオンライン学習の枠組みで統計力学的手法を用いて解析した. 教師が非単調で,3個の生徒がヘブ則を用いるモデルについて調べた結果,確率的フィルタリングにより生徒集団の多様性が維持され,汎化能力が大きく改善されることが明らかになった. 次元Nが有限の場合には負例を用いる確率が0.5より大きいと生徒の対称性の破れが生じることがわかった.
Inoue, Nishimori and Kabashima, J.Phys.A, (1997)