P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
あらまし オンライン学習において,教師機械と学習機械の構造の相違,雑音の影響などにより汎化誤差がゼロにならないモデルでは,学習機械が教師機械のまわりを動き続ける場合がある.この動き続ける学習機械を教師とするような新たな生徒を考え,その汎化能力を統計力学的手法で解析した.真の教師,動く教師,生徒のいずれもがノイズ有りの線形なパーセプトロンであるモデルについて汎化誤差を解析的に求めた結果,生徒が動く教師の入出力だけを例題として使用するにもかかわらず,動く教師よりも生徒の方が賢くなりうることが明らかになった.
背 景 (1/2) バッチ学習 オンライン学習 与えられたいくつかの例題を繰り返し使用 すべての例題に正しく答えられる 長い時間が必要 背 景 (1/2) バッチ学習 与えられたいくつかの例題を繰り返し使用 すべての例題に正しく答えられる 長い時間が必要 例題を蓄えておくメモリが必要 オンライン学習 一度使った例題は捨ててしまう 過去の例題に必ず正しく答えられるとは限らない 例題を蓄えておくメモリが不要 時間的に変化する教師にも追随
背 景 (2/2) 目 的 真の教師のまわりを動き続ける学習機械を教師とするような新たな生徒を考え,この生徒の汎化能力を理論的に調べる. 背 景 (2/2) 教師機械と生徒機械の構造の違い等により汎化誤差がゼロにならない場合がある→学習不能な場合 (例) 教師がコミティマシンで生徒が単純パーセプトロン 教師が非単調パーセプトロンで生徒が単純パーセプトロン 教師や生徒にノイズがのっている 学習不能な場合には生徒が教師のまわりを動き続ける場合がある 目 的 真の教師のまわりを動き続ける学習機械を教師とするような新たな生徒を考え,この生徒の汎化能力を理論的に調べる.
モデル (1/3) A B J BはAの入出力を学習 JはBの入出力を学習 Jは直接にはAの入出力は見えない モデル (1/3) 真の教師 A 動く教師 生徒 B J BはAの入出力を学習 JはBの入出力を学習 Jは直接にはAの入出力は見えない A,B,Jはノイズがのった線形パーセプトロン
モデル (2/3) 動く教師の長さ 生徒の長さ 真の教師の出力 動く教師の出力 生徒の出力 入力: 真の教師: 動く教師: 生徒: モデル (2/3) 真の教師の出力 動く教師の出力 生徒の出力 入力: 真の教師: 動く教師: 生徒: N→∞(熱力学的極限) 動く教師の長さ 生徒の長さ
モデル (3/3) 二乗誤差 勾配法 g f
汎化誤差 統計的学習理論の目的のひとつは汎化誤差を理論的に計算することである 汎化誤差=未知の入力に関する誤差の平均 多重ガウス分布 誤差
巨視的変数のダイナミクスを記述する決定論的 な連立微分方程式を熱力学的極限における 自己平均性に基づいて導出する方法 1.解析を容易にするため補助的な巨視的変数を導入 2. Bm+1 = Bm + gm xm の両辺にAをかける 3. NrBm+1 = NrBm + gmym NrBm+2 = NrBm+1 + gm+1ym+1 Ndt個 + NrBm+Ndt = NrBm+Ndt-1 + gm+Ndt-1ym+Ndt-1 NrBm+Ndt = NrBm + Ndt <gy> N(rB+drB) = NrB + Ndt <gy> drB / dt = <gy>
巨視的変数のダイナミクスを記述する 決定論的連立微分方程式
巨視的変数の解析解
汎化誤差のダイナミクス ηJ=1.2 ηJ=0.3 教師より生徒が賢くなる
Rとlのダイナミクス ηJ=1.2 ηJ=0.3 R<0 (生徒がいったん出遅れる) 生徒が教師より内側に入る
定常解析 (1/2) η→2で汎化誤差が発散 ηが小さいとき生徒は 教師より賢くなる
定常解析 (2/2) ηが小さいとき生徒は教師より真の教師に近くなる η→0でR→1 η=2で 相転移 η→2で長さが発散 η→0で長さ1
ηJが2に近いとき ηJ を小さくすると生徒が教師より内側に入る ηJ → 0で生徒は長さ・方向とも真の教師と完全に一致
まとめ 真の教師,動く教師,生徒がノイズ有りの線形なパーセプトロンである場合を考え,統計力学的手法により汎化誤差を解析的に求めた. 生徒が動く教師の入出力だけを使用するにもかかわらず,生徒が動く教師よりも賢くなりうるという興味深い結果が明らかになった.