「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習 報告者 佐々木 稔 2003年8月1日 第3章 複雑な学習モデル 3.2 競合学習 3.2.1 確率競合モデル 3.2.2 混合正規モデルの推論 3.2.3 混合分布の最急降下法 3.2.4 確率競合モデルとEMアルゴリズム 3.2.5 EMアルゴリズム 3.2.6 ノンパラメトリック学習 3.2.7 自己組織化写像
一般的なモデルでのEMアルゴリズム 確率モデル p(x, u | w) 競合的な確率変数 U は観測されない 観測データ x1, x2, ・・・, xn 最適な分布となるパラメータを学習する
EMアルゴリズムの概略図 山の形(分散)は同じで中心(分布の平均)が最適な場所に移動 学習データ 中心の初期値 から に 中心移動が繰り 返される
w を固定したとき、u の関数 f(u) の平均 損失関数 損失関数を最小にするパラメータを見つける w を固定したとき、u の関数 f(u) の平均 u は 0 と 1 だけとるので、
EMアルゴリズム w1 を初期化 w1 を固定して G(w1, w2) が 最小となるように w2 を定める。(Eステップ)
w2 における損失関数
右辺第2項はカルバックの擬距離 G*(w1, w2) は、 「w2 が Ln(w2) を最小にし、かつ w1=w2」 のとき最小で、最小値は「nLn(w2) の最小値」と等しい
w1 を固定し、G(w1, w2) を最小にする w2 を見つける 最小値 w2 には関係ない定数 G*(w1, w2) の値は減少する
w1 に w2 を代入する w1、w2 が同じ値なので、擬距離は 0 G*(w1, w2) の値は、最適化したい 損失関数 nLn(w2) に等しくなる Ln(w2) を小さくするパラメータ w2 が見つかる
[注27] 局所解に落ちた場合 その局所解に収束してしまうかどうか 繰り返しで局所解から脱出するのかどうか 詳しい動作はまだ明らかになっていない 「だいたいよい推定量」を探すことも多い 理論的にも実用的にも重要な問題
確率競合モデルのEMアルゴリズム パラメータ w : 確率変数 X, U ここで、パラメータ bh での確率分布 q(x | bh)
固定したパラメータ w1 = w = (ah, bh), bh = (ξh, σh) w に固定したときの uh の平均 Ei(h) u の平均値 Ei(h) をすべての xi に関して和を求める
Gn(w, w) が最小となる w を求める (係数) (正規分布の平均) (正規分布の分散)
[注28] 与えられたデータをいくつかのクラスタに分類 K-means 法 データ {xi ∈ RM; i = 1, 2, ・・・, n} データを H 個のクラスタに分類する クラスタ Ch の重心 ξh データ xi を距離 || xi – ξh|| が最小になる クラスタ Ch に分類し、重心 ξh を再計算 クラスタの重心 {ξh} を繰返し求めて最適化
[注28]の続き EMアルゴリズムを使う場合の注意 クラスタの大きさに偏りがある場合、 偏りを緩和させる必要 クラスタの個数 H を最適化する際、 情報量規準を使うことはできない 損失関数の2次近似をすることができない 比較的大きめな H を決めて、EMアルゴリズムを 少ない回数で停止させるとクラスタの偏りが緩和
例46 確率競合型モデルと3層パーセプトロンの比較 10人が描いた 8×8 ピクセルの ○、△、× の 画像 600 例を学習 同じく10人が描いた 8×8 ピクセルの 画像 600 例をテストに用いる 確率競合型モデル K-means法で初期化したパラメータを最急降下法で学習 3層パーセプトロン 誤差逆伝播法で学習
中間ユニット数 20 までの場合の認識率 確率競合型モデル 96~98.5% 3層パーセプトロン 98~98.5% 中間ユニット数 20 までの場合の認識率 確率競合型モデル 98.5~99% 3層パーセプトロン 98~98.5%