「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習 報告者 佐々木 稔 2003年5月21日 第2章 学習と統計的推測 2.1 データと学習 2.1.1 学習とは 2.1.2 同時確率密度関数の学習 2.1.3 学習法の意味 2.1.4 学習の尺度
学習とは 入力 出力 組(X, Y) が同時密度関数 q(x, y) をもつ確率変数 独立な n 回の試行での n 組の実現値 (データ、学習データ、サンプル)
学習データ X, Y に関する情報の獲得 獲得した情報からの予測 推定対象 真の密度関数 q(x, y) 条件付き密度関数 q(y | x) 回帰関数 y = E(Y | x) ☆目的によって推定対象も変化
例27 学習を利用した応用例 画像や音声の認識を行うシステム 時系列予測システム 信号の圧縮・復元を行うシステム 人間の言語獲得 広い意味で学習 生物の進化
同時確率密度関数の学習 p(x, y | w) : 同時確率密度関数 w : パラメータ(母数) データを発生している確率変数の (真の)密度関数 q(x, y) を推定 p(x, y | w) : 学習モデルの密度関数 p(x, y | w0) = q(x, y) となるパラメータ w0 が存在 「学習モデルは真の密度関数を含む」
ここでは、両者は同じものとして p(x, y | w) 確率変数 条件付き確率 p(x, y | w) 確率変数ではない p(x, y : w) または、 pw(x, y) ここでは、両者は同じものとして p(x, y | w)
実問題では… 密度関数は複雑なことが多く、 学習モデルに含まれる保証はない アルゴリズムの考案時やその特徴解析時 モデルが真の密度関数を含むと仮定 真の密度関数を含む場合のモデルを 明らかにし、一般的な場合を考察 学習データは有限個 ある程度の解像度までの密度関数 しか分からない
学習データ q(x, y) 情報源 p(x, y | w) 学習モデル p(x, y | w0) 学習結果 似てる?
最尤推定法 損失関数 損失関数を最小にする (最尤推定量) を q(x, y) の推定密度関数とする
事後確率最大化法 p(w) : パラメータ w に関する密度関数 損失関数 損失関数を最小にする を q(x, y) の推定密度関数とする (事後確率最大化推定量) を q(x, y) の推定密度関数とする
ベイズ法 p(w) : パラメータ w に関する密度関数 損失関数 Ln(w) をエネルギー関数とするギブス分布 Zn : ρn(w) がパラメータ集合 Rd 上の 確率密度関数となる正規化定数 β : 逆温度と呼ばれる正の定数
pn(x,y) を q(x, y) の推定密度関数とする ギブス分布の平均で作られる密度関数 pn(x,y) を q(x, y) の推定密度関数とする 固定したパラメータ w 定めない パラメータ w も確率変数として扱う パラメータ w の密度関数 p(w) (事前分布)が必要 学習の目的により設定 (モデル選択、予測精度最大化)
{xi; i = 1, 2, ・・・, n} 例28 R1 上の確率変数から独立な学習データ モデル(平均 a、分散 1 の正規分布) 3つの推定方法がどのくらい 異なる結果となるか比較
最尤推定法 パラメータと関係のない項を省略して、 a に関して下に凸の2次関数なので これより、最尤推定量は
a の事前密度関数 p(a) 事後確率最大化法より 事後確率最大化推定量
ベイズ法の場合 a に関係しない項をまとめて
モデルの尤度を最大化するパラメータを選択 学習法の意味 最尤推定法 データ (xn, yn) がモデル p(x, y | w) から得られる 確率密度(モデルの尤度) モデルの尤度を最大化するパラメータを選択
事後確率最大化法 X, Y, W : 確率変数 同時確率密度関数 推定するモデルの密度関数 このモデルが真の密度関数であれば、 q(x, y) = p(x, y)
(xn, yn) が得られた条件の下での W の密度関数 P(w) : 事前確率密度関数 P(w | xn, yn) : 事後確率密度関数 P(w | xn, yn) を最大にする w を求める
ベイズ法 仮定は事後確率最大化法と同じ β= 1 のとき、 (xn, yn) が得られた条件下 (X, Y) の密度関数 P(x, y | xn, yn) が求める確率密度関数
学習の尺度 これらの方法でなぜ学習が可能になるのか カルバックの擬距離による最適化 最尤推定、事後確率最大化の場合 データ数 n が十分大きいとき、
損失関数の最小化 ≒ K(q || pw) の最小化 ベイズ法の場合 データ数 n が十分大きいとき、最尤推定と同様に、 p(x, y | w) が q(x, y) に近くなる w の近くに 集中する密度関数となる