Presentation is loading. Please wait.

Presentation is loading. Please wait.

「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習

Similar presentations


Presentation on theme: "「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習"— Presentation transcript:

1 「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
報告者 佐々木 稔 2003年5月21日 第2章 学習と統計的推測  2.1 データと学習   学習とは   同時確率密度関数の学習   学習法の意味   学習の尺度

2 学習とは 入力 出力 組(X, Y) が同時密度関数 q(x, y) をもつ確率変数 独立な n 回の試行での n 組の実現値
(データ、学習データ、サンプル)

3 学習データ X, Y に関する情報の獲得 獲得した情報からの予測 推定対象 真の密度関数 q(x, y) 条件付き密度関数 q(y | x) 回帰関数 y = E(Y | x) ☆目的によって推定対象も変化

4 例27 学習を利用した応用例 画像や音声の認識を行うシステム 時系列予測システム 信号の圧縮・復元を行うシステム 人間の言語獲得
広い意味で学習 生物の進化

5 同時確率密度関数の学習 p(x, y | w) : 同時確率密度関数 w : パラメータ(母数) データを発生している確率変数の
(真の)密度関数 q(x, y) を推定 p(x, y | w) : 学習モデルの密度関数 p(x, y | w0) = q(x, y) となるパラメータ w0 が存在 「学習モデルは真の密度関数を含む」

6 ここでは、両者は同じものとして p(x, y | w)
確率変数 条件付き確率 p(x, y | w) 確率変数ではない p(x, y : w) または、 pw(x, y) ここでは、両者は同じものとして p(x, y | w)

7 実問題では… 密度関数は複雑なことが多く、 学習モデルに含まれる保証はない アルゴリズムの考案時やその特徴解析時 モデルが真の密度関数を含むと仮定 真の密度関数を含む場合のモデルを 明らかにし、一般的な場合を考察 学習データは有限個 ある程度の解像度までの密度関数 しか分からない

8 学習データ q(x, y) 情報源 p(x, y | w) 学習モデル p(x, y | w0) 学習結果 似てる?

9 最尤推定法 損失関数 損失関数を最小にする (最尤推定量) を q(x, y) の推定密度関数とする

10 事後確率最大化法 p(w) : パラメータ w に関する密度関数 損失関数 損失関数を最小にする を q(x, y) の推定密度関数とする
(事後確率最大化推定量) を q(x, y) の推定密度関数とする

11 ベイズ法 p(w) : パラメータ w に関する密度関数 損失関数 Ln(w) をエネルギー関数とするギブス分布
Zn : ρn(w) がパラメータ集合 Rd 上の 確率密度関数となる正規化定数 β : 逆温度と呼ばれる正の定数

12 pn(x,y) を q(x, y) の推定密度関数とする
ギブス分布の平均で作られる密度関数 pn(x,y) を q(x, y) の推定密度関数とする 固定したパラメータ w 定めない パラメータ w も確率変数として扱う パラメータ w の密度関数 p(w) (事前分布)が必要 学習の目的により設定 (モデル選択、予測精度最大化)

13 {xi; i = 1, 2, ・・・, n} 例28 R1 上の確率変数から独立な学習データ モデル(平均 a、分散 1 の正規分布)
3つの推定方法がどのくらい 異なる結果となるか比較

14 最尤推定法 パラメータと関係のない項を省略して、 a に関して下に凸の2次関数なので これより、最尤推定量は

15 a の事前密度関数 p(a) 事後確率最大化法より 事後確率最大化推定量

16 ベイズ法の場合 a に関係しない項をまとめて

17 モデルの尤度を最大化するパラメータを選択
学習法の意味 最尤推定法 データ (xn, yn) がモデル p(x, y | w) から得られる 確率密度(モデルの尤度) モデルの尤度を最大化するパラメータを選択

18 事後確率最大化法 X, Y, W : 確率変数 同時確率密度関数 推定するモデルの密度関数 このモデルが真の密度関数であれば、
q(x, y) = p(x, y)

19 (xn, yn) が得られた条件の下での W の密度関数
P(w) : 事前確率密度関数 P(w | xn, yn) : 事後確率密度関数 P(w | xn, yn) を最大にする w を求める

20 ベイズ法 仮定は事後確率最大化法と同じ β= 1 のとき、 (xn, yn) が得られた条件下 (X, Y) の密度関数
P(x, y | xn, yn) が求める確率密度関数

21 学習の尺度 これらの方法でなぜ学習が可能になるのか カルバックの擬距離による最適化 最尤推定、事後確率最大化の場合
データ数 n が十分大きいとき、

22 損失関数の最小化 ≒ K(q || pw) の最小化
ベイズ法の場合 データ数 n が十分大きいとき、最尤推定と同様に、 p(x, y | w) が q(x, y) に近くなる w の近くに 集中する密度関数となる


Download ppt "「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習"

Similar presentations


Ads by Google