「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習
報告者佐々木　稔 2003年5月21日第2章学習と統計的推測　2.1 データと学習　学習とは　同時確率密度関数の学習　学習法の意味　学習の尺度

学習とは入力出力組(X, Y) が同時密度関数 q(x, y) をもつ確率変数独立な n 回の試行での n 組の実現値
（データ、学習データ、サンプル）

学習データ X, Y に関する情報の獲得獲得した情報からの予測推定対象真の密度関数 q(x, y) 条件付き密度関数 q(y | x) 回帰関数 y = E(Y | x) ☆目的によって推定対象も変化

例27 学習を利用した応用例画像や音声の認識を行うシステム時系列予測システム信号の圧縮・復元を行うシステム人間の言語獲得
広い意味で学習生物の進化

同時確率密度関数の学習 p(x, y | w) : 同時確率密度関数 w : パラメータ（母数）データを発生している確率変数の
（真の）密度関数 q(x, y) を推定 p(x, y | w) : 学習モデルの密度関数 p(x, y | w0) = q(x, y) となるパラメータ w0 が存在「学習モデルは真の密度関数を含む」

ここでは、両者は同じものとして p(x, y | w)
確率変数条件付き確率 p(x, y | w) 確率変数ではない p(x, y : w) または、 pw(x, y) ここでは、両者は同じものとして p(x, y | w)

実問題では… 密度関数は複雑なことが多く、学習モデルに含まれる保証はないアルゴリズムの考案時やその特徴解析時モデルが真の密度関数を含むと仮定真の密度関数を含む場合のモデルを明らかにし、一般的な場合を考察学習データは有限個ある程度の解像度までの密度関数しか分からない

学習データ q(x, y) 情報源 p(x, y | w) 学習モデル p(x, y | w0) 学習結果似てる？

最尤推定法損失関数損失関数を最小にする（最尤推定量）を q(x, y) の推定密度関数とする

事後確率最大化法 p(w) : パラメータ w に関する密度関数損失関数損失関数を最小にするを q(x, y) の推定密度関数とする
（事後確率最大化推定量）を q(x, y) の推定密度関数とする

ベイズ法 p(w) : パラメータ w に関する密度関数損失関数 Ln(w) をエネルギー関数とするギブス分布
Zn : ρn(w) がパラメータ集合 Rd 上の確率密度関数となる正規化定数 β : 逆温度と呼ばれる正の定数

pn(x,y) を q(x, y) の推定密度関数とする
ギブス分布の平均で作られる密度関数 pn(x,y) を q(x, y) の推定密度関数とする固定したパラメータ w 定めないパラメータ w も確率変数として扱うパラメータ w の密度関数 p(w) （事前分布）が必要学習の目的により設定（モデル選択、予測精度最大化）

{xi; i = 1, 2, ･･･, n} 例２８ R1 上の確率変数から独立な学習データモデル（平均 a、分散 1 の正規分布）
3つの推定方法がどのくらい異なる結果となるか比較

最尤推定法パラメータと関係のない項を省略して、 a に関して下に凸の2次関数なのでこれより、最尤推定量は

a の事前密度関数 p(a) 事後確率最大化法より事後確率最大化推定量

ベイズ法の場合 a に関係しない項をまとめて

モデルの尤度を最大化するパラメータを選択
学習法の意味最尤推定法データ (xn, yn) がモデル p(x, y | w) から得られる確率密度（モデルの尤度）モデルの尤度を最大化するパラメータを選択

事後確率最大化法 X, Y, W : 確率変数同時確率密度関数推定するモデルの密度関数このモデルが真の密度関数であれば、
q(x, y) = p(x, y)

(xn, yn) が得られた条件の下での W の密度関数
P(w) : 事前確率密度関数 P(w | xn, yn) : 事後確率密度関数 P(w | xn, yn) を最大にする w を求める

ベイズ法仮定は事後確率最大化法と同じ β= 1 のとき、 (xn, yn) が得られた条件下 (X, Y) の密度関数
P(x, y | xn, yn) が求める確率密度関数

学習の尺度これらの方法でなぜ学習が可能になるのかカルバックの擬距離による最適化最尤推定、事後確率最大化の場合
データ数 n が十分大きいとき、

損失関数の最小化 ≒ K(q || pw) の最小化
ベイズ法の場合データ数 n が十分大きいとき、最尤推定と同様に、 p(x, y | w) が q(x, y) に近くなる w の近くに集中する密度関数となる

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

Similar presentations

Presentation on theme: "「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習

Similar presentations

Presentation on theme: "「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習"— Presentation transcript:

Similar presentations

About project

フィードバック

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

Presentation on theme: "「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習"— Presentation transcript: