Presentation is loading. Please wait.

Presentation is loading. Please wait.

3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化

Similar presentations


Presentation on theme: "3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化"— Presentation transcript:

1 3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化
正則化項のBayes的解釈 線形識別 生成モデルを利用した識別 2乗誤差最小化の線形識別の問題点 by 中川裕志(東京大学)

2 線形モデル y=w1x+w0 y データ の分布状況から線形回帰式を求める w0 x

3 線形モデル 入力ベクトル:x から出力:y を得る関数がxの線形関数(wとxの内積) 一般に観測データはノイズを含んでいる。つまり
得られたN個の観測データ の組(y,X)に対して最適なwを推定する。 そこで、yと       の2乗誤差を最小化するようにwを選ぶ。

4 2乗誤差の最小化 正規方程式 と呼ばれる基本式

5 補遺:正規方程式の導出

6 正規方程式を解く簡単な例

7 用語:誤差、損失、目的関数 線形モデルで最小化したかったのは2乗誤差 真のモデルにおける値(2乗誤差におけるy)と
 予測値(2乗誤差におけるXw)の差異を表す関数を損失関数(単に損失)あるいはLossと呼び、Lで表すことが多い。 上記のような最適化問題において最小化(一般的には最適化)したい関数を目的関数と呼ぶ。 線形モデルの2乗誤差最小化では  2乗誤差=損失=目的関数

8 線形モデルの一般化 基底関数 重み N個の観測データ(y,x)に対して
基底関数の例

9 {x(ベクトル),y}が観測データ(training data) w,βを決定する、即ち (p(y|x,w,β)を最大化)
正規方程式を求める別の方法 {x(ベクトル),y}が観測データ(training data) w,βを決定する、即ち (p(y|x,w,β)を最大化) N組のi.i.d.観測データすなわち教師データがあるとする。 1.2.5 Curve fitting re-visitedと酷似 すると次のページのようにp(y|x,w,β)が書ける。

10 log p(y|w,X,β)をw,βについて最大化したい。まず、wについて最大化する。
1.2.5 Curve fitting re-visitedと酷似

11

12 バイアスw0の部分だけに注目してみると 対数近似関数から最適なw0を によって求めると yの平均 基底関数の学習データの平均のw重み付き和

13 log p(y|w,X,β)をβに対して最大化 ただし、wは最適化されたものを用いる
精度βを求める。 log p(y|w,X,β)をβに対して最大化 ただし、wは最適化されたものを用いる yの予測値と観測された値の差の2乗の平均

14 幾何学的イメージ 新規データ:y φ2 (x) yからSに最も近い点(垂直に落としている) φ1(x)

15 計算の効率化 大きなdata setsに対して の右辺第1項の逆行列計算量が問題 特にデータの次元Nに対してO(N3)なので高次元だと大変
  の右辺第1項の逆行列計算量が問題 特にデータの次元Nに対してO(N3)なので高次元だと大変 定石は、コレスキー分解O(N2)して上/下半3角行列で表現される連立方程式を2回解く L(w)を最小化するようなwの数値計算 目的関数(すなわち損失L(w))の減る方向へ進む( ーgradientをwに加える)方法をgradient descent は呼ばれ、最適化における基本的数値計算法である。

16 正則化項の導入 モデルを複雑にするほど学習データにはよく合致するが、学習データ以外のデータには弱いという過学習を起こす。
過学習を抑えるために、損失関数に正則化項を導入。 正則化項にはモデルをできるだけ簡単化する方向に作用する。 データが高次元の場合には次元削減効果あり。 Section 1.1

17 一般的な正則化項 q=2のときがL2正則化 q=1のときはLASSO: 1ノルムによる正則化なので L1正則化と呼ぶ
Least Absolute Shrinkage and Selection Operator λが十分大きいと、wjのいくつかは0になりやすい  →  スパースなモデル q=0のときはL0正則化。解きにくい問題(上記2つと違い凸ではない) Figure 3.3

18 のもとで、L(w)を最小化する、と考える。
制約 のもとで、L(w)を最小化する、と考える。 Figure 3.4 q= q= q= q=4

19 L2正則化 正則化項 (wの影響を小さくする効果) Wの2ノルムによる正則化であるので、L2正則化と呼ぶ
最適なwはL(w)を微分して0とすれば上記のように解析的に閉じた式で求まる。 これはφ(X)とλの案配よって決まり、どの成分も強制的にゼロにしようという力は働かない

20 L2正則化のイメージ W1 最短の2乗距離で結ぶ W2

21 L1正則化 L2正則化ではwの最適値  を損失Lの微分で閉じた式で求められたが、L1正則化では|w|がw=0で微分できないので、ややこしくなる。 L1正則化を行う逐次的な方法と   L1正則化がwの要素の多くをゼロ化する傾向を以下で説明する

22 L1正則化イメージ: (1) 軸でのLossの微分=0として を求める 3 2 1 W1 Loss+L1の 最小距離で 結ぶ
L1正則化イメージ:  (1) 軸でのLossの微分=0として  を求める W1 3                                                                                                        Loss+L1の 最小距離で 結ぶ Case 3 では、W2=0となる 2 1 W2 Loss L1

23 L1正則化イメージ: (2) 軸でのLossの微分=0として を求める 3 2 1 W1 Loss+L1の 最小距離で 結ぶ
L1正則化イメージ: (2) 軸でのLossの微分=0として  を求める W1 3                                                                                                        Loss+L1の 最小距離で 結ぶ Case 3 では、W2=0となる 2 1 W2 Loss L1

24 L1正則化イメージ: (3) 軸でのLossの微分=0として を求める 3 2 1 W1 Loss+L1の 最小距離で 結ぶ
L1正則化イメージ: (3) 軸でのLossの微分=0として  を求める W1 3                                                                                                        Loss+L1の 最小距離で 結ぶ Case 3 では、W2=0となる 2 1 W2 (1)(2)(3)で2本の赤い矢印線の長さの和が変わらない点に注目 以下でL1正則化に関してもう少し細かく議論する。 Loss L1

25 ある次元dに着目してL(w)を最小化するようなwdを求める。
これを各次元について繰り返し、 L(w)の最小化を図る。 wdについてL(w)を書き直すと       とおきwdの最適値を求めたいが絶対値を含む第2項L1(w)が微分できないので、ひとまずLoss(w)を微分して0とおくと

26 これを用いてL(w)を書き換える。ただし、wdに関係しないところは当面定数と見なせるので、無視した。

27

28 W全体の正則化 [step 1] w の各要素を適当な値に初期化 [step 2] w の各要素の値w_k(k=1,..,K)が収束するまで以下step 3,4,5 を繰り返す [step 3] k=1,.., Kでstep 4,step 5を繰り返す [step 4] wj (j ≠ k)を用いて case1,2,3にし たがってwjを計算してゼロ化 [step 5] wkを更新 [step 6] 収束したらwの最終結果とする

29 wdのゼロ化のイメージ

30 L1正則化が支配的になり をゼロ化する様子を下図で例示する
L(wd) λ大 λ小 wd 正規化項L1が支配的 2乗誤差Lossが支配的

31 正則化項のBayes的解釈 Bayesでは事後確率は 観測データの確率×事前確率 事後確率を最大化するパラメタηを求めたい
   観測データの確率×事前確率 事後確率を最大化するパラメタηを求めたい ここで対数尤度にしてみると、次のように解釈できる 損失関数 正則化項

32 例:事前分布、事後分布とも正規分布 事前分布のwの分散:λー1 とも見える。

33 例:事前分布がLaplace分布、事後分布が正規分布

34 以上、述べてきた線形回帰のよるモデル化は、生成モデル
当然、線形の識別モデルもある。次以降は線形識別モデルの話

35 線形識別   と  の領域の境界面を線形関数として求める

36 線形識別 データ: xがいくつかのクラス(あるいはカテゴリー):Ckのどれかに属する。
例:新聞記事が「政治」「経済」「スポーツ」「芸能」「社会」などのクラスのどれかに属する場合。この場合、データ:xは例えば、記事に現れる単語の集合、など。 データ:xがK個のクラスの各々に属するかどうかの判定は(-1=属さない,1=属する)の2値を要素とするK次元ベクトル:yi=(-1,1,-1,..,1)で表される。 ただし、1つのクラスに属するか属さないかだけを識別すの場合は2クラス分類という。当然、 yi=ー1 or yi = 1 この属するか否かの判断をする式が線形の場合を線形識別という。

37 クラスC1に属するかC2(=notC1)に属するかは、次の通り if y(x)≥0 then データ:xはC1に属する
線形識別の関数 一般化線形識別の関数は以下 2クラス分類 クラスC1に属するかC2(=notC1)に属するかは、次の通り if y(x)≥0 then データ:xはC1に属する        otherwiseデータ:xはC2に属する                   (すなわちC1に属さない)

38 2値分類の直観的説明 y={-1,1}、xは2次元とする。(下図を参照)
境界面 y=-1 x1

39 線形識別関数の幾何学的解釈 xa 識別境界線 xb x xd w xc

40 線形識別関数の幾何学的解釈 xa 識別境界線 xb x xd w xc

41 wの計算方法:2クラス分類の場合 . すると新規のデータ:xは が正ならクラスC1に,負ならC2属する

42 すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる
もう少し詳しく書くと

43 これを最小化する   は   で微分して0とおけば、線形回帰のときと同様の計算により求まる。
微分は次式:

44 新規のデータxnewに対する予測を行うy(xnew)も求まる。
y(xnew)が大きいほどクラス C1 に属する可能性が高い。

45 wの計算方法 :多クラス分類の場合 . すると新規のデータ:xは が最大のkのクラスCkに属する

46 すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる
もう少し詳しく書くと

47 これを最小化する   は   で微分して0とおけば、線形回帰のときと同様の計算により求まる。
Trの微分は次式:

48 新規のデータxnewに対する予測を行うy(xnew)も求まる。
yi(xnew)が大きいほどそのクラス i に属する可能性が高い。  もちろん、 yi(xnew)が最大となるi のクラスに属すると考えるのが自然。だが。。。

49 生成モデルを利用した識別 識別はベイズ統計的には次式
N個のデータ:xk(k=1,..,N)があるクラスに属するかどうかの判定は(0=属さない,1=属する)の2値を要素とするN個のK次元ベクトル:y=(0,1,0,..,1)で表される。 以下のベイズ統計による分類では、属さない場合を-1ではなく0とすることに注意。 以下ではベイズ統計による2クラス分類をする場合に事後確率について考える。

50 Logistic sigmoid function

51 クラスC1,C2が共分散∑が等しい2つの 正規分布の場合の事後確率 p(C1|x)
式(s-1)によって以下のように導ける。 ∑が2つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

52 クラスC1,C2が共分散∑が等しい2つの 正規分布の場合の事後確率 p(C1|x)
∑が2つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

53 次に Maximum likelihood solution (つまりw,w0)を求める。これによって、各クラスの事後確率が求まる
ここで各クラスの事前確率が以下だったとする

54 (s-10)のlogすなわち log likelihood function を最大化することが目標
まず、最大化するπを求める。 (s-10)のlogのπに関する部分は次式(s-20) logp (π)

55 次に (s-10)の log を最大化する μ1 を求める。
(s-10)のlogのμ2 に関する部分は次式(s-30) logp (μ1 ) 同様にしてμ1も求めると

56 最後に (s-10)の log を最大化する精度行列 Λ=∑-1 (C1とC2共分散) を求める。
(s-10)のlogの∑ に関する部分は次式(s-40) logp (∑ ) logp (Λ )をΛ で微分して0とおき、 (s-10)の log を最大化するΛ =∑-1 を求める。 まず第1項の微分は線形代数学の公式より

57 次はTr(ΛS)をΛで微分して0とおき、 logp(Λ) を最大化するΛ を求める。

58 このようにして、教師データ集合{(xn,tn)n=1,
このようにして、教師データ集合{(xn,tn)n=1,..N}からμ1, μ2,Σ-1(=Λ),πが求まったので、これらを用いて定義されるw,w0も求まる。 未知データxがクラスC1に属する確率は なので、この分布を教師データから学習できた。

59 2乗誤差最小化の線形識別の問題点 この領域に青の境界線が引っ張られることあり。 この領域の判断が困難
そもそも、Yの値は正規分布を想定した理論なのに、{0、1}の2値しかとらないとして2乗誤差最小化を当てはめたところに無理がある。


Download ppt "3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化"

Similar presentations


Ads by Google