3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化

Slides:



Advertisements
Similar presentations
Mathematica による固有値計算の高速化 Eigenvalue calculation speed by Mathematica 情報工学部 06A2055 平塚翔太.
Advertisements

Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
0章 数学基礎.
データ解析
・力のモーメント ・角運動量 ・力のモーメントと角運動量の関係
電子情報工学科5年(前期) 7回目(21/5/2015) 担当:古山彰一
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
回帰分析.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
(ラプラス変換の復習) 教科書には相当する章はない
第4章 線形識別モデル 修士2年 松村草也.
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
決定木とランダムフォレスト 和田 俊和.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
第14章 モデルの結合 修士2年 山川佳洋.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
6. ラプラス変換.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
ルンゲクッタ法 となる微分方程式の解を数値的に解く方法.
パターン認識と機械学習 第2章:確率分布(後半)
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ポッツスピン型隠れ変数による画像領域分割
パターン認識特論 カーネル主成分分析 和田俊和.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
回帰分析入門 経済データ解析 2011年度.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 生成モデルを利用した識別 2乗誤差最小化の線形識別の問題点 by 中川裕志(東京大学)

線形モデル y=w1x+w0 y データ の分布状況から線形回帰式を求める w0 x

線形モデル 入力ベクトル:x から出力:y を得る関数がxの線形関数(wとxの内積) 一般に観測データはノイズを含んでいる。つまり 得られたN個の観測データ の組(y,X)に対して最適なwを推定する。 そこで、yと       の2乗誤差を最小化するようにwを選ぶ。

2乗誤差の最小化 正規方程式 と呼ばれる基本式

補遺:正規方程式の導出

正規方程式を解く簡単な例

用語:誤差、損失、目的関数 線形モデルで最小化したかったのは2乗誤差 真のモデルにおける値(2乗誤差におけるy)と  予測値(2乗誤差におけるXw)の差異を表す関数を損失関数(単に損失)あるいはLossと呼び、Lで表すことが多い。 上記のような最適化問題において最小化(一般的には最適化)したい関数を目的関数と呼ぶ。 線形モデルの2乗誤差最小化では  2乗誤差=損失=目的関数

線形モデルの一般化 基底関数 重み N個の観測データ(y,x)に対して 基底関数の例

{x(ベクトル),y}が観測データ(training data) w,βを決定する、即ち (p(y|x,w,β)を最大化) 正規方程式を求める別の方法 {x(ベクトル),y}が観測データ(training data) w,βを決定する、即ち (p(y|x,w,β)を最大化) N組のi.i.d.観測データすなわち教師データがあるとする。 1.2.5 Curve fitting re-visitedと酷似 すると次のページのようにp(y|x,w,β)が書ける。

log p(y|w,X,β)をw,βについて最大化したい。まず、wについて最大化する。 1.2.5 Curve fitting re-visitedと酷似

バイアスw0の部分だけに注目してみると 対数近似関数から最適なw0を によって求めると yの平均 基底関数の学習データの平均のw重み付き和

log p(y|w,X,β)をβに対して最大化 ただし、wは最適化されたものを用いる 精度βを求める。 log p(y|w,X,β)をβに対して最大化 ただし、wは最適化されたものを用いる yの予測値と観測された値の差の2乗の平均

幾何学的イメージ 新規データ:y φ2 (x) yからSに最も近い点(垂直に落としている) φ1(x)

計算の効率化 大きなdata setsに対して の右辺第1項の逆行列計算量が問題 特にデータの次元Nに対してO(N3)なので高次元だと大変   の右辺第1項の逆行列計算量が問題 特にデータの次元Nに対してO(N3)なので高次元だと大変 定石は、コレスキー分解O(N2)して上/下半3角行列で表現される連立方程式を2回解く L(w)を最小化するようなwの数値計算 目的関数(すなわち損失L(w))の減る方向へ進む( ーgradientをwに加える)方法をgradient descent は呼ばれ、最適化における基本的数値計算法である。

正則化項の導入 モデルを複雑にするほど学習データにはよく合致するが、学習データ以外のデータには弱いという過学習を起こす。 過学習を抑えるために、損失関数に正則化項を導入。 正則化項にはモデルをできるだけ簡単化する方向に作用する。 データが高次元の場合には次元削減効果あり。 Section 1.1

一般的な正則化項 q=2のときがL2正則化 q=1のときはLASSO: 1ノルムによる正則化なので L1正則化と呼ぶ Least Absolute Shrinkage and Selection Operator λが十分大きいと、wjのいくつかは0になりやすい  →  スパースなモデル q=0のときはL0正則化。解きにくい問題(上記2つと違い凸ではない) Figure 3.3

のもとで、L(w)を最小化する、と考える。 制約 のもとで、L(w)を最小化する、と考える。 Figure 3.4 q=0.5 q=1 q=2 q=4

L2正則化 正則化項 (wの影響を小さくする効果) Wの2ノルムによる正則化であるので、L2正則化と呼ぶ 最適なwはL(w)を微分して0とすれば上記のように解析的に閉じた式で求まる。 これはφ(X)とλの案配よって決まり、どの成分も強制的にゼロにしようという力は働かない

L2正則化のイメージ W1 最短の2乗距離で結ぶ W2

L1正則化 L2正則化ではwの最適値  を損失Lの微分で閉じた式で求められたが、L1正則化では|w|がw=0で微分できないので、ややこしくなる。 L1正則化を行う逐次的な方法と   L1正則化がwの要素の多くをゼロ化する傾向を以下で説明する

L1正則化イメージ: (1) 軸でのLossの微分=0として を求める 3 2 1 W1 Loss+L1の 最小距離で 結ぶ L1正則化イメージ:  (1) 軸でのLossの微分=0として  を求める W1 3                                                                                                        Loss+L1の 最小距離で 結ぶ Case 3 では、W2=0となる 2 1 W2 Loss L1

L1正則化イメージ: (2) 軸でのLossの微分=0として を求める 3 2 1 W1 Loss+L1の 最小距離で 結ぶ L1正則化イメージ: (2) 軸でのLossの微分=0として  を求める W1 3                                                                                                        Loss+L1の 最小距離で 結ぶ Case 3 では、W2=0となる 2 1 W2 Loss L1

L1正則化イメージ: (3) 軸でのLossの微分=0として を求める 3 2 1 W1 Loss+L1の 最小距離で 結ぶ L1正則化イメージ: (3) 軸でのLossの微分=0として  を求める W1 3                                                                                                        Loss+L1の 最小距離で 結ぶ Case 3 では、W2=0となる 2 1 W2 (1)(2)(3)で2本の赤い矢印線の長さの和が変わらない点に注目 以下でL1正則化に関してもう少し細かく議論する。 Loss L1

ある次元dに着目してL(w)を最小化するようなwdを求める。 これを各次元について繰り返し、 L(w)の最小化を図る。 wdについてL(w)を書き直すと       とおきwdの最適値を求めたいが絶対値を含む第2項L1(w)が微分できないので、ひとまずLoss(w)を微分して0とおくと

これを用いてL(w)を書き換える。ただし、wdに関係しないところは当面定数と見なせるので、無視した。

W全体の正則化 [step 1] w の各要素を適当な値に初期化 [step 2] w の各要素の値w_k(k=1,..,K)が収束するまで以下step 3,4,5 を繰り返す [step 3] k=1,.., Kでstep 4,step 5を繰り返す [step 4] wj (j ≠ k)を用いて case1,2,3にし たがってwjを計算してゼロ化 [step 5] wkを更新 [step 6] 収束したらwの最終結果とする

wdのゼロ化のイメージ

L1正則化が支配的になり をゼロ化する様子を下図で例示する L(wd) λ大 λ小 wd 0 正規化項L1が支配的 2乗誤差Lossが支配的

正則化項のBayes的解釈 Bayesでは事後確率は 観測データの確率×事前確率 事後確率を最大化するパラメタηを求めたい    観測データの確率×事前確率 事後確率を最大化するパラメタηを求めたい ここで対数尤度にしてみると、次のように解釈できる 損失関数 正則化項

例:事前分布、事後分布とも正規分布 事前分布のwの分散:λー1 とも見える。

例:事前分布がLaplace分布、事後分布が正規分布

以上、述べてきた線形回帰のよるモデル化は、生成モデル 当然、線形の識別モデルもある。次以降は線形識別モデルの話

線形識別   と  の領域の境界面を線形関数として求める

線形識別 データ: xがいくつかのクラス(あるいはカテゴリー):Ckのどれかに属する。 例:新聞記事が「政治」「経済」「スポーツ」「芸能」「社会」などのクラスのどれかに属する場合。この場合、データ:xは例えば、記事に現れる単語の集合、など。 データ:xがK個のクラスの各々に属するかどうかの判定は(-1=属さない,1=属する)の2値を要素とするK次元ベクトル:yi=(-1,1,-1,..,1)で表される。 ただし、1つのクラスに属するか属さないかだけを識別すの場合は2クラス分類という。当然、 yi=ー1 or yi = 1 この属するか否かの判断をする式が線形の場合を線形識別という。

クラスC1に属するかC2(=notC1)に属するかは、次の通り if y(x)≥0 then データ:xはC1に属する 線形識別の関数 一般化線形識別の関数は以下 2クラス分類 クラスC1に属するかC2(=notC1)に属するかは、次の通り if y(x)≥0 then データ:xはC1に属する        otherwiseデータ:xはC2に属する                   (すなわちC1に属さない)

2値分類の直観的説明 y={-1,1}、xは2次元とする。(下図を参照) 境界面 y=-1 x1

線形識別関数の幾何学的解釈 xa 識別境界線 xb x xd w xc

線形識別関数の幾何学的解釈 xa 識別境界線 xb x xd w xc

wの計算方法:2クラス分類の場合 . すると新規のデータ:xは が正ならクラスC1に,負ならC2属する

すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる もう少し詳しく書くと

これを最小化する   は   で微分して0とおけば、線形回帰のときと同様の計算により求まる。 微分は次式:

新規のデータxnewに対する予測を行うy(xnew)も求まる。 y(xnew)が大きいほどクラス C1 に属する可能性が高い。

wの計算方法 :多クラス分類の場合 . すると新規のデータ:xは が最大のkのクラスCkに属する

すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる もう少し詳しく書くと

これを最小化する   は   で微分して0とおけば、線形回帰のときと同様の計算により求まる。 Trの微分は次式:

新規のデータxnewに対する予測を行うy(xnew)も求まる。 yi(xnew)が大きいほどそのクラス i に属する可能性が高い。  もちろん、 yi(xnew)が最大となるi のクラスに属すると考えるのが自然。だが。。。

生成モデルを利用した識別 識別はベイズ統計的には次式 N個のデータ:xk(k=1,..,N)があるクラスに属するかどうかの判定は(0=属さない,1=属する)の2値を要素とするN個のK次元ベクトル:y=(0,1,0,..,1)で表される。 以下のベイズ統計による分類では、属さない場合を-1ではなく0とすることに注意。 以下ではベイズ統計による2クラス分類をする場合に事後確率について考える。

Logistic sigmoid function

クラスC1,C2が共分散∑が等しい2つの 正規分布の場合の事後確率 p(C1|x) 式(s-1)によって以下のように導ける。 ∑が2つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

クラスC1,C2が共分散∑が等しい2つの 正規分布の場合の事後確率 p(C1|x) ∑が2つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

次に Maximum likelihood solution (つまりw,w0)を求める。これによって、各クラスの事後確率が求まる ここで各クラスの事前確率が以下だったとする

(s-10)のlogすなわち log likelihood function を最大化することが目標 まず、最大化するπを求める。 (s-10)のlogのπに関する部分は次式(s-20) logp (π)

次に (s-10)の log を最大化する μ1 を求める。 (s-10)のlogのμ2 に関する部分は次式(s-30) logp (μ1 ) 同様にしてμ1も求めると

最後に (s-10)の log を最大化する精度行列 Λ=∑-1 (C1とC2共分散) を求める。 (s-10)のlogの∑ に関する部分は次式(s-40) logp (∑ ) logp (Λ )をΛ で微分して0とおき、 (s-10)の log を最大化するΛ =∑-1 を求める。 まず第1項の微分は線形代数学の公式より

次はTr(ΛS)をΛで微分して0とおき、 logp(Λ) を最大化するΛ を求める。

このようにして、教師データ集合{(xn,tn)n=1, このようにして、教師データ集合{(xn,tn)n=1,..N}からμ1, μ2,Σ-1(=Λ),πが求まったので、これらを用いて定義されるw,w0も求まる。 未知データxがクラスC1に属する確率は なので、この分布を教師データから学習できた。

2乗誤差最小化の線形識別の問題点 この領域に青の境界線が引っ張られることあり。 この領域の判断が困難 そもそも、Yの値は正規分布を想定した理論なのに、{0、1}の2値しかとらないとして2乗誤差最小化を当てはめたところに無理がある。